Как добавить новую пару в существующий словарь Python?

Question

yonshou @yonshou

Как добавить новую пару в существующий словарь Python?

Помогите пожалуйста в вопросе... Пишу парсер магазина, который должен проходить по ссылке каждого значения атрибута в фильтре, в отдельных категориях и собирать информацию по товарам в словарь, со структурой
productDict[article] = {
"Артикул": article,
"Наименование": title,
"Категория": subCatNamesList[subCatNameCount],
"Описание": description,
"Цена": price,
"Изображения": imagesUrlsList,
}
где ключ article - это Артикул товара который есть уникальным и у которого есть свой словарь... В этом подсловаре есть неизменные значения Артикул, Наименование, Категория, Описание, Цена, Изображения.... а так же должны присутствовать динамические значения являющие собой атрибут товара и значение атрибута, в коде они представлены как attrName и attrValue, которые изменяются по ходу цикла и должны добавляться в словарь когда мы проходим по каждому значению атрибута.
Проблема вот в чём... когда я пытаюсь добавить новую пару productDict[article][attrName] = attrValue, то она заменяет существующую пару {attrName: attrValue}, хотя значения этих переменных изменяются если выводить их через print().
В чём ошибка?

subCatUrls = soup.find_all("a", class_="catalog-main__item-link-wrapper")
					subCatUrlList = []
					for subCatUrl in subCatUrls:
						subCatUrl = subCatUrl.get("href")
						subCatUrlList.append(subCatUrl)

					subCatNameCount = 0

					count = 0

					productDict = dict()

					response = requests.get(subCatUrlList[1], headers=headers, verify=False)
					html = response.text
					soup = BeautifulSoup(html, "html.parser")

					checkBoxUrls = soup.find_all("input", class_="filter-main__element-checkbox")
					checkBoxUrlsList = []

					for checkBoxUrl in checkBoxUrls:
						checkBoxUrl = checkBoxUrl.get("data-href")
						if checkBoxUrl != subCatUrlList[1] + "/0:0":
							checkBoxUrlsList.append(checkBoxUrl)

					for checkBoxUrl in checkBoxUrlsList:
						response = requests.get(checkBoxUrl, headers=headers, verify=False)
						html = response.text
						soup = BeautifulSoup(html, "html.parser")

						attrName = soup.find("span", class_="filter__label").text
						attrValue = soup.find("span", class_="filter__delete-text").text

						prodItemUrlsList = []

						if soup.find_all("a", class_="paggination__page"):
							paggNums = soup.find_all("a", class_="paggination__page")
							for paggNum in paggNums:
								paggNum = paggNum.text

								response = requests.get(checkBoxUrl + ";page:" + paggNum, headers=headers, verify=False)
								html = response.text
								soup = BeautifulSoup(html, "html.parser")

								prodItemUrls = soup.find_all("a", class_="categories__item-img-wrapper")
								prodItemUrlsList = []
								for prodItemUrl in prodItemUrls:
									prodItemUrl = prodItemUrl.get("href")

									response = requests.get(prodItemUrl, headers=headers, verify=False)
									html = response.text
									soup = BeautifulSoup(html, "html.parser")

									article = soup.find("span", class_="card-header__card-articul-text-value").text.replace("\n","")
									title = soup.find("h1", class_="card-header__headline").text.replace("\n","")
									description = soup.find("div", class_="card-header__card-info-text").text.replace("\n","").replace("\t","")
									description = ' '.join(description.split())

									if soup.find("div", class_="card-header__card-price-new"):
										price = soup.find("div", class_="card-header__card-price-new").text.replace("\xa0","").replace("грн","")
									else:
										price = "0"

									imagesUrlsList = []
									if soup.find_all("img", class_="card-header__card-images-dots-image"):
										imagesUrls = soup.find_all("img", class_="card-header__card-images-dots-image")
										for imageUrl in imagesUrls:
											imageUrl = root_url + imageUrl.get("src")
											imagesUrlsList.append(imageUrl)

									else:
										imageUrl = soup.find("img", class_="card-header__card-images-image").get("src")
										imagesUrlsList.append(root_url + imageUrl)

									imagesUrlsList = ','.join(map(str, imagesUrlsList))

									productDict[article] = {
									"Артикул": article,
									"Наименование": title,
									"Категория": subCatNamesList[subCatNameCount],
									"Описание": description,
									"Цена": price,
									"Изображения": imagesUrlsList,
									}
									productDict[str(article)][str(attrName)] = str(attrValue)

									print(article)
									print(attrName + ": " + attrValue)
									count += 1
									print(count)
						else:

							response = requests.get(checkBoxUrl, headers=headers, verify=False)
							html = response.text
							soup = BeautifulSoup(html, "html.parser")

							prodItemUrls = soup.find_all("a", class_="categories__item-img-wrapper")
							prodItemUrlsList = []
							for prodItemUrl in prodItemUrls:
								prodItemUrl = prodItemUrl.get("href")

								response = requests.get(prodItemUrl, headers=headers, verify=False)
								html = response.text
								soup = BeautifulSoup(html, "html.parser")

								article = soup.find("span", class_="card-header__card-articul-text-value").text.replace("\n","")
								title = soup.find("h1", class_="card-header__headline").text.replace("\n","")
								description = soup.find("div", class_="card-header__card-info-text").text.replace("\n","").replace("\t","")
								description = ' '.join(description.split())

								if soup.find("div", class_="card-header__card-price-new"):
									price = soup.find("div", class_="card-header__card-price-new").text.replace("\xa0","").replace("грн","")
								else:
									price = "0"

								imagesUrlsList = []
								if soup.find_all("img", class_="card-header__card-images-dots-image"):
									imagesUrls = soup.find_all("img", class_="card-header__card-images-dots-image")
									for imageUrl in imagesUrls:
										imageUrl = root_url + imageUrl.get("src")
										imagesUrlsList.append(imageUrl)

								else:
									imageUrl = soup.find("img", class_="card-header__card-images-image").get("src")
									imagesUrlsList.append(root_url + imageUrl)

								imagesUrlsList = ','.join(map(str, imagesUrlsList))

								productDict[article] = {
								"Артикул": article,
								"Наименование": title,
								"Категория": subCatNamesList[subCatNameCount],
								"Описание": description,
								"Цена": price,
								"Изображения": imagesUrlsList,
								}
								productDict[str(article)][str(attrName)] = str(attrValue)

								count += 1
								print(count)
					print(productDict)
					subCatNameCount += 1

Вопрос задан более года назад
153 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

8 комментариев

yonshou @yonshou Автор вопроса

Работает отлично, спасибо! Только работает с одномерным словарём, а мне нужно обновлять значения во вложенном словаре

my_dict[article].update({attrName: attrValue}) - где переменная article изменяется в цикле, и при такой конструкции выдаёт ошибку KeyError, типа не находит такого ключа, если я его обьявляю за ранее my_dict[article] = {}, ошибка пропадает, но каждый раз затирает старые значения. По тому как я изучал словари в Питоне, я помню главный принцип... Если ключа не существует, должен создаться новый ключ, а при существующем - обновить значения того ключа... но на практике что то не выходит

Написано более года назад
Алан Гибизов @phaggi Куратор тега Python

yonshou, а сделайте минимальный тестовый код, демонстрирующий проблему. Чтоб скопипастить, запустить и увидеть ошибку.

Написано более года назад

yonshou @yonshou Автор вопроса

Алан Гибизов,

spoiler

import csv
import unicodecsv as csv
import requests
from bs4 import BeautifulSoup
import os, sys

requests.packages.urllib3.disable_warnings()

PATH = os.path.abspath(os.path.dirname(sys.argv[0])) + '\\'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
subCatUrl = "https://viatec.ua/catalog/pribori-nichnogo-bachennia"

productDict = dict()

response = requests.get(subCatUrl, headers=headers, verify=False)
html = response.text
soup = BeautifulSoup(html, "html.parser")

checkBoxUrls = soup.find_all("input", class_="filter-main__element-checkbox")
checkBoxUrlsList = []

for checkBoxUrl in checkBoxUrls:
	checkBoxUrl = checkBoxUrl.get("data-href")
	if checkBoxUrl != subCatUrl + "/0:0":
		checkBoxUrlsList.append(checkBoxUrl)

productDict = dict()

for checkBoxUrl in checkBoxUrlsList:
	response = requests.get(checkBoxUrl, headers=headers, verify=False)
	html = response.text
	soup = BeautifulSoup(html, "html.parser")

	attrName = soup.find("span", class_="filter__label").text
	attrValue = soup.find("span", class_="filter__delete-text").text

	prodItemUrlsList = []

	if soup.find_all("a", class_="paggination__page"):
		paggNums = soup.find_all("a", class_="paggination__page")
		paggPageList = []
		for paggNum in paggNums:
			paggNum = paggNum.text
			paggPageList.append(checkBoxUrl + ";page:" + paggNum)

		for paggPage in paggPageList:
			response = requests.get(paggPage, headers=headers, verify=False)
			html = response.text
			soup = BeautifulSoup(html, "html.parser")

			prodArticles = soup.find_all("p", class_="categories__item-code")

			for prodArticle in prodArticles:
				prodArticle = prodArticle.text
				productDict[prodArticle][attrName] = attrValue

	else:

		prodArticles = soup.find_all("p", class_="categories__item-code")

		for prodArticle in prodArticles:
			prodArticle = prodArticle.text
			productDict[prodArticle][attrName] = attrValue

	print(productDict)

Ошибка

spoiler

Traceback (most recent call last):
File "1.py", line 64, in
productDict[prodArticle][attrName] = attrValue
KeyError: '99-00013933'
[Finished in 1.7s]

Написано более года назад

Алан Гибизов @phaggi Куратор тега Python
yonshou,

во-первых, выполнить этот код не получается, т.к. кое-где заблокирован интернет-ресурс, отваливается по тайм-ауту;

во-вторых, это, конечно, не минимальный вариант. В минимальном варианте надо повыкидывать всё лишнее, оставить только фрагмент про словари, и обвесить его входящими данными и выводом. Мне лично лень это делать, если тебе надо - ты сделай, тогда может найдется кто подскажет.

Ну и в-третьих, раз код становится большим, имеет смысл его разделить, выделить функции и каждую функцию можно будет отдельно допиливать. Грубо говоря - код делает это и то и то и еще вот это. На каждое то и это делаем свою функцию, и вызываем их из main в нужном порядке, передавая аргументы и получая результаты работы. Короче, раз код сложный и начинает путать педали, пора рефакторить.
Написано более года назад
yonshou @yonshou Автор вопроса
Алан Гибизов, подскажите пожалуйста, как добавлять новые пары для вложенного словаря по типу

productDict[prodArticle].update({attrName: attrValue})

выдаёт ошибку KeyError: '99-00013933', где '99-00013933' - это артикул товара. Почему Питон не может воспринимать это как новый ключ и обновить его вложенный словарь?
Метод update() работает только со словарём или же и с ключами этого словаря?

Почему при следующей конструкции значения вложенного словаря заменяются вместо добавления, если переменные attrName и attrValue динамические, и должны служить именами новыйх пар, а не заменять существующие

productDict[prodArticle] = { attrName: attrValue }
Написано более года назад
yonshou @yonshou Автор вопроса
yonshou, Всё, нашёл решение!

if prodArticle in productDict: productDict[prodArticle].update({attrName: attrValue}) else: productDict[prodArticle] = {attrName: attrValue}

Теперь оно прекрасно добавляет несуществующее пары, и на ключ изначально не ругается потому что мы делаем проверку на наличие этого ключа в словаре, если его нет - создаём его, если есть - обновляем его значения.
Написано более года назад
Алан Гибизов @phaggi Куратор тега Python

yonshou, рекомендую опубликовать как ответ и пометить решением.

Написано более года назад
Алан Гибизов @phaggi Куратор тега Python

yonshou, кстати, есть альтернативный путь - делать update в лоб, без if, но обернув его в try с проверкой except на ошибку KeyError. В случае ошибки добавлять ключ. Таким образом относительно тяжелая операция if не будет дергаться всякий раз.

Кстати, я встречал, что разрабы python рекомендуют использовать try/except в подобных примерах, как pythonic way. Это спорно, но имеет право на существование.

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 165 просмотров
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 257 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 219 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 147 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 118 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 251 просмотр
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 143 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 259 просмотров
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

отформатируйте код более корректно, у вас чуть съехало. И под спойлер такой большой текст лучше спрятать

Answer 1 · 2024-02-12 22:48:47

Алан Гибизов @phaggi Куратор тега Python

лужу, паяю, ЭВМы починяю

С телефона не осилил код, но в общем случае добавлять надо так:

my_dict = {“key”: “value”}
my_dict.update({“new_key”: “new_value”})

Ответ написан более года назад

8 комментариев

Как добавить новую пару в существующий словарь Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт