Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Question

Aibot92 @Aibot92

Python
CSV

Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Подскажите как правильно сделать сохранения результата парсинга (выдает ошибку по ключу):

ошибка:

Traceback (most recent call last):
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 62, in <module>
    pars()
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 58, in pars
    seve_file(phone, FILE)
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 17, in seve_file
    writer.writerow([items['title'], items['prise']])
KeyError: 'prise'

код скрипта:

from bs4 import BeautifulSoup
from selenium import webdriver
import time
import csv


URL = '>>>'
HEDARS = {}
FILE = 'mvd.csv'

def seve_file(item,path):
    with open(path, 'w', newline='') as file:
        writer = csv.writer(file, delimiter = ';')
        writer.writerow(['модель', 'цена'])
        for items in item:
            writer.writerow([items['title'], items['prise']])

def get_himl(url):
    driver = ('/Users/alexs/Desktop/py/Parsing/geckodriver')
    option = webdriver.FirefoxOptions()
    option.set_preference('dom.webdriver.enabled', False)
    browser = webdriver.Firefox(executable_path=driver, options=option)
    browser.get(url)
    time.sleep(2)
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)
    r = browser.page_source
    browser.quit()
    return r



def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='product-cards-layout product-cards-layout--grid')
    name = soup.find_all('a', class_='product-title__text product-title--clamp')
    prise = soup.find_all('span', class_='price__main-value ng-star-inserted')
    phone = []
    for name in name :
        phone.append({
            'title': name.get_text()
        })
    for prise in prise:
        phone.append({
            'prise' : prise.get_text().replace('\xa0', ' ')
        })
    return (phone)

def pars():
    phone = []

    for page in range(1,4):
        print(f'Анализ {page}  ...')
        a = URL + '&page=' + str(page)
        html = get_himl(a)
        phone.extend(get_content(html))
        seve_file(phone, FILE)
    print(f'найдено ' + str(len(phone)) + ' телефонов')


pars()

Вопрос задан более трёх лет назад
164 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

3 комментария

Aibot92 @Aibot92 Автор вопроса

хорошо , спасибо за совет по написанию, первая публикация на будущее учту.
что касаемо словаря
Делать лучше как словарь. {телефон: цена}
, именно в данном примере его не удалось реализовать, так как как на сайте у продукта нет карточки и я не смог придумать как собрать в словарь. Если подскажете как это сделать буду очень благодарен

Написано более трёх лет назад

Evgeniy _ @GeneD88

Aibot92,
можно так

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='product-cards-layout product-cards-layout--grid')
    names = soup.find_all('a', class_='product-title__text product-title--clamp')
    prices = soup.find_all('span', class_='price__main-value')
    phones = {}
    for name, price in zip(names, prices) :
        phones[name.get_text()] = price.get_text().replace('\xa0', ' ')
    return phones

Написано более трёх лет назад

Aibot92 @Aibot92 Автор вопроса

Evgeniy _, я более по простецки исправил :

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find('div', class_='product-cards-layout product-cards-layout--grid')
    name = soup.find_all('a', class_='product-title__text product-title--clamp')
    prise = soup.find_all('span', class_='price__main-value ng-star-inserted')

    n = len(items)
    phone = []

    for i in range (0,n):


        phone.append({
            'title': name[i].get_text(),
            'prise': prise[i].get_text().replace('\xa0', ' '),
        })

    return (phone)

но ваш вариант получше будет , большое спасибо за помощь

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 184 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 315 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 193 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 274 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 643 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 142 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 584 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 151 просмотр
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Dr. Bacon, потому что я только учусь и знаю данный метод, если подскажете как оптимальней написать код буду только рад)

Answer 1 · 2021-03-02 14:18:08

Во-первых, уважайте пользователей и приводите листинг ошибки.
Во-вторых, ошибка с ключом появляется потому, что вы неправильно собираете объект phone.
У вас он, если вы напишите правильно xpath, выглядит так (список):

[{'title': ' Смартфон Samsung Galaxy S21 128GB Phantom Violet (SM-G991B) '}, {'title': ' Смартфон Apple iPhone 12 128GB Black (MGJA3RU/A) '}, {'title': ' Смартфон Xiaomi Mi 10T 8+128GB Black '}, {'title': ' Смартфон Huawei Mate 40 Pro Mystic Silver (NOH-NX9) '}, {'title': ' Смартфон Nokia 3.4 3+64GB Blue (TA-1283) '}, {'title': ' Смартфон Xiaomi Redmi 9 3+32GB Carbon Grey '}, {'title': ' Смартфон Apple iPhone 11 128GB Black (MHDH3RU/A) '}, {'title': ' Смартфон Apple iPhone 11 64GB Black (MHDA3RU/A) '}, {'title': ' Смартфон Apple iPhone XR 64GB Black (MH6M3RU/A) '}, {'price': '67 990 руб.'}, {'price': '84 990 руб.'}, {'price': '40 990 руб.'}, {'price': '89 990 руб.'}, {'price': '11 490 руб.'}, {'price': '9 990 руб.'}, {'price': '59 990 руб.'}, {'price': '54 990 руб.'}, {'price': '44 990 руб.'}]

Делать лучше как словарь. {телефон: цена}

Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт