Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Question

Aibot92 @Aibot92

Python
CSV

Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Подскажите как правильно сделать сохранения результата парсинга (выдает ошибку по ключу):

ошибка:

Traceback (most recent call last):
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 62, in <module>
    pars()
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 58, in pars
    seve_file(phone, FILE)
  File "/Users/alexs/Desktop/py/Parsing/parsing_mvi.py", line 17, in seve_file
    writer.writerow([items['title'], items['prise']])
KeyError: 'prise'

код скрипта:

from bs4 import BeautifulSoup
from selenium import webdriver
import time
import csv


URL = '>>>'
HEDARS = {}
FILE = 'mvd.csv'

def seve_file(item,path):
    with open(path, 'w', newline='') as file:
        writer = csv.writer(file, delimiter = ';')
        writer.writerow(['модель', 'цена'])
        for items in item:
            writer.writerow([items['title'], items['prise']])

def get_himl(url):
    driver = ('/Users/alexs/Desktop/py/Parsing/geckodriver')
    option = webdriver.FirefoxOptions()
    option.set_preference('dom.webdriver.enabled', False)
    browser = webdriver.Firefox(executable_path=driver, options=option)
    browser.get(url)
    time.sleep(2)
    browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)
    r = browser.page_source
    browser.quit()
    return r



def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='product-cards-layout product-cards-layout--grid')
    name = soup.find_all('a', class_='product-title__text product-title--clamp')
    prise = soup.find_all('span', class_='price__main-value ng-star-inserted')
    phone = []
    for name in name :
        phone.append({
            'title': name.get_text()
        })
    for prise in prise:
        phone.append({
            'prise' : prise.get_text().replace('\xa0', ' ')
        })
    return (phone)

def pars():
    phone = []

    for page in range(1,4):
        print(f'Анализ {page}  ...')
        a = URL + '&page=' + str(page)
        html = get_himl(a)
        phone.extend(get_content(html))
        seve_file(phone, FILE)
    print(f'найдено ' + str(len(phone)) + ' телефонов')


pars()

Вопрос задан более трёх лет назад
166 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

3 комментария

Aibot92 @Aibot92 Автор вопроса

хорошо , спасибо за совет по написанию, первая публикация на будущее учту.
что касаемо словаря
Делать лучше как словарь. {телефон: цена}
, именно в данном примере его не удалось реализовать, так как как на сайте у продукта нет карточки и я не смог придумать как собрать в словарь. Если подскажете как это сделать буду очень благодарен

Написано более трёх лет назад

Evgeniy _ @GeneD88

Aibot92,
можно так

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find_all('div', class_='product-cards-layout product-cards-layout--grid')
    names = soup.find_all('a', class_='product-title__text product-title--clamp')
    prices = soup.find_all('span', class_='price__main-value')
    phones = {}
    for name, price in zip(names, prices) :
        phones[name.get_text()] = price.get_text().replace('\xa0', ' ')
    return phones

Написано более трёх лет назад

Aibot92 @Aibot92 Автор вопроса

Evgeniy _, я более по простецки исправил :

def get_content(html):
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.find('div', class_='product-cards-layout product-cards-layout--grid')
    name = soup.find_all('a', class_='product-title__text product-title--clamp')
    prise = soup.find_all('span', class_='price__main-value ng-star-inserted')

    n = len(items)
    phone = []

    for i in range (0,n):


        phone.append({
            'title': name[i].get_text(),
            'prise': prise[i].get_text().replace('\xa0', ' '),
        })

    return (phone)

но ваш вариант получше будет , большое спасибо за помощь

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 144 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 102 просмотра
1

ответ
CSV

+1 ещё

Простой
Как перевести большие CSV файлы через ИИ?
- 1 подписчик
- 27 нояб.
- 119 просмотров
2

ответа
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 90 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 92 просмотра
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 237 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 271 просмотр
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 171 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 271 просмотр
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Dr. Bacon, потому что я только учусь и знаю данный метод, если подскажете как оптимальней написать код буду только рад)

Answer 1 · 2021-03-02 14:18:08

Во-первых, уважайте пользователей и приводите листинг ошибки.
Во-вторых, ошибка с ключом появляется потому, что вы неправильно собираете объект phone.
У вас он, если вы напишите правильно xpath, выглядит так (список):

[{'title': ' Смартфон Samsung Galaxy S21 128GB Phantom Violet (SM-G991B) '}, {'title': ' Смартфон Apple iPhone 12 128GB Black (MGJA3RU/A) '}, {'title': ' Смартфон Xiaomi Mi 10T 8+128GB Black '}, {'title': ' Смартфон Huawei Mate 40 Pro Mystic Silver (NOH-NX9) '}, {'title': ' Смартфон Nokia 3.4 3+64GB Blue (TA-1283) '}, {'title': ' Смартфон Xiaomi Redmi 9 3+32GB Carbon Grey '}, {'title': ' Смартфон Apple iPhone 11 128GB Black (MHDH3RU/A) '}, {'title': ' Смартфон Apple iPhone 11 64GB Black (MHDA3RU/A) '}, {'title': ' Смартфон Apple iPhone XR 64GB Black (MH6M3RU/A) '}, {'price': '67 990 руб.'}, {'price': '84 990 руб.'}, {'price': '40 990 руб.'}, {'price': '89 990 руб.'}, {'price': '11 490 руб.'}, {'price': '9 990 руб.'}, {'price': '59 990 руб.'}, {'price': '54 990 руб.'}, {'price': '44 990 руб.'}]

Делать лучше как словарь. {телефон: цена}

Как корректно осуществить сохранение результата после парсинга BeautifulSoup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт