Как записать результат парсинга в две колонки xls, как решить проблему с кодировкой?

Question

dzhazagalieva @dzhazagalieva

Как записать результат парсинга в две колонки xls, как решить проблему с кодировкой?

Здравствуйте, сразу две проблемы.
1. По идее в конечной таблице должно быть 2 колонки (caption, url), но вопреки ожиданиям запись идет в одну.
caption и url записываются вмечте, через запятую. Каждая вторая строчка пропускается.

2. Судя по всему парсинг идет до заголовка "Astérix & Obélix XXL 3: The Crystal Menhir: Обзор" и выдает:

Traceback (most recent call last):
File "parser_stopgame_v2.py", line 56, in
main()
File "parser_stopgame_v2.py", line 52, in main
get_page_data(html)
File "parser_stopgame_v2.py", line 39, in get_page_data
write_csv(data)
File "parser_stopgame_v2.py", line 20, in write_csv
data['url']) )
File "C:\Users\User\AppData\Local\Programs\Python\Python37\lib\encodings\cp1251.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\xe9' in position 3: character maps to

Как я понимаю, дело в символе "é". Как это испраавить?

from bs4 import BeautifulSoup as BS
import requests
import csv

def get_html(url):
    r = requests.get(url)
    return(r.text)

def get_total_pages(html):
    soup = BS(html, 'lxml')
    pages = soup.find('div', class_='pagination').find_all('a', class_="item")[-1].find('span').text
    return int(pages)

def write_csv(data):
    with open('stopgame.csv', 'a') as f:
        writer = csv.writer(f)

        writer.writerow( (data['caption'],
                          data['url']) )

def get_page_data(html):
    soup = BS(html, 'lxml')
    games = soup.find('div', class_='tiles').find_all('div', class_='caption')



    for game in games:
        try:
            caption = game.find('a').text
        except:
            caption = ''
        try:
            url = 'https://stopgame.ru' + game.find('a').get('href')
        except:
            url = ''
        data = {'caption': caption,
                'url': url}
        write_csv(data)
        
def main():
    url = 'https://stopgame.ru/review/new/p'
    total_pages = get_total_pages(get_html(url))

    for i in range(1, total_pages + 1):
        url_gen = url + str(i)
        #print(url_gen)
        html = get_html(url_gen)
        #print(get_page_data(html))
        get_page_data(html)

if __name__ == '__main__':
    main()

Вопрос задан более трёх лет назад
46 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 20 часов назад
- 107 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 196 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 533 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 538 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 130 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 564 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2020-06-19 20:03:36

1. Запись идет нормально, просто Excel не признает разделитель запятую. Используйте мастер Data -> From Text/CSV

2. Попробуйте

with open('stopgame.csv', 'a', encoding='utf-8') as f:

Answer 2 · 2020-06-19 20:06:27

1.

with open('stopgame.csv', 'a', encoding='utf-8') as f:

2. В CSV и не должно быть столбцов. Это просто данные, разделенные запятой. Если хотите столбцы, читайте как это сделать в вашей программе, в которую документ загружается.

Answer 3 · 2020-06-19 20:00:24

dzhazagalieva @dzhazagalieva Автор вопроса

Проблема с пропуском строки решена
with open('stopgame.csv', 'a', newline='') as f:
Остальные проблемы актуальны

Ответ написан более трёх лет назад

Комментировать

Как записать результат парсинга в две колонки xls, как решить проблему с кодировкой?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт