Как записать результаты на русском в файл xls или csv на Python?

Question

TheAM @TheAM

Как записать результаты на русском в файл xls или csv на Python?

Сформировал скрипт:

from requests_html import HTMLSession
from time import sleep
import random

session = HTMLSession()

# Создаем файл для записи данных
xls_name = f'example-{random.randint(1, 100)}.xls'
with open(xls_name, 'w', encoding='cp1251') as itog:
    itog.write('URL\tH1\tTitle\tDescription\n')

# Открываем файл с URl-страниц и получаем дпанный по каждой странице
with open('list-url.txt', 'r') as url_file:
    for line in url_file:
        url_site = line.strip('\n')

        # Делаем запрос по URL
        response = session.get(url_site)

        h1 = response.html.xpath('//h1/text()')[0]
        title = response.html.xpath('//title/text()')[0]
        description = response.html.xpath('//meta[@name="description"]/@content')[0]

        # Записываем URL, H1, title и description в файл
        with open(xls_name, 'a', encoding='cp1251') as itog:
            itog.write(f'{url_site}\t{h1}\t{title}\t{description}\n')

        print(f'Готово для страницы – {url_site}')
        sleep(2)

В файле list-url.txt указываю список URL страниц, с которых хочу получить H1, title и description. Почему-то один URL корректно парсится, а потом вылетает ошибка:

То есть проблема к кодировке при записи? Или в чем-то другом? Операционка Винда 10. Еще уточнение - если здесь:

меняю кодировку на 'utf-8', то информация парсится, но в файле у меня вот так:

Вопрос задан более трёх лет назад
251 просмотр

9 комментариев

Подписаться 1 Простой 9 комментариев

Александр @shabelski89

попробуйте добавить response.encoding = 'utf-8' или для, например title - title.encode('utf-8').decode(''utf-8')

Написано более трёх лет назад
TheMerenkov @TheMerenkov

Александр, могли бы вы подсказать - как именно в коде в предлагаете добавить?

Вы так имеете в виду или как?

Написано более трёх лет назад
Александр @shabelski89

TheMerenkov, там где присвоили tilte, следующей строкой добавьте print(title) чтобы увидеть что оно из себя представляет?

Написано более трёх лет назад
TheMerenkov @TheMerenkov

Александр, - в консоли отображается так. Добавил вывод тут:

Написано более трёх лет назад
Александр @shabelski89

сохранять нужно в utf-8, Вы всё правильно делаете. Ошибка в excel, он по умолчанию открывает как cp1251.
откройте пустую книгу excel, перейдите на вкладку Данные, импорт из тестового или csv файла. При импорте можно указать unicode. ( откройте этот же файл notepad++ и все будет, и плюс будет видна кодировка)

Написано более трёх лет назад
TheMerenkov @TheMerenkov

Александр, Александр, спасибо! С помощью notepad++ получается корректно.
А неужели невозможно сразу записывать в файл в корректной кодировке? Или вся проблема в excel?

Написано более трёх лет назад
Александр @shabelski89

TheMerenkov, проблема в ексель, он по умолчанию открывает в виндовой кодировке, сделайте как я писал выше и он тоже будет отображать правильно.

Написано более трёх лет назад
TheAM @TheAM Автор вопроса

Александр, можете подсказать, как это записать?

Я добавлял, но либо делаю это некорректно, либо еще что) У меня пишет, что 'инвалид синтаксис'.

Написано более трёх лет назад
Александр @shabelski89

TheAM, нет, это я уже на ночь глядя бред написал, у Вас уже всё правильно было. Выходной файл в UTF-8, нужно задать экселю формат по умолчанию. Вот тут > пишут как.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 181 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 270 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 229 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 150 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 124 просмотра
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

попробуйте добавить response.encoding = 'utf-8' или для, например title - title.encode('utf-8').decode(''utf-8')
Александр, могли бы вы подсказать - как именно в коде в предлагаете добавить?

Вы так имеете в виду или как?
TheMerenkov, там где присвоили tilte, следующей строкой добавьте print(title) чтобы увидеть что оно из себя представляет?
Александр, - в консоли отображается так. Добавил вывод тут:
сохранять нужно в utf-8, Вы всё правильно делаете. Ошибка в excel, он по умолчанию открывает как cp1251.
откройте пустую книгу excel, перейдите на вкладку Данные, импорт из тестового или csv файла. При импорте можно указать unicode. ( откройте этот же файл notepad++ и все будет, и плюс будет видна кодировка)
Александр, Александр, спасибо! С помощью notepad++ получается корректно.
А неужели невозможно сразу записывать в файл в корректной кодировке? Или вся проблема в excel?
TheMerenkov, проблема в ексель, он по умолчанию открывает в виндовой кодировке, сделайте как я писал выше и он тоже будет отображать правильно.
Александр, можете подсказать, как это записать?

Я добавлял, но либо делаю это некорректно, либо еще что) У меня пишет, что 'инвалид синтаксис'.
TheAM, нет, это я уже на ночь глядя бред написал, у Вас уже всё правильно было. Выходной файл в UTF-8, нужно задать экселю формат по умолчанию. Вот тут > пишут как.

Как записать результаты на русском в файл xls или csv на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт