При прасинге страницы некорректно отображается кирилица. Как исправить?

Question

Andrei Sayevich @Soerrrrrr

да, только в 2020 я начал учить программирование)

При прасинге страницы некорректно отображается кирилица. Как исправить?

При парсинге сайта весь текст что на кирилице отображается в таком виде "Ñ\x80ÐµÑ\x81Ñ\x82Ð°Ð¹Ð»Ð¸Ð½Ð³".
если местами и удается заменить это на что-то читабельное, но местами это невозможно....

Как исправить ?

И да ... опять же.. при выгрузке в .csv то что я указываю кирилицей тоже отображается на "клингонском языке"

import requests
from bs4 import BeautifulSoup
import csv

URL = "https://cars.av.by/subaru"
HEADERS = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36" , "Accept": "*/*"}
FILE = "cars.csv"

def get_html(url, params=None):
    r = requests.get(url, headers=HEADERS,)
    return r


def get_pages_count(html):
    soup = BeautifulSoup(html, "html.parser")
    pagination = soup.find_all("li",class_="pages-arrows-index")
    if pagination:
        return int(soup.find("li",class_="pages-arrows-index").get_text().replace("1 Ð¸Ð· ",""))
    else:
        return 1


def get_content(html):
    soup = BeautifulSoup(html, "html.parser")
    items = soup.find_all('div', class_="listing-item")
    cars = []
    for item in items:
        cars.append({
            "title":    item.find("div", class_="listing-item-title").find("a").get_text().replace("\n                            ","").replace("                        ","").replace("(Ñ\x80ÐµÑ\x81Ñ\x82Ð°Ð¹Ð»Ð¸Ð½Ð³)","(рестайлинг)"),
            "link":     item.find("div", class_="listing-item-title").find("a").get("href"),
            "bny":      item.find("div", class_="listing-item-price").find("strong").get_text().replace("Ñ\x80.","бел.руб"),
            "usd":      item.find("div", class_="listing-item-price").find("small").get_text() + " $",
            #"сity":     item.find("div", class_="listing-item-location").find("p").get_text(), ТУТ ХЗ ЧЕГО 
        })
    return cars


def save_files(items, path):
    with open(path, "w", newline="", encoding='utf-8') as file:
        writer = csv.writer(file, delimiter=";")
        writer.writerow(["Марка", "Ссылка", "Цена в BNY", "Цена в $"])
        for item in items:
            writer.writerow([item["title"], item["link"], item["bny"], item["usd"]])


def parse():
    html = get_html(URL)
    print(html.url)
    if html.status_code == 200:
        cars = []
        pages_count = get_pages_count(html.text)
        for page in range(1, pages_count + 1):
            #html = get_html(URL, params={"page":page})
            html = get_html(URL + f'/page/{page}')
            print(f"Парсинг страницы {page} из {pages_count}...{html.url}")
            cars.extend(get_content(html.text))

        save_files(cars, FILE)
        print(cars)
        print(f'Получено {len(cars)} автомобилей')
    else:
        print("Error")
parse()

Вопрос задан более трёх лет назад
217 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+2 ещё

Средний
Возможно ли сделать так, чтобы Telegram GPT-Yandex.Cloud Бот отвечал не только на текстовые сообщения, но и на картинки? И если да, то как?
- 1 подписчик
- 3 минуты назад
- 4 просмотра
1

ответ
Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 2 часа назад
- 22 просмотра
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 5 часов назад
- 43 просмотра
1

ответ
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 6 часов назад
- 61 просмотр
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 7 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 8 часов назад
- 52 просмотра
0

ответов
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 9 часов назад
- 12 просмотров
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 20 часов назад
- 118 просмотров
1

ответ
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 22 часа назад
- 75 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- вчера
- 46 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Разработать несистемный алерт

19 апр. 2024, в 20:11

500 руб./за проект

Answer 1 · 2020-06-02 16:38:57

Вот так можно получить "читаемый" html:

url = 'https://cars.av.by/subaru'
response = requests.get(url,headers=headers)
response.encoding = response.apparent_encoding
print(response.text)

Только вам в парсере нужно подкорректировать строки вида:
replace("1 Ð¸Ð· ",""))
заменить строки вида '1 Ð¸Ð·' на русские.

Answer 2 · 2020-06-02 16:04:36

Hemul GM @HemulGM Куратор тега Python

Delphi Developer, сис. админ

UTF8 кодировка потому что

Ответ написан более трёх лет назад

1 комментарий

Answer 3 · 2020-09-17 14:15:57

Перед выводом item в csv добавь
.encode('latin1').decode('utf8')
Иногда помогает

writer.writerow([item["city"].encode('latin1').decode('utf8')])

При прасинге страницы некорректно отображается кирилица. Как исправить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт