Как парсить кирилицу с помощью BeautifulSoup в Python3?

Question

vlzemtsov @vlzemtsov

Python

Как парсить кирилицу с помощью BeautifulSoup в Python3?

Добрый день.
Хочу парсить одну страницу в интернете, в которой есть таблица, заполненная кирилицей.
Примерно такой код:

<table class="table name">
    <tr>
        <th>Заголовок</th>
    </tr>
    <tr>
        <td>Тест0101</td>
        <td>Тест0102</td>
    </tr>
        <tr>
        <td>Тест0201</td>
        <td>Тест0202</td>
    </tr>
    <tr>
        <th>Заголовок 2</th>
    </tr>
    <tr>
        <td>Тест0301</td>
        <td>Тест0302</td>
    </tr>
</table>

Получается примерно такая таблица (Да, границ нет, но я думаю вы меня поняли):

Хочу считывать эту таблицу и с зависимости от значений, делать что-то:

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup

html = getHtml(url)   #У меня написана функция, которая достает html-код и мне влом ее дублировать
soup = BeautifulSoup(html, "html.parser")

table = soup.find("table", {"class": "table name"})

for row in table01.find_all('tr'):
        cols = row.find_all('td')
        
        if cols != []:       #Исключаем заголовки у них нет td
            typeName = "Тест0101"
            if cols[0].text == typeName:
                print("kek")

Однако на выходе я "kek" не получаю никак. Кодировка сайта - utf-8.
Пробовал всякие .encode('utf-8') - не помогает

Вопрос задан более трёх лет назад
1188 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

vlzemtsov @vlzemtsov Автор вопроса
Ок поменял строчку :
if cols[0].text == typeName:

на
if cols[0].text.encode('utf-8') == typeName.encode('utf-8'):

Ничего не поменялось
Написано более трёх лет назад
vlzemtsov @vlzemtsov Автор вопроса

Pavel Denisov, ответил уже, что сначала я вывод сделал и там все норм - кириллицей

Написано более трёх лет назад
Dimonchik @dimonchik2013

chardet поможет упорству

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 200 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 525 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 486 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 277 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 501 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 212 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 124 просмотра
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 660 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Pavel Denisov, Это я с самого начала сделал. На консоль выдает то что нужно в кирилице
Вот так получается:
Тест0101 Тест0101 False
Pavel Denisov,
В общем - переустановил python3 - заработало. Видимо что-то сбилось.

Сделал это после того, как запустил с помощью Python2.7 и все отработало хорошо.

СПАСИБО!

Answer 1 · 2017-11-23 22:13:27

Dimonchik @dimonchik2013

non progredi est regredi

кириллица отлично парсится в utf8, если сервер отдает не в ней - нужно перекодировать в нее

Ответ написан более трёх лет назад

3 комментария

Как парсить кирилицу с помощью BeautifulSoup в Python3?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт