Как правильно распарсить блок на Python?

Question

AlexRAV @AlexRAV

Как правильно распарсить блок на Python?

Почему Beautiful Soup неправильно парсит этот блок?
Вот упрощенный код, на нем баг тоже воспроизводится:

soupIndex = BeautifulSoup('''<div class="vk-comment">
                    <div class="vk-avatar">
                        <img src="img.png">
                    </div>
                    <div class="vk-comment-name">
                        Имя автора
                    </div>
                    <div class="vk-comment-text">
                        <p>
                            Текст коммента
                        </p>
                    </div>
                    <div class="vk-comment-date">
                        17 минут назад
                    </div>
                </div>''')
template = soupIndex.select_one('.vk-comment')
print(template)

В данной вариации при выводе появляются два лишних div-а... Если длину комментария увеличить в несколько раз, тогда начинает копироваться блок vk-comment-date. Я так понимаю Чем длиннее в символьном представлении этот блок, тем большее количество символов дублируется с конца.

UPD: в качестве парсера по умолчанию стоит html5lib, ОС - Windows 7. Пробовал html parser, там вообще какая-то ахинея творится, тэгу img, например добавляется закрывающий тэг.

Вопрос задан более трёх лет назад
1118 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

3 комментария

AlexRAV @AlexRAV Автор вопроса

Vadim kyklaed нет, мне нужно видоизменить этот блок. То есть на основе этого блока сгенерировать список. В любом случае не могу понять что не так с этим блоком, что парсеры перестают работать нормально

Написано более трёх лет назад
Vadim kyklaed @kyklaed

AlexRAV: список из чего надо сгенеририровать ? из всех тегов итд и всего что в них ?

Написано более трёх лет назад
AlexRAV @AlexRAV Автор вопроса

Vadim kyklaed да, то есть на выходе должен получиться список из элементов с такой же структурой как в примере, только со своим текстом внутри тэгов.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 551 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 281 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 509 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-11-13 07:03:50

Проблема была в неправильном отображении в консоли, записал данные в файл, там нормально отображаются.

Answer 2 · 2016-11-12 19:30:36

Vadim kyklaed @kyklaed

вам нужны данные из всех div ?

for i in soupIndex.find_all('div'):
    print(i['class'])

Ответ написан более трёх лет назад

3 комментария

Answer 3 · 2016-11-12 20:02:54

предобрабатывай

ты же, наверно, это из АПИ какого-то получаешь, проверяй, что за данные приходят

P.s. рекомендую lxml

Как правильно распарсить блок на Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт