Как парсить данные из html файла?

Question

Richard Kamsky @Richard_Kamsky

Как парсить данные из html файла?

Всем привет. Есть HTML файл с комментариями, нужно спарсить их. Я на самом деле из браузера скопировал html кусок с комментами и сохранил в файл.
Потому, что на сайте эти комменты не лежал по умолчанию, они тянутся с сервиса cackle. И bs4 на python их не получает. Теперь хочу с файла попробовать данные, только не пойму как с файлом работать.

Вопрос задан более трёх лет назад
498 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Richard Kamsky @Richard_Kamsky Автор вопроса

Мне бы конкретики. Хоть пример кода. А то нагуглить не смог. Вот и решил тут спросить.

Написано более трёх лет назад
Александр Нестеров @AlexNest Куратор тега Python

Richard Kamsky, мне вот интересно, может у вас какой-то локальный интернет, в котором недоступна документация с примерами буквально на главной странице?
Ну или загуглить что-то вроде bs4 гайд?
(Буквально первая ссылка в выдаче ведет на подробную статью на хабре).

Написано более трёх лет назад
Richard Kamsky @Richard_Kamsky Автор вопроса

Александр Нестеров, ну документалку то я нашёл. Приведённые в нём примеры почему-то не сработали. Интерпритатор выдаёт пустой объект. Я не спец по питону, поэтому и задаю вопросы по таким простым темам.

Написано более трёх лет назад
serhiops @serhiops

Richard Kamsky, если ты не знаешь пайтон, то его учить нужно, а не задавать глупые вопросы

Написано более трёх лет назад
Richard Kamsky @Richard_Kamsky Автор вопроса

serhiops, я делал задачу по клонированию структуры и вёрстки сайта на движок. Мне ради доп. таска теперь python учить, который скорее всего больше мне не понадобится?

Написано более трёх лет назад
Vindicar @Vindicar

Richard Kamsky, тогда приводи свой нерабочий код, желательно минимальную версию, которая демонстрирует косяк. На примере будет проще разобраться, может, дело-то не в BS4.

Написано более трёх лет назад

Richard Kamsky @Richard_Kamsky Автор вопроса

from bs4 import BeautifulSoup
import codecs
 
f = codecs.open("test.html", 'r', 'utf-8')
html = f.read()
 
soup = BeautifulSoup(html, "lxml")
 
user_name = soup.find_all(".mc-review-username")

for name in user_name:
    print(name)

Написано более трёх лет назад

soremix @SoreMix Куратор тега Python

Richard Kamsky, а что не так в коде?

Написано более трёх лет назад
Richard Kamsky @Richard_Kamsky Автор вопроса

soremix, не знаю, почему-то файл не читался. В итоге сделал переменную и вставил в неё html и читал данные с неё. Так сработало.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 6 часов назад
- 70 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 10 часов назад
- 87 просмотров
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- 18 часов назад
- 126 просмотров
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- вчера
- 120 просмотров
0

ответов
Node.js

+1 ещё

Простой
Какой локальный backend использовать для готовых admin dashboard?
- 1 подписчик
- вчера
- 69 просмотров
1

ответ
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- вчера
- 37 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Зависимости в package.json отображаются как неустановленные при открытии репозитория, размещенного в WSL?
- 1 подписчик
- вчера
- 99 просмотров
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 109 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 85 просмотров
0

ответов
JavaScript

Простой
По какой логике формируется очередь микро задач с async/await синтаксисом?
- 1 подписчик
- 13 авг.
- 156 просмотров
1

ответ
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 150 000 до 300 000 ₽

Fullstack JavaScript разработчик

Wanted

от 180 000 до 240 000 ₽

Fullstack-разработчик

IT-hunter • Санкт-Петербург

До 300 000 ₽

а в чем проблема парсить страницу? у папитира есть функция что бы дождать полной загрузки страницы и потом из хтмл тегов доставай комментарии
Да вот я не знаю как. Не нагуглил такой инфы.

Answer 1 · 2022-06-29 21:36:04

soremix @SoreMix Куратор тега Python

yellow

Точно так же, читаете код из файла, отдаёте его в bs4

Ответ написан более трёх лет назад

9 комментариев

Как парсить данные из html файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт