Как спарсить главную часть текста веб страницы?

Question

Иван @iwqn

Программист-самоучка

Как спарсить главную часть текста веб страницы?

Нужно из HTML кода веб страницы получить собственно текст статьи без менюшек aside футеров и прочего лишнего текста. Думаю что основной текст обычно занимает больший объем чем остальные элементы. Предложите как его вычленить из общей массы. Картинки и теги внутри статьи мне не нужны их можно удалить.

Вопрос задан более трёх лет назад
932 просмотра

1 комментарий

Подписаться 5 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Решения вопроса 2

3 комментария

15 комментариев

Иван @iwqn Автор вопроса

Да я как раз это и имел ввиду. Подскажите чем его можно спарсить

Написано более трёх лет назад
Иван @iwqn Автор вопроса

Я просто пишу под десктоп программу поэтому всякие js dom парсеры не подойдут. свой писать? если да то на регулярках или как?

Написано более трёх лет назад
xmoonlight @xmoonlight

Иван Сараев: смотрите: здесь палка о двух концах и каждый из них - бьёт больно!
1. Регулярка даёт простоту парсинга, но не следит за XML-деревом, а оно может быть часто неверным на самой странице.
2. XML-path/xpath-парсеры - работают медленнее, но они могут "исправлять" XML-деревья налету.

Поэтому, я бы использовал всё-таки XML-path парсер и, когда уже точно нет опасения о том, что полученное XML-"дерево" может быть некорректным, и, если есть НЕОБХОДИМОСТЬ (в принципе, уже - вряд ли) в использовании регулярок, только тогда бы использовал эти самые регулярные выражения.

Ищите хороший xpath-парсер.

Написано более трёх лет назад
murlogen @murlogen

Не-а.
Возьмите Хабр.
Там на первой странице текст разбит на куски.

Написано более трёх лет назад
murlogen @murlogen

Иван Сараев: Вообще-то DOM-парзеры появились в библиотеках, которые вы легко можете использовать на десктопе, даже пораньше, чем стали доступы из JS.

Написано более трёх лет назад
murlogen @murlogen

Самый большой (по объёму) текст внутри ПЕРВОГО! контейнера - является зачастую разветвленным боковым меню. К примеру, если речь о интернет магазине - то с очень большой вероятностью это каталог в боковом меню.

Написано более трёх лет назад
xmoonlight @xmoonlight

murlogen: мда.... тогда... предлагаю конкретный пример какой-нить рассмотреть. вполне возможно, что мы поймём, где бага и как сделать правильно.

Написано более трёх лет назад
Иван @iwqn Автор вопроса

xmoonlight: проблема в том что мне нужно парсить не конкретный сайт а много разных и изначально неясно какой будет там код. За ссылку спасибо сейчас гляну. Все таки думаю что разветвленное меню будет ссылками, а мне ссылки не нужны вовсе я могу вообще их прихлопнуть регуляркой и удалить из текста заранее. Поэтому самый большой текст возможно все таки и будет статьей в 90 процентах случаев

Написано более трёх лет назад
Иван @iwqn Автор вопроса

murlogen: я выше писал что мне не нужны ссылки и картинки их можно заранее удалить до поиска большого текста

Написано более трёх лет назад
xmoonlight @xmoonlight

Иван Сараев: Вы не поняли: алгоритм, предложенный мной, - максимально универсальный. Я даже и не думал привязываться к какому-то конкретному сайту или структуре данных.

Написано более трёх лет назад
murlogen @murlogen

Иван Сараев: Удаление ссылок и картинок - вообще примитивнейшая задача на фоне задачи определения "главного теста".

Написано более трёх лет назад
Иван @iwqn Автор вопроса

xmoonlight: я понял что он универсальный. просто когда вы предложили рассмотреть конкретный пример - то можно в качестве примера взять любую веб страничку же. это меня и смутило ))

Написано более трёх лет назад
xmoonlight @xmoonlight

Иван Сараев: я же не Вам предложил-то)

Написано более трёх лет назад
Иван @iwqn Автор вопроса

murlogen: ну я о том что многоуровневые меню которые есть ссылки уже как бы не закроют нам своим объемом основной текст. единственное - если на страничке основной текст будет очень маленьким но в моем случае такое маловероятно, хотя и не исключено. однако в целом это роли не сыграет так как на одну и ту же тему будет парситься 7-8 статей из поисковой выдачи и уж в одной из них точно будет основной текст достаточного объема

Написано более трёх лет назад
Иван @iwqn Автор вопроса

В принципе все ясно = спасибо за подсказки

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 680 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 399 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1107 просмотров
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 428 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 517 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 549 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 1240 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 876 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 506 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 370 просмотров
0

ответов
Показать ещё Загружается…

Если вам нужен универсальный под все сайты, то вам такой не написать. И нам не написать.

Answer 1 · 2016-10-31 05:59:44

любой dom-парсер в помощь.
пользоваться ими несложнее, чем jquery. a регулярками парсить - бред еще тот.

Answer 2 · 2016-10-31 07:13:43

(Этот вопрос уже 3-й раз поднимается на тостере.)

Общий принцип такой: Самый большой (по объёму) текст внутри ПЕРВОГО! контейнера (div,td) каждой "ветки" в DOM-"дереве" без тегов разметки текста (a,font, h1,h2,h3,p,img,b,i,u,s,sub,sup,span и т.д.) и будет основным текстом страницы.

PS: обязательно поправьте, если что-то упущено.
PS2: документация для Delphi: тут

Answer 3 · 2016-10-31 09:36:09

Если на сайте есть поддержка микроразметки для FB и т.п. - то вам повезло.
Выцепляется на раз.
Выглядит - красиво.
Как раз то, что задумывал автор сайта.

Я бы начал с попытки определить микроразметку
Есть готовые библиотеки, которые делают сие в один-два вызова.

Если нет микроразметки, то менее точным методом парзить вручную - ну это вам другие ответчики пишут как.

Answer 4 · 2016-10-31 12:02:12

Александр Таратин @Taraflex

Ищу работу. Контакты в профиле.

Php-readability Какой порт выбрать?

Ответ написан более трёх лет назад

2 комментария

Как спарсить главную часть текста веб страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт