iwqn
@iwqn
Программист-самоучка

Как спарсить главную часть текста веб страницы?

Нужно из HTML кода веб страницы получить собственно текст статьи без менюшек aside футеров и прочего лишнего текста. Думаю что основной текст обычно занимает больший объем чем остальные элементы. Предложите как его вычленить из общей массы. Картинки и теги внутри статьи мне не нужны их можно удалить.
  • Вопрос задан
  • 903 просмотра
Решения вопроса 2
DevMan
@DevMan
любой dom-парсер в помощь.
пользоваться ими несложнее, чем jquery. a регулярками парсить - бред еще тот.
Ответ написан
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
(Этот вопрос уже 3-й раз поднимается на тостере.)

Общий принцип такой: Самый большой (по объёму) текст внутри ПЕРВОГО! контейнера (div,td) каждой "ветки" в DOM-"дереве" без тегов разметки текста (a,font, h1,h2,h3,p,img,b,i,u,s,sub,sup,span и т.д.) и будет основным текстом страницы.

PS: обязательно поправьте, если что-то упущено.
PS2: документация для Delphi: тут
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
@murlogen
Если на сайте есть поддержка микроразметки для FB и т.п. - то вам повезло.
Выцепляется на раз.
Выглядит - красиво.
Как раз то, что задумывал автор сайта.

Я бы начал с попытки определить микроразметку
Есть готовые библиотеки, которые делают сие в один-два вызова.

Если нет микроразметки, то менее точным методом парзить вручную - ну это вам другие ответчики пишут как.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы