Есть ли алгоритмы отрезания меню, подвала и прочей требухи со страницы для выделения содержимого?

Question

PO6OT @woonem

Есть ли алгоритмы отрезания меню, подвала и прочей требухи со страницы для выделения содержимого?

Мне нужно парсить страницы чужих сайтов для наполнения своей БД. Как обнаружить элементы интерфейса, чтоб впоследствии их удалить и оставить только содержимое?
10 минут гугления не дали результатов.

Вопрос задан более трёх лет назад
378 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

5 комментариев

Комментировать

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

AlikDex @AlikDex

все это филькина грамота. Именно для более четкого понимания поисковыми системами придумали микроразметку и ввели секционные теги в хтмл5 (). Однако на практике поисковики с такой разметкой загоняют сайты в глубины топа, когда как тот же сайт с тем же контентом но без такой разметки уверенно держится на первых местах. Вывод на мой взгляд очевиден. Не имея schem'ы и html5 разметки сканируемого документа, даже нынешние поисковики не способны отделить лишний мусор со страницы.

Написано более трёх лет назад
Антон Штинов @delimer

AlikDex: поисковики успешно отделяют контент от остального мусора на странице. К примеру, для evernote есть веб клиппер, который довольно точно выделяет на странице полезный контент отсекая шелуху, еще есть куча сервисов которые хорошо умеют извлекать полезную информацию с хтмл страницы.

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

на счет пересечений понятно.
а что делать, когда сайт одностраничный?
как скрипту понять, что меню это меню, а не статья?

Написано более трёх лет назад
Антон Штинов @delimer

Вадим Егоров: надо придумать какую-то эвристику (набор правил), которая будет искать признаки контента. К примеру, если идет несколько подряд ссылок - то скорее всего это меню и эту часть можно исключить. Если много текста и мало тегов то с большой вероятностью - это полезный контент. Еще можно смотреть на ширину и позицию блока - самый широкий в центре - это скорее всего контент.

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

Антон Штинов: так я и спрашиваю этот набор правил.

Написано более трёх лет назад
Антон Штинов @delimer

Вадим Егоров: Смотрите, как устроены подобные штуки :
https://code.google.com/p/arc90labs-readability/
https://github.com/buriy/python-readability
https://code.google.com/p/boilerpipe/
www.algorithmist.ru/2010/11/html-1.html

Еще смотрите предыдущие аналогичные вопросы:
Как получить содержательную часть страницы
Как скопировать полезный контент из html?

Написано более трёх лет назад

4 комментария

PO6OT @woonem Автор вопроса

Я пишу парсер страниц, а не подвожу свой сайт под парсер. Как обнаружить элементы интерфейса, чтоб впоследствии их удалить?

Написано более трёх лет назад
AlikDex @AlikDex

Вадим Егоров: парсить то, что нужно, используя библиотеки для DOM'a или регулярные выражения.

Написано более трёх лет назад
PO6OT @woonem Автор вопроса

AlikDex: а как узнать, что нужно парсить? как скрипт поймет, где меню, а где содержание?

Написано более трёх лет назад
AlikDex @AlikDex

Вадим Егоров: никак. задаются алгоритмы и правила, по которым нужно парсить тот или иной сайт\страниц\группу страниц. Все делается в индивидуальном порядке, поскольку каждый разраб сайта делает все по своему шаблону. Универсальных решений не существует.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 133 просмотра
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 480 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 257 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 202 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2483 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 352 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 257 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-07-21 10:24:44

MIsternik @MIsternik

Java https://code.google.com/p/boilerpipe/
c# https://github.com/marek-stoj/NReadability

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2015-07-21 17:10:53

PO6OT @woonem Автор вопроса

5 минут яндексирования дали результат.

Про удаление малозначимых частей страниц при индек...

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2015-07-21 12:35:59

Примерный алгоритм:
1) Анализ сайта, если есть html5 теги article, section, то дальше использует их содержимое.
2) Если нету, то собираем несколько страниц сайта и ищем пересечения, то есть места где они разные, предварительно можно откинуть head
3) Если пересечений несколько то берем то, в котором самая большая разница.

Answer 4 · 2015-07-20 22:17:35

Если речь о том, чтобы поисковые движки лучше видели контент, то в этом случае рекомендуется использовать html5 теги типа header, footer, nav, menu и т. д. Но а вообще поисковые движки вроде как умеют одинаковые элементы на страницах одного сайта игнорировать и находить контент.

Есть ли алгоритмы отрезания меню, подвала и прочей требухи со страницы для выделения содержимого?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт