woonem
@woonem

Есть ли алгоритмы отрезания меню, подвала и прочей требухи со страницы для выделения содержимого?

Мне нужно парсить страницы чужих сайтов для наполнения своей БД. Как обнаружить элементы интерфейса, чтоб впоследствии их удалить и оставить только содержимое?
10 минут гугления не дали результатов.
b6abfbfd968048a0a5cf2ba8e3ae19a0.png
  • Вопрос задан
  • 373 просмотра
Решения вопроса 2
woonem
@woonem Автор вопроса
5 минут яндексирования дали результат.
3c2ecd0086f245d48469ec445b475498.pngПро удаление малозначимых частей страниц при индек...
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
Примерный алгоритм:
1) Анализ сайта, если есть html5 теги article, section, то дальше использует их содержимое.
2) Если нету, то собираем несколько страниц сайта и ищем пересечения, то есть места где они разные, предварительно можно откинуть head
3) Если пересечений несколько то берем то, в котором самая большая разница.
Ответ написан
@Winner777
Если речь о том, чтобы поисковые движки лучше видели контент, то в этом случае рекомендуется использовать html5 теги типа header, footer, nav, menu и т. д. Но а вообще поисковые движки вроде как умеют одинаковые элементы на страницах одного сайта игнорировать и находить контент.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы