Как сделать поиск основного содержания на сайте?

Всем привет, постановка задачи.
-Парсинг основного контента с web-страницы.
Мое предложение:
перебирать все html-теги на максимальное содержание. (погрешность, да)

Есть ли уже готовые решения или идеи как это сделать?

Вот здесь, этот товарищ умеет это делать
https://be1.ru/antiplagiat-online/ (не реклама)

Желательно на python, c#
заранее спасибо
  • Вопрос задан
  • 96 просмотров
Пригласить эксперта
Ответы на вопрос 2
body победит.
Взять две группы страниц:
Группа А - целевая страница загруженная много раз.
Группа Б - страницы на том же уровне вложенности. Лучше добавить сюда каждую страницу 2-3 раза.
Теперь возьмем целевую страницу и удалим из нее все элементы отличающиеся хоть от одной страницы из группы А. Так мы отбросим рекламу, всякие колонки новостей подгружаеющиеся постоянно разными и т.д.
Следующим шагом удалим со страницы все элементы которые совпадают с элементами на любой странице Б.

Оставшиеся и есть основное содержание, в общем смысле. Еще могут оставаться скажем списки рекомендуемых товаров к данному, или списки похожих новостей или статей по этой тематике. Так как они будут отличаться от таких же на страницах группы Б скорее всего, и не будут изменяться при перезгагрузках страницы и соответственно не будут отсеяны сравнением с А. Ну тут можно попробовать удалять регулярные структуры, и если такой подход удаляет меньшую часть контента (это нужно чтобы не почистить теги p из статьи например) соглашаться на такую очистку. Еще можно учесть что такие регулярные структуры будут иметь много вложенных тегов, в отличии от регулярных структур контента.

Как-то так я бы делал.
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы