Как сделать поиск основного содержания на сайте?

Question

jallvar @jallvar

Парсинг

Как сделать поиск основного содержания на сайте?

Всем привет, постановка задачи.
-Парсинг основного контента с web-страницы.
Мое предложение:
перебирать все html-теги на максимальное содержание. (погрешность, да)

Есть ли уже готовые решения или идеи как это сделать?

Вот здесь, этот товарищ умеет это делать
https://be1.ru/antiplagiat-online/ (не реклама)

Желательно на python, c#
заранее спасибо

Вопрос задан более трёх лет назад
103 просмотра

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Stepik

4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность

2 месяца

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее
Stepik

FullStack Developer and Data Scientist (Python+JS+Data+CookBook)

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 388 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1091 просмотр
4

ответа
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 421 просмотр
4

ответа
Веб-разработка

+1 ещё

Средний
Как на сайте с фильмами найти медиаплеер и скачать это видео через код?
- 1 подписчик
- 13 февр.
- 512 просмотров
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек. 2025
- 545 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб. 2025
- 1203 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб. 2025
- 866 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб. 2025
- 499 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт. 2025
- 356 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2019-03-07 09:20:12

body победит.
Взять две группы страниц:
Группа А - целевая страница загруженная много раз.
Группа Б - страницы на том же уровне вложенности. Лучше добавить сюда каждую страницу 2-3 раза.
Теперь возьмем целевую страницу и удалим из нее все элементы отличающиеся хоть от одной страницы из группы А. Так мы отбросим рекламу, всякие колонки новостей подгружаеющиеся постоянно разными и т.д.
Следующим шагом удалим со страницы все элементы которые совпадают с элементами на любой странице Б.

Оставшиеся и есть основное содержание, в общем смысле. Еще могут оставаться скажем списки рекомендуемых товаров к данному, или списки похожих новостей или статей по этой тематике. Так как они будут отличаться от таких же на страницах группы Б скорее всего, и не будут изменяться при перезгагрузках страницы и соответственно не будут отсеяны сравнением с А. Ну тут можно попробовать удалять регулярные структуры, и если такой подход удаляет меньшую часть контента (это нужно чтобы не почистить теги p из статьи например) соглашаться на такую очистку. Еще можно учесть что такие регулярные структуры будут иметь много вложенных тегов, в отличии от регулярных структур контента.

Как-то так я бы делал.

Answer 2 · 2019-04-05 22:29:16

Dimonchik @dimonchik2013

non progredi est regredi

https://www.slideshare.net/PyNSK/python-53858880

Ответ написан более трёх лет назад

Комментировать

Как сделать поиск основного содержания на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт