@n1kto31

Как найти слово на многостраничном сайте?

Доброго времени суток. Нужно найти все страницы на сайте, на которых есть искомое слово. Например, мне нужно на сайте хабр найти все страницы, на которых есть слово "вопрос". Как это можно реализовать? Только объясните как для чайника, пожалуйста.
  • Вопрос задан
  • 2442 просмотра
Пригласить эксперта
Ответы на вопрос 3
@LaraLover
Вариант 1
Открываешь сайт, ищешь его sitemap, возможно он есть в robot.txt. открываешь каждую страницу и ищешь вхождение на нужное слово. В идеале записывать все ссылки и каждую страницу ещё парсить на ссылки и сохранять их в бд
Вариант 2
Через site:habr.com "вопрос"
Ищешь в Гугле, получаешь все ПРОИНДЕКСИРОВАННЫЕ страницы, сохраняешь их в БД и парсишь.
Ответ написан
Комментировать
iResource
@iResource
Разработчик IR XML2Ozon
Как уже отметили, можно анализировать карту сайта, если она есть. Обычно это файл sitemap.xml в корне сайта, но файл может быть и другой.
Получая из карты перечень страниц, можно автоматизировать их сканирование.
Данный скрипт предназначен как раз для этого: blog.inform-resource.ru
Пользовался не раз, работает хорошо. Вероятно, и Вам может помочь.
Ответ написан
Комментировать
Noizefan
@Noizefan
Сайтмапы итд это замечательно конечно.
Тебе нужно реализовать программу crawler - паук, который получает на вход одну ссылку на сайт, затем с этой страницы парсит все внутренние ссылки, с каждой из них повторяет тоже самое и так до полной индексации.
Вуаля - у тебя бд со всеми страницами сайта, делай что хочешь.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы