Задать вопрос
@iki

Как с помощью nodejs собрать все url адреса сайта?

Всем привет!
Пишу парсер на node.js. Столкнулся с проблемой. Не могу найти способ вытащить все urlы сайта.
Например есть сайт :
example.com а у него внутри различные url'ы, например example.com/article1-100
Хочется вытащить все такие адреса в массив а потом уже через request и cheerio парсить содержимое.
Придумал вариант когда отдельные части адреса (article, 1, 2, 100) могут лежать в массиве и подставляться к основному url в процессе поиска, но это нужно под каждый сайт такое делать.
Можно ли как-то более универсально искать url'ы сайта введя только основной example.com . Смотрел в сторону регулярных выражений, но не совсем понятно как их тут можно использовать. Подскажите плиз.
Спасибо
  • Вопрос задан
  • 536 просмотров
Подписаться 2 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 1
Kotofey
@Kotofey
Можно копнуть через поисковики, например запрос в гугле "site:example.com" покажет все проиндексированные страницы с этого сайта.
Единственное, что там ограничение в 1000 результатов. Но условие запроса можно уточнить, указывая подразделы: "site:example.com/some_path/"
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы