@eugeneledenev

Как получить список URL сайта(более 2млн страниц)?

Есть сайт, нужно на блок фильтра сделать карту. Там однозначно более 1-2млн страниц.
Нужен по сути просто список ссылок в текстовом файле.
Из данных есть:
1.Первоначальный url https://www.site.com/category/
2. Куски которые должны быть в нужных мне УРЛ *tip-*, *vid-*, *shema-* и т.п.
3. Куски которых не должно быть в моих URL *page=*
п.2 и 3 относится как к списку url на которых ищутся ссылки, так и для списка итогового url.
4. Есть VPS на котором можно поставить копию сайта и запустить сканер.
Как решить задачу? Вроде можно через wget, помогите нарисовать wget запрос.
Первоначально делал через contentdownloader, но там после 1млн ссылок может вывалиться out of memory.

Есть еще вариант php+БД который будет с нужной периодичностью проверять актуальность ссылок, добавлять новые, удалять старые и при необходимости в нужный момент выгружать актуальные урл на текущий день. Но это тоже трудозатратно, если только на основе готового на 95% кода переписать под себя.
  • Вопрос задан
  • 797 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
проще всего - Scrapy
дешевле всего - Wget, после Wget все равно обрабатывать + однопоточность + хз какой алгоритм краулинга
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы