Есть сайт, нужно на блок фильтра сделать карту. Там однозначно более 1-2млн страниц.
Нужен по сути просто список ссылок в текстовом файле.
Из данных есть:
1.Первоначальный url
https://www.site.com/category/
2. Куски которые должны быть в нужных мне УРЛ *tip-*, *vid-*, *shema-* и т.п.
3. Куски которых не должно быть в моих URL *page=*
п.2 и 3 относится как к списку url на которых ищутся ссылки, так и для списка итогового url.
4. Есть VPS на котором можно поставить копию сайта и запустить сканер.
Как решить задачу? Вроде можно через wget, помогите нарисовать wget запрос.
Первоначально делал через contentdownloader, но там после 1млн ссылок может вывалиться out of memory.
Есть еще вариант php+БД который будет с нужной периодичностью проверять актуальность ссылок, добавлять новые, удалять старые и при необходимости в нужный момент выгружать актуальные урл на текущий день. Но это тоже трудозатратно, если только на основе готового на 95% кода переписать под себя.