Задать вопрос

Евгений @eugeneledenev

sitemap

Как получить список URL сайта(более 2млн страниц)?

Есть сайт, нужно на блок фильтра сделать карту. Там однозначно более 1-2млн страниц.
Нужен по сути просто список ссылок в текстовом файле.
Из данных есть:
1.Первоначальный url https://www.site.com/category/
2. Куски которые должны быть в нужных мне УРЛ *tip-*, *vid-*, *shema-* и т.п.
3. Куски которых не должно быть в моих URL *page=*
п.2 и 3 относится как к списку url на которых ищутся ссылки, так и для списка итогового url.
4. Есть VPS на котором можно поставить копию сайта и запустить сканер.
Как решить задачу? Вроде можно через wget, помогите нарисовать wget запрос.
Первоначально делал через contentdownloader, но там после 1млн ссылок может вывалиться out of memory.

Есть еще вариант php+БД который будет с нужной периодичностью проверять актуальность ссылок, добавлять новые, удалять старые и при необходимости в нужный момент выгружать актуальные урл на текущий день. Но это тоже трудозатратно, если только на основе готового на 95% кода переписать под себя.

Вопрос задан более трёх лет назад
799 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Профессия Инженер по тестированию

10 месяцев

Далее
Нетология

Инженер по тестированию

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

dimonchik2013

Dimonchik @dimonchik2013

non progredi est regredi

проще всего - Scrapy
дешевле всего - Wget, после Wget все равно обрабатывать + однопоточность + хз какой алгоритм краулинга

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Joomla

+1 ещё

Простой
Карты сайта joomla большие что с ними делать, какое расширение использовать для деления?
- 1 подписчик
- 31 июл.
- 57 просмотров
2

ответа
HTML

+2 ещё

Простой
Как просмотреть скрытый sitemap.xml?
- 1 подписчик
- 27 мар.
- 261 просмотр
3

ответа
Поисковая оптимизация

+3 ещё

Простой
Какой путь исправления проблемы (sitemap.xml с дублями) для Яндекс поиска правильнее?
- 1 подписчик
- 27 февр.
- 166 просмотров
5

ответов
Поисковая оптимизация

+1 ещё

Простой
Нужен ли редирект если вместо sitemap.xml у меня index-sitemap.xml?
- 1 подписчик
- 25 февр.
- 88 просмотров
3

ответа
WordPress

+2 ещё

Простой
Кто же создает sitemap.xml в этом случае?
- 1 подписчик
- 24 февр.
- 137 просмотров
2

ответа
Windows

+2 ещё

Простой
Как скопировать сайт с помощью PowerShell на Windows 11?
- 1 подписчик
- 13 февр.
- 1357 просмотров
2

ответа
PHP

+3 ещё

Простой
Как правильно использовать hreflang для мета тега и для карты сайта?
- 3 подписчика
- 03 февр.
- 699 просмотров
0

ответов
Windows

+1 ещё

Средний
Не работает Wget на Windows 11?
- 1 подписчик
- 10 янв.
- 571 просмотр
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Как правильно настроить sitemap.xml?
- 1 подписчик
- 28 дек. 2024
- 101 просмотр
2

ответа
Wget

Средний
Как скачать файлы с директории сайта, если не знаешь имени файлов?
- 2 подписчика
- 23 дек. 2024
- 474 просмотра
2

ответа
Показать ещё Загружается…

Product manager

Synapse AI • Москва

от 150 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽