entaure
@entaure

Сбор картинок перебором ссылок

Возникла задача: путем перебора собрать с сайта аналогичного Vk или любого подобного собрать картинки путем перебора ссылки (насколько знаю сейчас там все картинки стали храниться просто в общем хранилище, меняется только Id в заголовке картинки.
Собственно вопрос: как должно это выглядеть и на чем подобный алгоритм реализуем? (особенно интересуют пункты 2 и 3

Я так понимаю там 3 этапа:

1) перейти на новую страницу сменив адрес на единицу (букву, цифру здесь не важно)
2) проверить что страница существует и содержит полезную информацию (здесь: картинку)
3) сохранить картинку на диск и повторить п.1 с новым адресом.
  • Вопрос задан
  • 5679 просмотров
Решения вопроса 1
Ocelot
@Ocelot
Полный перебор займет кучу времени. Пусть айдишник шестизначный цифровой (как на самом деле — вы не сказали), а на загрузку страницы уходит секунда. Тогда полный перебор диапазона займет 1000000 с = 11.5 суток. Как оптимизировать процесс:
1) На шаге 2 анализировать заголовок, прежде чем грузить всю страницу.
2) Выполнять запросы в несколько потоков (сколько именно — зависит от ширины канала)
3) Попытаться определить, по какому алгоритму картинкам выдаются айдишники. Если подряд — большой шанс, что старшие номера заведомо свободны.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
NekitoSP
@NekitoSP
ВК? а как же random?)
адрес авки вк имеет такой урл
Ответ написан
Ocelot
@Ocelot
> как можно заставить программу определять есть ли картинко на странице или нет?
Скачиваете (пока вручную) две страницы: с картинкой и без, и играете в игру «найди 10 отличий». На что можно опираться:
1) HTTP заголовок, точнее код ошибки. Есть шанс, что для невалидного ID сервер вернет 404 или что-то подобное
2) тег <IMG> в нужном месте страницы
3) ключевые слова: «нет изображения», «ошибка» и подобные в теле страницы.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы