Как можно быстро запарсить более 1000 картинок с сайта?

Question

Vadim997 @Vadim997

Как можно быстро запарсить более 1000 картинок с сайта?

Необходимо запарсить более 1000 картинок с сайта. На данный момент использую simple html dom, что вообще не получается запарсить сайт. Подскажите как можно это сделать, если не simple html dom, то может какой-нибудь другой парсер.

Вопрос задан более трёх лет назад
10026 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

6 комментариев

Vadim997 @Vadim997 Автор вопроса

Не парсит нужное количество картинок. Например, 100. Если взять сайт наподобие, ru.pinterest.com/all/animals/, вообще парсит 60 картинок.

Написано более трёх лет назад
Андрей @ntzch

Тогда могу предположить, что всему виной настройки php.ini max_execution_time и так далее, скорее всего или памяти не хватает или времени на выполнение скрипта... Если парсинг делается на локалке, то можно выставить такие значения joxi.ru/jgmve69kC97Nra мне вполне хватает

Написано более трёх лет назад
Vadim997 @Vadim997 Автор вопроса

@ntzch: всё равно не парсит.

Написано более трёх лет назад
Андрей @ntzch

а откуда именно надо спарсить? в случае с ru.pinterest.com - там картинки подгружаются аяксом, то есть на странице в то время, как php её забирает присутствует определённое ограниченное количество картинок

Написано более трёх лет назад
Vadim997 @Vadim997 Автор вопроса

@ntzch: т.е. с ru.pinterest.com нельзя спарсить большое кол-во картинок?

Написано более трёх лет назад
def neo @defneo2016

Как же тогда спарсить картинки, если они подгружаются аяксом?

Написано более трёх лет назад

Комментировать

8 комментариев

Vadim997 @Vadim997 Автор вопроса

У меня почему-то не справляется, использую локальный сервер wamp.

Написано более трёх лет назад
Хазрат Гаджикеримов @hazratgs
Всмысле не справляется? если вы парсите pinteres, то вам необходимо имитировать браузер и имитировать ajax загрузку, вы посмотрите сперва что получаете следующими кодом:
$simple = file_get_html('http://merlion.com/catalog/product/966656'); echo $simple->outertext;

вдруг там только контейнер родительский тех элементов, которые вам нужны, если так то все фотографии подгружаются ajax. тут уже имитация браузера нужна.

Тогда вам cURL
Написано более трёх лет назад
Vadim997 @Vadim997 Автор вопроса

@Hazrat: сделал так. Сайт выдал не полную страницу. То есть при скроллинге pinterest отображает с помощью ajax картинки? Или как?

Написано более трёх лет назад
Хазрат Гаджикеримов @hazratgs

@Vadim997: Да, используйте cURL

Написано более трёх лет назад
Vadim997 @Vadim997 Автор вопроса

@Hazrat: Не могли бы привести часть кода? А то тут всё-таки подгружаемый контент

Написано более трёх лет назад
Хазрат Гаджикеримов @hazratgs

@Vadim997: Замечательное изобретение придуманное человечеством!

Написано более трёх лет назад
Vadim997 @Vadim997 Автор вопроса

@Hazrat: ничего не нашёл из ссылки выше. И не могу понять, как же можно запарсить все картинки у страницы, где данные подгружаются с помощью ajax.

Написано более трёх лет назад
Хазрат Гаджикеримов @hazratgs

@Vadim997: Если не ошибаюсь у Pinterest есть API, а вот тут на stackoverflow обсуждается парсинг страницы.
Должно помочь!

Тут тоже посмотрите: developers.pinterest.com

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 558 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2462 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 339 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-10-23 23:08:00

Советую библиотеку PHPQuery, в ней нету таких глюков, как simple html dom (я пробовал и тм и тем, но понравилась именно phpquery).

Ссылки на уроки:
habrahabr.ru/post/69149
i-novice.net/parsim-sajty-s-phpquery

Недавно как раз и парсил картинки этой библиотекой и она очень хорошо справилась

Для того, что бы сохранить конкретно картинку, то надо при помощи библиотеки найти ссылки на картинки, я искал на странице и помещал все найденные ссылки в массив, пример кода:

$model_page_url = file_get_contents($page);  //Получаем всю страницу
  $model_page = phpQuery::newDocument($model_page_url); //Создаём объект страницы библиотекой
  $images_link = $model_page->find('img'); //Ищем все теги img
  foreach ($images_link as $image_link) {
    $images[] = pq($image_link)->attr('src'); //В цикле помещаем ссылку на картинку в массив
  }

Затем примерно так:

foreach($images as $image){
        $image_name = basename($image); //Определяем имя и расширение картинки
        if(!file_exists('img/'.$image_name)){ //Проверяем нет ли такой картинки
          file_put_contents('img/'.$image_name, file_get_contents($image)); //через file_get_contents($image) получаем картинку по ссылке и file_put_contents кладём её в нужную нам папку
        }else{
          continue;
        }
      }

Весь примерный процесс парсинга изображений

Answer 2 · 2014-10-23 22:14:09

Андрей Ежгуров @eandr_67

web-программист (*AMP, Go, JavaScript, вёрстка).

MetaProducts Offline Explorer

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2014-10-24 02:42:02

SimpleHTMLDOM отличная библеотека, очень проста в использовании, принцип работы очень похож на jQuery ну или на CSS селекторы.

Ниже код демонстрирующий загрузку картинок с сайта дистрибьютора merlion:

<?
$simple = file_get_html('http://merlion.com/catalog/product/966656');
foreach ($simple->find('div.ad-thumbs .ad-thumb-list li a') as $el){
    echo $el->href.'<br>';
}

Результат:

http://img.merlion.ru/items/966656_v01_m.jpg
http://img.merlion.ru/items/966656_v02_m.jpg
http://img.merlion.ru/items/966656_v03_m.jpg
http://img.merlion.ru/items/966656_v04_m.jpg
http://img.merlion.ru/items/966656_v05_m.jpg

Использую библиотеку для парсинга 24/7 (круглосуточно) картинок и описание товаров с различных сайтов, товаров более 50 тыс, справляется.

Answer 4 · 2014-10-25 20:56:10

Vadim997 @Vadim997 Автор вопроса

Может есть какое-нибудь другое решение?

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2019-02-07 07:21:14

Если нужно разово, то может проще использовать уже готовый велосипед - парсер картинок, чем изобретать свой :)

Как можно быстро запарсить более 1000 картинок с сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт