Как распараллелить процессы php?

Question

BushaevDenis @BushaevDenis

PHP
HTML

Как распараллелить процессы php?

Есть скрипт

include 'shd.php';
include 'table.php';
  $n = 1;
  $i = 1;
while ($i<=5){
  $html = file_get_html('http://somesite.ru/search/?page='.$i);
  $alink = $html->find('div.product-info a');
  foreach ($alink as $link){
    echo '<tr>';
    echo '<td>'. $n++ .'</td>'; //Номер
    $prod = file_get_html('http://somesite.ru'.$link->href);
    $title = $prod->find('h1.product-name');
    echo '<td>' . $title[0]->plaintext . '</td>';	//Название
    $keywords = $prod->find('meta[name=Keywords]');
    echo '<td>' . $keywords[0]->content . '</td>';	//Ключевики
    echo '<td>r</td>'; //Тип товара
    $descr = $prod->find('div.tab-content #tab1');
    echo '<td>' . htmlentities($descr[0]->innertext) . '</td>';	//Описание
    $aimage = $prod->find('div.image a');
    foreach ($aimage as $himage){
      $image .= 'http://somesite.ru' . $himage->href . ', '; //картинощки
    }
    echo '<td>' . rtrim($image,',') . '</td>';
    $price = $prod->find('div.add2cart span.price');
    echo '<td>' . str_replace(' Р','',$price[0]->plaintext) . '</td>';	//Цена
    echo '<td>RUB</td>'; //Тип товара
    echo '<td>шт.</td>'; //Тип товара
    echo '<td>+</td>'; //Тип товара
    $group = $prod->find('ol.breadcrumb li');
    echo $group[($prod)-2]->plaintext;	//Группа
    $aspec = $prod->find('tr td');
    foreach ($aspec as $spec){
      echo '<td>' . $spec->innertext.'</td><td></td>';
    }
  echo '</tr>';
  include 'clean.php';
  $prod->clear();	
  }
  $i++;
  $html->clear();
  $alink = none;
}
echo '</table>';

На 1 страницу парсинга уходит 200-300 секунд. Нужно спарсить 200 страниц. Выходит очень долго. Поэтому вопрос таков- как распаралелить это дело. Чтоб он, например, сразу 5 страниц начал парсить

Вопрос задан более трёх лет назад
627 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

5 комментариев

BushaevDenis @BushaevDenis Автор вопроса

А если мне нужно 105 процессов запускать? Мне создавать 105 файлов с разными началами парсинга и запускать 105 скриптов? Что за бред. Я просил подсказать скрипт(или суть скрипта(не ООП)), который бы запускал несколько задач почти одновременно.

Написано более трёх лет назад
tommy_13 @tommy_13

мультикурл

Написано более трёх лет назад
BushaevDenis @BushaevDenis Автор вопроса

tommy_13: Варианта, кроме как переписывать скрипт под курл нету?

Написано более трёх лет назад
galliard @galliard

BushaevDenis: остальные варианты сильно сложнее

Написано более трёх лет назад
Вадим Степанов @Vdm17

pcntl_fork + сокеты. Мастер-процесс раздает ссылки на страницы, форкнутые процессы их обрабатывают.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 271 просмотр
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 204 просмотра
4

ответа
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 1 подписчик
- 13 нояб.
- 155 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 231 просмотр
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 184 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 300 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 279 просмотров
2

ответа
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 185 просмотров
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 129 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 149 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2016-12-15 17:07:05

один поток собирает ссылки, складывает в очередь.

Запускаете сколько нужно обработчиков, каждый из которых:
1. достает одну запись из очереди
2. собирает инфу
3. сохраняет в бд
4. возвращается к пункту 1.

Если это дело бегает на одной машине - то можете использовать SysV очереди сообщений.

Answer 2 · 2016-12-15 16:36:00

Я бы делал так:
Сперва собрать в таблицу БД коллекцию ссылок для обработки парсером. По завершению - не через file_get_html() а через мультипоточный cURL запросить контент и сохранить его в базу. По завершению - в цикле пробежаться по таблице и порциями в 20 записей выбирать id не обработанных парсером записей и тем же мультикурлом запросить другой урл для обработки, к примеру "/parser.php?id=1" .../parser.php?id=20"
Каждый из 20 запросов будет работать паралельно.

Скорее всего у вас проблема не в парсинге а соединении. По-этому мультикурл вам поможет, так как это подобно открытию страниц одновременно в нескольких вкладках браузера, а ваш код - это работ в одном окне и в одной вкладке.

И между прочем расставьте метки времени в своем коде для профилирования и отсчета времени на операцию. и вы будете знать наверняка, что заняло больше времени.