Асинхронная многопоточность в PHP: для чего?

Question

mat0thew @mat0thew

Асинхронная многопоточность в PHP: для чего?

Привет

Для чего она вообще нужна, объясните пожалуйста, знающие гуру. ;)

Интересует работа с сетью. Т.е. CURL, Socket, HTTP.

Вопрос задан более трёх лет назад
4359 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 2

12 комментариев

Сергей Протько @Fesor

И да, в PHP из коробки нету ни асинхронности ни однопоточности. Есть только мультиплексирование.

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor привязать же можно

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew можно, но зачем? Если вам интересно, есть ReacPHP, есть libev расширение... По схеме работы будет почти как jS с псевдоасинхронной работой.

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew ReactPHP*

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor насчет реакта, да, посмотрю.

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew можно и на сокетах сделать, будет к слову довольно шустро работать.

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor а если прикрутить это https://github.com/rdlowrey/Amp + gearman + Ratchet?

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew не вижу смысла для вашей задачи использовать потоки. У вас эффективно будут работать только пара потоков (по сути столько сколько ядер доступно) и будет создаваться огромный оверхэд на перекюлчение контекстов.

Имеет смысл использовать сокеты + stream_select + разбить это на пару потоков (можно на 4) и распределять пулы по ним. Так можно добиться максимальной производительности.

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew это расширение идеально для тяжелых задач. У вас же 99% времени работы скрипта будет занимать ожидание ответа с серваков.

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor спасибо, буду пробовать на практике :)

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew потом отпишитесь о результатах, интересно ж. У меня из таких извращений был только парсер апстора (чего только не придумают), там тоже был модуль мониторинга статуса проксей, но список был меньше... всего несколько сотен. Нужно было собирать статистику по приложениям, почему-то кастомер хотел именно парсер... до сих пор не знаю почему.

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor хорошо, отпишусь вам ВК, если не забуду)

Написано более трёх лет назад

13 комментариев

mat0thew @mat0thew Автор вопроса

PHP с этой задачей справляется на ура? Например мне нужно проверить статус 10000 прокси, получив от них информацию. (и вывести во фронт для пользователя)

Написано более трёх лет назад
Дмитрий Скогорев @spbdimka

@mat0thew ну как на ура. Честно скажу что я только единожды реализовал многопоточность с curl_multi - не помню для чего, но работало точно.
главное чтобы не упёрлось в пропускную способность. думаю, для чека прокси вполне себе справится.

Написано более трёх лет назад
Дмитрий Скогорев @spbdimka

@EnterSandman соответственно одновременно запускать 10000 потоков - скорее всего самоубийство, но вот по 200 за раз должно справиться. дерзайте, тестируйте, подбирайте значения

Написано более трёх лет назад
Дмитрий Скогорев @spbdimka

@mat0thew private-seo-soft.blogspot.ru/2010/04/php-proxy-che... вот вам для собственного велосипеда запчасти

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@EnterSandman это конечно же радует, а использовали pthreads у себя?

Написано более трёх лет назад
Дмитрий Скогорев @spbdimka

@mat0thew нет

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@EnterSandman еще интересно именно высоконагруженный сервис чека прокси (использовать Redis для хранения прокси листов к примеру > 1 мил. записей). Посоветуете что-то? я двигаюсь в сторону phpDeamon, gearman, websockets

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew любой язык для этих целей справится на ура. Хоть bash хоть php хоть что.

Написано более трёх лет назад
Дмитрий Скогорев @spbdimka

@mat0thew я быдлокодер. отстаньте =)

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@EnterSandman все мы быдлокодеры, расслабьтесь

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew я бы написал чекер на go в таком случае. Если вам именно производительность нужна и честная многопоточность.

Написано более трёх лет назад
mat0thew @mat0thew Автор вопроса

@Fesor мне нужен веб-интерфейс и автоматизация. запустил грубо говоря из админ-панели на сайте и пусть чекает.

Написано более трёх лет назад
Сергей Протько @Fesor

@mat0thew чекер на go, интерфейс на php, между ними геармен или очередь сообщений обычная на rabbitmq/zeromq. В любом случае я бы делал схему именно такой, тогда не важно на чем написан чекер. Геармен тут был бы лучше ибо можно таски по рассписанию ставить.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как отдать ответ клиенту без ожидания завершения скрипта?
- 1 подписчик
- 22 дек.
- 480 просмотров
4

ответа
PHP

Простой
Как в PHP вернуть NULL по ссылке?
- 1 подписчик
- 21 дек.
- 157 просмотров
1

ответ
PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 18 дек.
- 142 просмотра
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 321 просмотр
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 303 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 246 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 236 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 180 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 163 просмотра
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 330 просмотров
3

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2014-09-17 00:52:26

Все очень просто. Вот вам приблизительное значение таймингов доступа к данным:

То есть запросив данные в сети мы тупо ждем. Долго ждем и ничего не делаем.

В случае с curl (он же HTTP) мы можем соорудить очередь запросов и послать их одним махом и ждать пока завершится загрузка всех документов в очереди для обработки результатов. Если мы хотим забрать 10 документов, то без multi curl у нас ушло бы времени "среднее время получения документа" * 10. И это примерно. В случае же с мультикурлом мы получаем время обработки 10 запросов как время выполнения самого долгого запроса. Если представить что время запросов всегда одинаковое, получаем выйгрыш примерно в 10 раз.

С сокетами веселее. Они бывают блокируемые (по умолчанию) и неблокируемые (выставляется опцией O_NONBLOCK). Для начала давайте определимся что такое чтение данных из сокетов и как нам это дело предоставляет операционная система. Упрощенно, когда мы создаем сокет, мы просто просим операционную систему предоставить оный. У каждого сокета есть буфер чтения и буфер записи. Если буфер записи полный - ОС начинает отправку данных пока буфер не опустеет (буфер записи нужен для организации проверки дошли ли пакеты и переотправки в случае чего, так же этот буфер замешан в выборе операционкой размеров пакетов и т.д. Это не особо важно в контексте вопроса). Когда данные приходят в сокет, сначала они помещаются в буфер чтения. Там они лежат пока их не попросят вернуть из кода. Так мы можем быть уверены в том, что данные не пропадут.

Так вот... возьмем блокирующие сокеты и попробуем запросить 1024 байт данных из оного. Причем клиент в данный момент ничего не отправляет, буфер чтения пустой. И так допустим минут 10. Как только мы сделали запрос за данными, и оказалось что буфер чтения пустой, процесс выполнения блокируется пока не появятся данные.

А теперь представим что проверять периодически наличие данных нам надо не в одном сокете а в десятке. Представим так же что 9 клиентов подключенных по нашим сокетам хорошие и присылают данные вовремя, а один не хороший и любит тупить по пол часа. Если бы мы пользовались блокирующими сокетами, то мы можем обрабатывать только одного клиента за раз. Причем если у него вдруг данных не оказалось - нам придется ждать, хотя в других сокетах уже вполне могли появиться данные какие для обработки. И если в случае с "хорошими" клиентами мы можем тратить на оных по пол секунды - секундочке, то наткнувшись на плохого клиента наш сервер замирает за те самые пол часа о которых мы договаривались. Сервер тупо ждет "плохого" клиента а хорошие в итоге не могут достучаться до сервера. Новых соединений мы так же не установим... короче все мертво.

И тут на помощ к нам приходит опция O_NONBLOCK. В этом случае если у сокета пустой буфер чтения он сразу вернет выполнение не вернув нам ни капли данных не дожидаясь медлительных клиентов-тугодумов. В случае если буфер не пустой - все будет так же как и в случае с блокирующими сокетами - тупо вернет содержимое буфера и вернет управление. Так что мы можем в бесконечном цикле просто проверять по очереди все сокеты. В этом случае делей получения данных будет сведен к минимуму.

И вроде как все хорошо, да только бесконечный луп без блокировок это полная загрузка процессора. Не хорошо. При блокирующих вызовах нагрузка не большея (зависит от задачи) но тогда наш сервер очень медленно будет отвечать. Но не все так плохо.

Еще есть такая чудная штука, которую предоставляет операционная система как select или epol (в контексте php socket_select и stream_select). Данные функции позволяют нам скармливать массивы сокетов, за которыми вы следите (не сокетов, а их дескрипторов но не суть, и не один массив а три, массив дескрипторов что бы следить появились ли данные на чтение, записал ли сокет все и освободился ли буфер записи и третий отслеживает сокеты в которых произошли какие-то ошибки, например отвалилось соединение). Так же этой функции можно задавать таймаут, что очень удобно если мы сначала собираем данные с нескольких клиентов и если от них небыло вестей пару секунд, значит мы забрали все и можно начинать обработку.

Поигравшись с таймингами и т.д. можно добиться так же минимальных потерь производительности. как если бы мы просто использовали бесконечный цикл, и при этом нагрузка на систему будет не сильно выше чем при использовании обычных блокирующих сокетов.

Но все что выше имеет смысл только с TCP/TLS, если бы у нас были UDP сокеты, то было бы еще веселее. Там нету никаких буферов. Не принял данные - потерял данные. Нету соединений. Нету блокировок. Есть только пакеты. Поэтому этот протокол используют (или используют как основу) для реализации реалтайм систем. Задержек нету, а если какой пает не дошел, велика вероятность что он уже не актуален. Правда если сеть не надежная и потери пакетов велики, то начинается боль и слезы и обычно все же для таких случаев дублируют все на TCP.

Answer 2 · 2014-09-17 00:41:33

А для чего нужна многопоточность? Для параллельного выполнения какого-то действия.
Например парсинг чего-то.
Получить 100 страниц за сто секунд последовательно в 1 поток или 100 за 1 секунду в 100 потоков - есть разница?

Асинхронная многопоточность в PHP: для чего?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт