Как обойти большой json файл и обновить все связанные записи в MySQL, с отставанием от файла < 2 сек.?

Question

Евгений Рудченко @Space88

Как обойти большой json файл и обновить все связанные записи в MySQL, с отставанием от файла < 2 сек.?

Здравствуйте. Есть скрипт парсер (parse.php), который сохраняет результат парсинга на сервере в файле и формате JSON. Этот парсер обновляет данные каждые 1.5-3 секунды. По крону запускается другой PHP скрипт (work.php), который каждые 2 секунды get'ит актуальный JSON, парсит его json_decode и обходит циклом по массиву.

Структура массива такая:

events : {
              1 : {
                      id, data, title и т.д
              },
              2 : {
                      id, data, title и т.д
              },
}

На каждую итерацию work.php отправляет ID в скрипт getEvent.php с помощью fsockopen.
В getEvent присутствует ignore_user_abort(true);

В getEvent.php опять же идет get актуального JSON, декод и скрипт ищет в "events" ID, которое ему отправил work.php затем обрабатывает эти данные и обновляет их в базе MYSQL, данные в Mysql не должны отставать от данных в JSON файле более чем на 2 секунды.

В чем суть вопроса?) Эти манипуляции жрут 3ГБ оперативки и загружают процессор 4 x Xeon E5 2099.998 MHz на 90%! Мне нужно какое-то альтернативное решение чтобы проделывать вот это вот все.

Оперативка кушается потому что в work.php каждые 2 секунды get'ится json + в 600-800 открытых getEvent.php тоже get'ится этот же json. Еще таким образом у меня на сервере около 700 активных процессов. Кто может подсказать как упростить в плане нагрузки мой код? или подсказать какой-то другой способ обойти такой массив и обновить данные в MySql, чтобы они не отставали от данных в json файле более чем на 2 секунды.

Помогите, спасите, голова ломается уже)) Смотрел в сторону демонов, но это опять же куча оперативки и куча процессов на сервере.

Вопрос задан более трёх лет назад
652 просмотра

19 комментариев

Подписаться 3 Средний 19 комментариев

Игорь @IgorPI

Наверное вам следует выяснить, а не порождает ли ваш скрипт все эти процессы.
Я не видел такого крона, что бы он каждые 2 секунды запускал скрипт.

Такое ощущение, что ваш скрипт открывает несколько соединений и всё это порождает "висяк".

Вы бы скрипт скинули...

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Игорь, в work.php бесконечный цикл, который запускается по крону каждую минуту
Завершается по set_time_limit(59); + в конце итерации стоит проверка if((microtime(true) - $start) >= 59) exit();

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Игорь, естественно порождает, я же так и написал в посте. Work.php делает асинхронные запросы на getEvent.php и там JSON уже обрабатывается и обновляет в базе. Если идти по циклу work.php и там выполнять обработку данных, то итерация будет длится 11+ секунд, что уже не подходит. В самом getEvent.php получает ID, ищет его в JSON, обрабатывает и обновляет в базе, длится это 0.05 секунд

Написано более трёх лет назад
Игорь @IgorPI

Евгений Рудченко, Для начала проверьте

bash

htop

Почему у вас getEvent.php так много.
Какие-нибудь зомби процессы.

Написано более трёх лет назад
Игорь @IgorPI

Вот тут что-то не ладное в логике

600-800 открытых getEvent.php тоже гетится этот же json. Еще таким образом у меня на сервере около 700 активных процессов.

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Игорь, по другому никак не получается, вы наверное, не до конца поняли задачу. Нужно обойти этот массив и обновлять каждый евент асинхронно. Чтобы отставаний не было больше чем на 2 сек. Я только так смог реализовать это

Написано более трёх лет назад
Игорь @IgorPI

Евгений Рудченко, Что значит не отставать?

Что бы timestamp в базе данных был ровный?

Написано более трёх лет назад
Игорь @IgorPI

Тут скорее всего ещё один не мало важный момент, база данных тоже в натяжку, во всей этой цепи.
Пробуйте сначала формировать SQL, а потом уже выполнять его сразу.

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Много написано но нет важной информации.
Что значит "парсер обновляет"? Перезаписывает файл? Дописывает файл? Изменяет часть записей в файле? Если удалить файл что сделает парсер?

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Игорь, значит что то что спарсил скрипт parser.php и записал в файл, должно оказаться в MySQL как можно быстрее, не дольше чем 2 секунды

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Александр Маджугин, Файл перезаписывается каждый раз. Если удалить файл, то он заново создастся и туда загрузятся данные с парсера

Написано более трёх лет назад
Александр Маджугин @Suntechnic

"не отставали от данных в json файле более чем на 2 секунды." - а это что обозначает? Что данные в БД должны появится не позже чем через 2с после появления в JSON?

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Александр Маджугин, да, верно)

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Евгений Рудченко, тогда у вас уже провал:
Этот парсер обновляет данные каждые 1.5-3 секунды. По крону запускается другой PHP скрипт (work.php), который каждые 2 секунды гетит актуальный JSON, парсит его json_decode и обходит циклом по массиву.

В среднем у вас на робу воркера осталось всего одна секунда. А в худшем случае она запустился и уже опоздал, еще даже не начав работать. Вы не можете использовать интервал в 2 секунды если у вас дедлайн - 2 секунды.
Представьте заказчик вам высылает задачи с периодичностью раз в три недели в случайный день недели. Вы точно знаете что на каждую задачу отпущена неделя со дня отправки уведомления. Поэтому вы проверяете почту в ящике по четвергам. Это разумно?

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Александр Маджугин, нет, не разумно. А как мне поступить, если моя обработка каждого евента 0.02-0.05 секунд, чисто физически в цикле я не успею все обновить при количестве евентов в 800

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Александр Маджугин, поэтому и сделал асинхронные запросы к getEvent.php

Написано более трёх лет назад
Игорь @IgorPI

Сделайте по правильному.
Создайте демона.

Пусть демон занимается загрузкой JSON.

Формально скрипт не предназначен для игры в длинную.

Исходя из задачи, демон как только освобождается, должен грузить данные сразу же и сбрасывать в файл.
Другой демон ожидает, когда файл появится и будет свободен для чтения.

Вы должны разбить задачу на микро сервисы.
И по отдельности смотреть, где можно экономить.

2 секунд это конечно жестоко.

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Игорь,
2 секунд это конечно жестоко.
Знаю, но по другому сервис не актуален будет((

Сделать демона на парсинг и записи в файл и другого демона, который будет клонироваться на дочерних демонов, которые будут обрабатывать евенты? Все что я нашел это только как расклонировать демона на 2 части, можно как-то будет на каждый евент повесить по своему демону?

Написано более трёх лет назад
Игорь @IgorPI

Евгений Рудченко, Это возможно.

Для этого вам нужно реализовать, что-то типа очереди.
У вас будут некий список тасков.

Специальная программа (демон)
Будет брать 1 таск для одной задачи и так далее.
После работы демона он должен бесследно уничтожаться.

Например:

100 задач.

Программа в цикле берёт по задаче и форкает процессы.
Можно поставить ограничение на количество форков.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

4 комментария

Евгений Рудченко @Space88 Автор вопроса

Вот это что за хрень? Почему work.php не может сразу отправить данные getEvent? Зачем getEvent заново гетит JSON и заново ищет там ID?

Я читал, что это жрет трафик хостинга, который ограничен, а запросы очень частые как по мне. Данные, которые нужно будет отправлять на каждый евент около 10-15КБ, GET можно отправить до 4х, POST до 100 вроде, но как быстро эти данные будут доходить до getEvent? Время ответа сервера как-то учитывается?

И сколько гигабайт в вашем JSON что процесс не может его обойти и отправить мускул за 2 секунды?

от 1 метра до 100м))) просто сама обработка данных по каждому event длится около 0.02-0.05 секунд и если не асинхронно их выполнять, а циклом, то 800 евентов это 800 * 0.035 = 28 секунд на одну итерацию

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Я читал, что это жрет трафик хостинга, который ограничен

Прости что? Это же внутренние запросы.

Время ответа сервера как-то учитывается?

Все локально же - какое там время?

У тебя что 800 евентов обновляются каждые 2 секунды?
Почему такая долгая обработка каждого евента? Что ты в ней делаешь?

Давай детали короче.

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса
Александр Маджугин,

Это же внутренние запросы.

Вот такая функция шлет запросы евентам. Сокет это разве внутренний запрос? Простите, что туплю, функцию с инета дергнул, сам в сокетах поверхностно понимаю. Поскольку там есть POST подумал что идет как запрос по трафику.

function execute_background ($url, $params = array()) { $parts = parse_url($url); if(strcmp($parts['scheme'], 'https') == 0) { $port = 443; $host = "ssl://".$parts['host']; } else { $port = 80; $host = $parts['host']; } if(($fp = fsockopen($host, isset( $parts['port'] ) ? $parts['port'] : $port, $errno, $errstr, 30)) === FALSE) { throw new Exception("Internal server error: background process could not be started"); } $post_string = http_build_query($params); $out = "POST ".$parts['path']." HTTP/1.1\r\n"; $out .= "Host: ".$host."\r\n"; $out .= "Content-Type: application/x-www-form-urlencoded\r\n"; $out .= "Content-Length: ". strlen($post_string) ."\r\n"; $out .= "Connection: Close\r\n\r\n"; $out .= $post_string; fwrite($fp, $out); fclose($fp); }

У тебя что 800 евентов обновляются каждые 2 секунды?

Да, но сервер кипит, когда парсер отдает 800 евентов. 800 евентов это в пик, когда информации больше. днем евентов от 100 где-то.

spoiler
Почему такая долгая обработка каждого евента? Что ты в ней делаешь?

Обработка заключается в том что я сверяю статус евента условиями (не все нужны) перевожу вхождения названий на другие языки, сверяю нужный диапазон дат этого евента, ищу вхождения типов евента среди моего массива типов евентов, которые нужны. Этот массив подключаю так:

require_once(__DIR__ ."/../Types.php");

этот массив вот такой:

'Home and T' => array (
'Id' => '600',
'Function' => 'YesNoLong',
'Sorting' => '600',
'Ru' => 'Хозяева и тотал больше',
'En' => 'Home and total over',
),
'Home.....' => array (
'Id' => '601',
'Function' => 'YesNoLong',
'Sorting' => '601',
'Ru' => 'Хозяева и тотал больше',
'En' => 'Home and total over',
),
......
Написано более трёх лет назад
Александр Маджугин @Suntechnic

Блин, мне кажется вот эта ваша асинхронность столько накладных расходов втягивает в процесс.
Там нельзя никак соптимизировать провеку евента?

Написано более трёх лет назад

1 комментарий

10 комментариев

Александр Маджугин @Suntechnic

1 Похоже с парсером сделать ничего невозможно по какой-то причине. Я уже задавал этот вопрос. Потому что если возможно сделать что-то с парсером - пусть он и раздает задания на обработку записей не помещая их в файл.
2 Опять же парсер. Ну и файл таки быстрее. Правда в данном случае он перезаписываемый но если его держать в tmpfs, то и он быстрее.

Написано более трёх лет назад
Андрей @VladimirAndreev

Александр Маджугин, в tmps есть риск потери файла. один из вариантов настройки реббита гарантирует отсутствие потери задач.
кроме того, рэббит позволяет распараллеливать обработку без всяких танцев с дублированием.
условно, у вас есть 1 воркер, каждый слушает очередь. а потом вы решили добавить ещё 6 (положим, у вас 8 ядер в системе). с рэббитом отсутствие двойной обработки разрулит сам рэббит.
кстати, если с парсером ничего сделать нельзя, можно написать ещё один, который будет читать файл и пихать его в очередь)

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Андрей, раз он гарантирует что задачи не потеряются - значит пишет на диск, значит он медленнее чем просто файл ;)
На самом деле я понимаю что он может делать это параллельно и держать все в опере, но в этом случае есть шанс повторного выставления задачи.
По любому никак - либо он пишет на диск и задачи и флаги и тогда он медленнее чем просто файл. Либо у него это распараллелено и тогда он будет выставлять задачи повторно.
Другое дело что он наверное сильно удобнее, так как берет на себя кучу задач.
кстати, если с парсером ничего сделать нельзя, можно написать ещё один, который будет читать файл и пихать его в очередь)

Можно - но это еще одна прослойка.

Написано более трёх лет назад
Евгений Рудченко @Space88 Автор вопроса

Александр Маджугин, Решил остановится на Gearman + Supervisor, немного не понятно, как мне сделать 3-10 воркеров, чтобы они не делали одно и то же задание? То есть воркер1 делает свои задания, воркер 2 свои и т.д.

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Евгений Рудченко, если у вас id числовые, и скажем N воркеров, то пронумеруем их с нуля и пусть каждый воркер теперь берет остаток от деления ID на N и только если он равен номеру этого воркера - выполняет его.
Т.е. если воркеров скажем 3, то воркер 0 будет выполнять задания id которых делятся на 3 нацело, т.е. 3,6,9 и т.д. а воркер 1, только те которые дают остаток 1, те. 1,4 ну и т.д.

Написано более трёх лет назад
Андрей @VladimirAndreev

Евгений Рудченко, используйте rabbitmq

Написано более трёх лет назад
Андрей @VladimirAndreev

Александр Маджугин, схема с делением по ид чревата при подвисании одного из воркеров...

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Андрей, ну так вообще вся схема чревата при подвесании всех воркеров.
А без такой схемы придется делать какойо-то обмен между воркерами и где гарантия что не подвиснет он?

Написано более трёх лет назад
Андрей @VladimirAndreev

Александр Маджугин, при подвисании воркеров будет грустно, оно понятно. Но, по вашей схеме будет грустно при подвисании уже одного воркера.

Написано более трёх лет назад
Александр Маджугин @Suntechnic

Из трех ситуаций - никто не завис, все зависли и завис один - последняя наименее вероятная, так как если воркеры не склонны к зависанию, то не зависают, а если склонны - то зависают все.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 215 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 190 просмотров
4

ответа
Проектирование программного обеспечения

+1 ещё

Простой
Есть ли типовые архитектуры системы диспечерезации?
- 1 подписчик
- 07 нояб.
- 60 просмотров
2

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 178 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 297 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 275 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 149 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 318 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 364 просмотра
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 300 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Наверное вам следует выяснить, а не порождает ли ваш скрипт все эти процессы.
Я не видел такого крона, что бы он каждые 2 секунды запускал скрипт.

Такое ощущение, что ваш скрипт открывает несколько соединений и всё это порождает "висяк".

Вы бы скрипт скинули...
Игорь, в work.php бесконечный цикл, который запускается по крону каждую минуту
Завершается по set_time_limit(59); + в конце итерации стоит проверка if((microtime(true) - $start) >= 59) exit();
Игорь, естественно порождает, я же так и написал в посте. Work.php делает асинхронные запросы на getEvent.php и там JSON уже обрабатывается и обновляет в базе. Если идти по циклу work.php и там выполнять обработку данных, то итерация будет длится 11+ секунд, что уже не подходит. В самом getEvent.php получает ID, ищет его в JSON, обрабатывает и обновляет в базе, длится это 0.05 секунд
Евгений Рудченко, Для начала проверьте

bash

htop

Почему у вас getEvent.php так много.
Какие-нибудь зомби процессы.
Вот тут что-то не ладное в логике

600-800 открытых getEvent.php тоже гетится этот же json. Еще таким образом у меня на сервере около 700 активных процессов.
Игорь, по другому никак не получается, вы наверное, не до конца поняли задачу. Нужно обойти этот массив и обновлять каждый евент асинхронно. Чтобы отставаний не было больше чем на 2 сек. Я только так смог реализовать это
Евгений Рудченко, Что значит не отставать?

Что бы timestamp в базе данных был ровный?
Тут скорее всего ещё один не мало важный момент, база данных тоже в натяжку, во всей этой цепи.
Пробуйте сначала формировать SQL, а потом уже выполнять его сразу.
Много написано но нет важной информации.
Что значит "парсер обновляет"? Перезаписывает файл? Дописывает файл? Изменяет часть записей в файле? Если удалить файл что сделает парсер?
Игорь, значит что то что спарсил скрипт parser.php и записал в файл, должно оказаться в MySQL как можно быстрее, не дольше чем 2 секунды
Александр Маджугин, Файл перезаписывается каждый раз. Если удалить файл, то он заново создастся и туда загрузятся данные с парсера
"не отставали от данных в json файле более чем на 2 секунды." - а это что обозначает? Что данные в БД должны появится не позже чем через 2с после появления в JSON?
Евгений Рудченко, тогда у вас уже провал:
Этот парсер обновляет данные каждые 1.5-3 секунды. По крону запускается другой PHP скрипт (work.php), который каждые 2 секунды гетит актуальный JSON, парсит его json_decode и обходит циклом по массиву.

В среднем у вас на робу воркера осталось всего одна секунда. А в худшем случае она запустился и уже опоздал, еще даже не начав работать. Вы не можете использовать интервал в 2 секунды если у вас дедлайн - 2 секунды.
Представьте заказчик вам высылает задачи с периодичностью раз в три недели в случайный день недели. Вы точно знаете что на каждую задачу отпущена неделя со дня отправки уведомления. Поэтому вы проверяете почту в ящике по четвергам. Это разумно?
Александр Маджугин, нет, не разумно. А как мне поступить, если моя обработка каждого евента 0.02-0.05 секунд, чисто физически в цикле я не успею все обновить при количестве евентов в 800
Александр Маджугин, поэтому и сделал асинхронные запросы к getEvent.php
Сделайте по правильному.
Создайте демона.

Пусть демон занимается загрузкой JSON.

Формально скрипт не предназначен для игры в длинную.

Исходя из задачи, демон как только освобождается, должен грузить данные сразу же и сбрасывать в файл.
Другой демон ожидает, когда файл появится и будет свободен для чтения.

Вы должны разбить задачу на микро сервисы.
И по отдельности смотреть, где можно экономить.

2 секунд это конечно жестоко.
Игорь,
2 секунд это конечно жестоко.
Знаю, но по другому сервис не актуален будет((

Сделать демона на парсинг и записи в файл и другого демона, который будет клонироваться на дочерних демонов, которые будут обрабатывать евенты? Все что я нашел это только как расклонировать демона на 2 части, можно как-то будет на каждый евент повесить по своему демону?
Евгений Рудченко, Это возможно.

Для этого вам нужно реализовать, что-то типа очереди.
У вас будут некий список тасков.

Специальная программа (демон)
Будет брать 1 таск для одной задачи и так далее.
После работы демона он должен бесследно уничтожаться.

Например:

100 задач.

Программа в цикле берёт по задаче и форкает процессы.
Можно поставить ограничение на количество форков.

Answer 1 · 2019-10-06 00:37:40

Правильное решение - парсер должен сам сразу писать в БД.

Если это невозможно надо постараться максимально устранить накладки и двойные обработки:

На каждую итерацию work.php отправляет ID в скрипт getEvent.php с помощью fsockopen.
... В getEvent.php опять же идет гет актуального JSON, декод и скрипт ищет в "events" ID, которое ему отправил work.php затем обрабатывает эти данные и обновляет их в базе MYSQL

Вот это что за хрень? Почему work.php не может сразу отправить данные getEvent? Зачем getEvent заново гетит JSON и заново ищет там ID?
А потом вы жалуетесь что:

Оперативка кушается потому что в work.php каждые 2 секунды гетится json + в 600-800 открытых getEvent.php тоже гетится этот же json.

чтобы они не отставали от данных в json файле более чем на 2 секунды.

И сколько гигабайт в вашем JSON что процесс не может его обойти и отправить мускул за 2 секунды?

Answer 2 · 2019-10-05 23:54:15

При такой постановке - действительно ничего нельзя сделать. Просто он не предназначен для таких операций. Но хотя-бы первый раз его надо затянуть в базу. И всегда там хранить эти данные и там-же обрабатывать.

Answer 3 · 2019-10-06 08:49:08

1. Зачем тут крон вообще? Реализуйте и парсер, и воркер как вечнозапущенные скрипты
2. Зачем файл, если есть rabbitmq?
3. М.б. имеет смысл еще и третий воркер добавить, который бы только писал в базу, но "оптом"?

Как обойти большой json файл и обновить все связанные записи в MySQL, с отставанием от файла < 2 сек.?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт