Как хранить и обмениваться текущим смещением строк в файле при его построчном чтении несколькими процессами?

Question

Евгений @evgen_dev

Веб-разработчик

PHP

Как хранить и обмениваться текущим смещением строк в файле при его построчном чтении несколькими процессами?

Приветствую.
Есть приложение на Laravel. Есть мастер-комманда, которая запускает в фоне N процессов (артисан команды) , которые обрабатывают файлы. Не вдаваясь в подробности, есть условный файл с 10000 строк.
Задача запустить 100 конкурирующих процессов, которые будут читать и обрабатывать файл построчно.
Сейчас сделано так, что на каждый процесс выделяется по 100 строк и он их обрабатывает, по завершению запускается новый процесс со 100 строками и т. д. Это решение не нравится тем, что если какой-то процесс работает медленно, остальные не могу ему "помочь", даже если они уже свободные.

В целом, реализация ясна, но как лучше организовать хранение текущего смещения, что бы избежать пропусков и повторных обработок строк? Т. е. что бы каждая строка была гарантировано обработана и только один раз.

P. S. Использование mysql не рассматриваю в принципе.

Благодарю.

Вопрос задан более двух лет назад
99 просмотров

10 комментариев

Подписаться 1 Средний 10 комментариев

mayton2019 @mayton2019

Сейчас сделано так, что на каждый процесс выделяется по 100 строк и он их обрабатывает, по завершению запускается новый процесс со 100 строками и т. д. Это решение не нравится тем, что если какой-то процесс работает медленно, остальные не могу ему "помочь", даже если они уже свободные.

А почему размер пачки такой маленький? У тебя 100 строк обрабатываются по часу?

Написано более двух лет назад
rPman @rPman

в чем проблема запускать процесс не по 100 строк а по 10 или по 1, выбирая для каждой следующей строки наименее нагруженный хост?

Написано более двух лет назад
Евгений @evgen_dev Автор вопроса

rPman, Так накладные расходы по времени на запуск процесса будут велики. Уменьшать не вариант, увеличивать тоже, ввиду причин описаных выше, один процесс может тормозить завершение задачи в целом.

Написано более двух лет назад
Евгений @evgen_dev Автор вопроса

mayton2019, 15 минут в среднем, но это к вопросу не относится

Написано более двух лет назад
rPman @rPman

Так накладные расходы по времени на запуск процесса будут велики.
важнейший вопрос, эти расходы зависят от указанных при старте приложения строк? можно ли модифицировать код так чтобы в работающий процесс добавлять новые строки?

Написано более двух лет назад
mayton2019 @mayton2019

Евгений Девисок, я не специалист в PHP но почитай про шаблон Fork-Join.

Написано более двух лет назад
Евгений @evgen_dev Автор вопроса

rPman, нет, эти расходы на старте одинаковые, независимо от кол-ва передаваемых строк. Именно из-за этого и хотелось бы выдергивать строки, ничего не перезапуская.

Написано более двух лет назад
lUser L @thisuserhatephp
chatGPT

Для организации конкурентной обработки строк файла без использования MySQL или другой базы данных вы можете воспользоваться механизмом межпроцессового взаимодействия, таким как блокировки и семафоры. Вам потребуется использовать некоторые инструменты, доступные в Laravel, такие как Redis или файловые блокировки.

Вот общий план действий:

1. Разделите ваш файл на N частей (где N - количество процессов, например, 100), и определите смещение каждой части в файле.

2. Создайте N отдельных процессов, каждый из которых будет обрабатывать свою часть файла.

3. Используйте механизм блокировок, чтобы гарантировать, что каждый процесс будет обрабатывать только свои строки. Это может быть достигнуто с использованием Redis или файловых блокировок.

4. В каждом процессе считайте свою часть файла с учетом смещения и обрабатывайте строки.

5. По мере того как каждый процесс завершает обработку своей части, он может освободить блокировку или сообщить главному процессу о завершении.

Пример использования Redis для синхронизации процессов в Laravel:

use Illuminate\Support\Facades\Redis; // В главном процессе $numberOfProcesses = 100; $fileSize = 10000; $chunkSize = ceil($fileSize / $numberOfProcesses); for ($i = 0; $i < $numberOfProcesses; $i++) { $offset = $i * $chunkSize; $chunkKey = "process:$i"; Redis::set($chunkKey, $offset); // Запустить процесс с $offset и $chunkSize для чтения и обработки своей части файла. } // В каждом процессе $processId = getProcessId(); // Здесь уникальный идентификатор процесса $chunkKey = "process:$processId"; while (true) { $offset = Redis::get($chunkKey); if ($offset === false) { break; // Процесс завершает работу, так как нет больше данных для обработки. } // Читайте и обрабатывайте часть файла с учетом смещения $offset и размера чанка. // После обработки, можно освободить блокировку Redis::del($chunkKey); } // Главный процесс может дождаться завершения всех процессов перед продолжением выполнения.

Этот пример демонстрирует, как можно использовать Redis для синхронизации процессов и обработки файла по частям без использования базы данных MySQL. Вы можете адаптировать этот код под ваши потребности и добавить обработку ошибок и другие функции, которые вам нужны.
Написано более двух лет назад
Евгений @evgen_dev Автор вопроса

Эмиль 🔥, Этот пример ничего не демонстрирует, примерно так сейчас и работает и это не устраивает. Вопрос был в другом.

Написано более двух лет назад
rPman @rPman

Евгений,
можно ли модифицировать код так чтобы в работающий процесс добавлять новые строки?

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

3 комментария

Евгений @evgen_dev Автор вопроса

Не совсем понял, предлагаете на каждую строку файла создавать строку в базе и помечать ее как обработанную?

Написано более двух лет назад
Ипатьев @ipatiev Куратор тега PHP

я предлагаю не использовать файлы

Написано более двух лет назад
Евгений @evgen_dev Автор вопроса

Ипатьев, Передам юзерам, чтобы не загружали свои ужасные файлы. Отказ от использования реляционных баз не принципиальность, а пройденый этап. База данных вполне используется там, где она уместна.

Написано более двух лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 13 часов назад
- 82 просмотра
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- вчера
- 128 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 128 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 113 просмотров
1

ответ
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 252 просмотра
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 264 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 422 просмотра
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 249 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 217 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 338 просмотров
3

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Разработчик PHP (junior / стажер) - Laravel

CRM для НКО Мост данных

от 30 000 до 110 000 ₽

Сейчас сделано так, что на каждый процесс выделяется по 100 строк и он их обрабатывает, по завершению запускается новый процесс со 100 строками и т. д. Это решение не нравится тем, что если какой-то процесс работает медленно, остальные не могу ему "помочь", даже если они уже свободные.

А почему размер пачки такой маленький? У тебя 100 строк обрабатываются по часу?
в чем проблема запускать процесс не по 100 строк а по 10 или по 1, выбирая для каждой следующей строки наименее нагруженный хост?
rPman, Так накладные расходы по времени на запуск процесса будут велики. Уменьшать не вариант, увеличивать тоже, ввиду причин описаных выше, один процесс может тормозить завершение задачи в целом.
mayton2019, 15 минут в среднем, но это к вопросу не относится
Так накладные расходы по времени на запуск процесса будут велики.
важнейший вопрос, эти расходы зависят от указанных при старте приложения строк? можно ли модифицировать код так чтобы в работающий процесс добавлять новые строки?
Евгений Девисок, я не специалист в PHP но почитай про шаблон Fork-Join.
rPman, нет, эти расходы на старте одинаковые, независимо от кол-ва передаваемых строк. Именно из-за этого и хотелось бы выдергивать строки, ничего не перезапуская.
Эмиль 🔥, Этот пример ничего не демонстрирует, примерно так сейчас и работает и это не устраивает. Вопрос был в другом.
Евгений,
можно ли модифицировать код так чтобы в работающий процесс добавлять новые строки?

Answer 1 · 2023-09-09 08:47:27

Я бы на твоём месте использовал атомарный инкремент редиса
$currentRow = $redis->incr('current_row');
Даже если все 100 потоков в одну миллисекунду выполнят этот код, то redis гарантированно отдаст каждому потоку своё уникальное значение без коллизий

Answer 2 · 2023-09-08 16:55:27

Для не слишком принципиальных товарищей есть элементарное решение

update tasks set uuid = ? where done=0 limit 1;
// обрабатываем
update tasks set done=1 where  uuid = ?;

А принципиальные должны страдать :)

Answer 3 · 2023-09-08 21:01:15

Вы либо слишком переусложняете, либо я задачу вашу не понимаю.

1. Есть 100 воркеров. Они крутятся через supervisor, ожидают задач
2. Что угодно, хоть консольная команда, хоть в контроллере, хоть суперворкер - читаем файл по 10 строк и отправляем в очередь.
MyJob::dispatch($tenLinesFromFile);
Итого, файл разделился на 1000 кусков, освободившийся воркер обрабатывает следующую часть.
Накладные расходы? 10мс? При времени обработки в 15 мин кажется не там вы оптимизировать пытаетесь.

Как хранить и обмениваться текущим смещением строк в файле при его построчном чтении несколькими процессами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт