Как реализовать параллельную обработку записей таблицы?

Question

sbh @sbh

Python
MySQL

Как реализовать параллельную обработку записей таблицы?

Есть таблица с огромным количеством данных.
Есть скрипт который берет устаревшую запись (в таблице есть поле с отметкой последней обработки), обрабатывает ее и вносит результат обработки в таблицу.
Данных очень много в таблице, для ускорения обработки хочется запустить несколько экземпляров скрипта.
Но появляется проблема - экземпляры скрипта могут запросто схватить 1 и ту е запись из таблицы и начать ее обрабатывать одновременно.
Как реализовать параллельную обработку данных таблицы и избежать такого рода проблем?
Пока из идей только разве что добавить булево поле "in processing" и менять его когда какой-то из экземпляров скрипта хватает запись в обработку, после обработки менять данное поле обратно. Но тут возможна ситуация когда экземпляр скрипта по какой-то причине умрет и "in processing" останется в состоянии обработки навсегда.

Вопрос задан более трёх лет назад
66 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

5 комментариев

sbh @sbh Автор вопроса

а можете своими словами объяснить как это работает? Другие экземпляры поймут что запись трогать нельзя, что она уже занята?

Написано более трёх лет назад
ScriptKiddo @ScriptKiddo

sbh, да, примерно так. СУБД не даст изменить строку, которая изменяется в еще незакрытой транзакции.

Вот пример для InnoDB
https://dev.mysql.com/doc/refman/8.0/en/innodb-loc...

Насчет нового поля - необходимость зависит от вашей задачи. Если вносите результаты проверки в другую таблицу - тогда можно и без него обойтись.

Написано более трёх лет назад
sbh @sbh Автор вопроса

ScriptKiddo, угу, то есть это блокирует запись таблицы на редактирование, но с помощью SELECT который будет выполняться скажем в 100 потоков 1 и ту же запись получить можно будет все равно, верно?

Написано более трёх лет назад
ScriptKiddo @ScriptKiddo

sbh, конечно. Вам потребуется доп параметр, который позволит определить, обрабатывалась уже запись или нет.

В принципе, можете сделать так: один экземпляр скрипта выбирает последовательно пачку данных. К примеру, 1000 строк. После чего их обрабатываете через multiprocessing.map() в нужное количество процессов. Так, каждому процессу достанется своя порция непересекающихся данных для обработки.

Написано более трёх лет назад
sbh @sbh Автор вопроса

ScriptKiddo, да, можно оркестратор написать для скриптов, но я думал это реализовать с помощью механизмов БД.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как работать с Selenium через приватный socks proxy?
- 1 подписчик
- 27 июл.
- 114 просмотров
2

ответа
Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 22 июл.
- 259 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 121 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 135 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 434 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 253 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 741 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 590 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 322 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 617 просмотров
1

ответ
Показать ещё Загружается…

можно одним селектом выбрать те записи, которые нужно обработать и распределить по воркерам.
Да, мы к такому выводу и пришли что надо писать оркестратор в скрипте

Answer 1 · 2020-07-12 14:47:48

Скорее всего вам не нужно новое поле.
Используйте SELECT с хинтом FOR UPDATE.

Если сессия умрет - MYSQL автоматически откатит изменения в рамках транзакции

https://dev.mysql.com/doc/refman/8.0/en/innodb-loc...

Answer 2 · 2020-07-14 07:22:18

Сделайте обработку в несколько потоков, а для того, чтобы обработчики каждого потока случайно не взяли одно и то же, используйте очереди с блокировкой

Как реализовать параллельную обработку записей таблицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт