Как распараллелить парсинг и загрузку в БД на php?

Question

seredaes @seredaes

PHP
MySQL

Как распараллелить парсинг и загрузку в БД на php?

Привет.
Есть пару файлов в CSV.
Размер файла около 2 гигабайт.

Залить нужно в БД (MySQL) где около 6 миллионов записей.

Я считываю значение, прогоняю по всей БД запись.
Если есть, обновляю на всякий случай данные, если нет - записываю в БД новую запись.

И вот этот процесс очень длителен.
Знаю, что php однопоточный. Но может будут идейки, как распараллелить.

Я вот думал, один скрипт считывает сколько строк в файле.
Делит на n-ое количество, например на 3.
Потом через exec запускаю php на выполнение,
считываю определенное количество строк, и работаю с ними.

В общем два медленных момента:
1. считывание файла, весь в ОЗУ не загнать
2. БД нужно не просто записать, а прогнать по всей БД, найти есть ли такая запись и после уже обовить или записать.

Вопрос задан более трёх лет назад
848 просмотров

1 комментарий

Подписаться 5 Средний 1 комментарий

Решения вопроса 5

Комментировать

6 комментариев

Артур @ar2rsoft

Плюс к этому если отправлять запросы не каждый отдельно, а пачками, то думаю скорость увеличится в несколько раз

Написано более трёх лет назад
seredaes @seredaes Автор вопроса

Этот скрипт нужно запускать каждый день.
Данные добавляются в файл с нарастанием и БД тоже растет.
Боюсь, что за сутки не успевает все обрабатывать. Тем более файлов много.

использую Laravel updateOrInsert
Вот вычитал, что хорошо бы отключать кеширование

DB::connection()->disableQueryLog();

И хорошая идея, например данные не вставлять сразу, а собирать в ОЗУ, а потом массовой вставку делать, но хватит ли ОЗУ, или каждые 100-200 записей делать.

Написано более трёх лет назад
seredaes @seredaes Автор вопроса

Юзаю как уже писал updateOrInsert в Laravel или это не лучший вариант?

Написано более трёх лет назад
DevMan @DevMan

seredaes, зачем вам для этого вообще laravel?
пишите напрямую в базу. 2 гига раз в день даже дохленький i3 расчуханит за час-другой.

Написано более трёх лет назад
seredaes @seredaes Автор вопроса

Проект на laravel, использую консольные команды типа PhP artisan update:lawsuits и запихиваю в крон

Написано более трёх лет назад
batyrmastyr @batyrmastyr

seredaes, а вам ранее импортированные данные сохранять надо? Если нет - проще использовать Load data и загружать во временную таблицу, потом переименовывать.

Написано более трёх лет назад

Комментировать

4 комментария

FanatPHP @FanatPHP

Открою маленький секрет: индекс не ускрояет вставку, а замедляет ;)

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

FanatPHP, для меня это не секрет.
Я имел в виду эту фразу "Я считываю значение, прогоняю по всей БД запись." - во многих случаях перед insert/update нужно найти нужные записи, и тут индексы и правильный запрос очень даже помогают.

Написано более трёх лет назад
seredaes @seredaes Автор вопроса

Индексы стотят. Но там около 7 полей и по всем нужно проверять изменение

Написано более трёх лет назад
Vitaly Karasik @vitaly_il1

seredaes, советую дополнить вопрос схемой таблицы и примером даты из CVS.
Но в целом, по-моему, быстрее ("дешевле" в смысле нагрузки базы) обновлять не проверяя все поля - https://www.techbeamers.com/mysql-upsert/

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 15 часов назад
- 128 просмотров
0

ответов
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 204 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 194 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 203 просмотра
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 135 просмотров
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 200 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 241 просмотр
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 262 просмотра
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 263 просмотра
1

ответ
PHP

+1 ещё

Средний
Возможно ли профилирование на PHP без xhprof и xdebug?
- 1 подписчик
- 02 окт.
- 174 просмотра
2

ответа
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

А тут не поможет распараллеливание, только хуже сделаете. Диск больше дергать будете.
У вас судя по описанию медленно потому что вам нужно внести миллионы записей, и вы вносите каждую запись персонально - полный цикл операций по внесению, от чтения нужной записи из файла, до добавления в базу.
Делайте это пачкой - читайте сразу 100, 1000 записей и заносите их.

1. считывание файла, весь в ОЗУ не загнать
А зачем его туда загонять? Его читать просто пореже надо. Я так понимаю что на 6млн записей вы его читаете 6млн раз. Ну считайте сразу одну десятую, или одну сотую файла в память и все. В результате у вас будет 10-100чтений файла вместо шести миллионов, а это огромная экономия времени.

2. БД нужно не просто записать, а прогнать по всей БД, найти есть ли такая запись и после уже обовить или записать.
Индекс.

Answer 1 · 2019-11-03 04:24:53

updateOrInsert несовместим с "собирать в ОЗУ". Он тупо делает select а потом insert.

Хз сколько это 2гб в записях. Если до нескольких миллионов - то тупо делаете пачками по 3-5 тыс. select, потом insert недубликатов такими же пачками по 3-5кж

Если больше - делаете тоже самое, но разбиваете файл на несколько и раздаете задачи джобам.

Answer 2 · 2019-11-02 20:18:25

если это разовая (или не очень частая) задача вы больше времени потратите на распараллеливание, чем просто на импорт.

не нужно искать по всей базе, создайте уникальный индекс и воспользуйтесь odku или insert ignore (если уверены, что данные такие же).
да и csv - не единый набор данных, его спокойно можно читать построчно. набивать буфер и отправлять пачкой в бд.

в целом: если вам не нужно делать импорт каждые 5 минут, нет смысла ее параллелить.

Answer 3 · 2019-11-03 00:30:28

Если делать в один поток:
(Сначала, работаем БЕЗ базы)
1. Берём CSV и расставляем (формируя два новых файла рядом!) через консольный скрипт/программу в нём ID-шники согласно "таблице-связке" (которая тоже в файле хранится, её изначально надо будет сделать однократно): [ID в CSV] -> [ID в нашей базе]. Это может быть как артикул, так и название (или любой другой уникальный параметр для одной уникальной записи, включая хэширование).
Получаем CSV2-update (связанные записи) и CSV2-new (записи, которых нет в нашей БД).

(сортировка - по желанию, но она не нужна)

(Начинаем работать с базой)
2. Обновляем сначала те, что есть: CSV2-update
3. Затем, добавляем в БД новые позиции: CSV2-new.

4. После добавления - обновляем файл "таблицы-связок".

Итог:
1. Мы все "тяжёлые" операции делаем ВНЕ базы.
2. Мы ничего не ищем по базе, а сразу берём нужную запись по ID ("ключу").

Захотите сделать сразу всё и мультипоточно на PHP: pthreads в помощь!

Answer 4 · 2019-11-04 12:29:21

Похожую задачу решил для себя иначе.

Поле в БД сделал уникальным по которому должна была идти проверка.

При импорте делаю только INSERT. В итоге данные или записываются или нет и можно распараллелить :)

1 млн записей на слабеньком сервере за +/- 1-3 минуты выполняется.

Answer 5 · 2019-11-02 20:56:47

2. БД нужно не просто записать, а прогнать по всей БД, найти есть ли такая запись и после уже обовить или записать.

Только это может быть медленным, читать файл не проблема.
Насколько медленно работает вставка? - активизируйте slow query log и посмотрите. С использованием индекса эта операция должна быть быстрой. Если нет - надо оптимизировать.

Как распараллелить парсинг и загрузку в БД на php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт