Есть огромный csv-файл с данными (over 100k строк). Как все это добро на PHP, без SSH, загнать в MySQL?

Question

alex stephen @berezuev

#define TRUE FALSE

Есть огромный csv-файл с данными (over 100k строк). Как все это добро на PHP, без SSH, загнать в MySQL?

Здравствуйте. Задача: есть огромный csv-файл с данными (over 100k строк).
Нужно все это добро на PHP, без SSH загнать в MySQL бд... Лимит 30 сек.
Пробовал читать файл по 1000 строк (каждый раз приходится его открывать), естественно, в 30 сек оно не укладывается.

Как такие вещи делают гуру?

Вопрос задан более трёх лет назад
6835 просмотров

1 комментарий

Подписаться 4 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 9

4 комментария

alex stephen @berezuev Автор вопроса

Так и делаю. С запросами хватает на 300 строк максимум, если просто выводить — не на много больше. Узкое место — чтение файла

Написано более трёх лет назад
lizergil @lizergil

Update: закрытие файла в п.7 конечно (исправил), т. е. открываем один раз и последовательно обрабатываем.

Написано более трёх лет назад
ZuBB @ZuBB

insert’ы нужно делать в рамках 1 транзакции и в таблице должен быть отключен/отсутствовать индекс

Написано более трёх лет назад
Егор Казанцев @saintbyte

Если делать insert с параметром delayed то можно сделать много инсертов сразу... дальше с ними будет разбираться база.

Бросайте использовать мускуль переходите на надежные базы типа firebird

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 19 часов назад
- 192 просмотра
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 225 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 185 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 408 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 246 просмотров
4

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 207 просмотров
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 211 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 211 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 332 просмотра
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
Показать ещё Загружается…

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Answer 1 · 2014-02-06 18:31:24

Почитайте про LOAD DATA INFILE ( dev.mysql.com/doc/refman/5.1/en/load-data.html )

например с его помощью 40 млн 4кб строк грузились 40 мин (причем узким местом был php, который генерил эти данные) .. в вашей ситуации это будет намного быстрее думаю.

Answer 2 · 2014-02-06 21:25:42

Алгоритм в твоем случае будет таким:
1. Удаление всех индексов из таблицы, куда планируется записывать данные.
2. Открытие файла (fopen).
3. Чтение m строк (fgets) пока не конец файла.
4. Составление запроса в виде одной пачки (batch): INSERT INTO ... VALUES ( %row1%, %row2%, ... , %rowm%);
5. Выполение запроса.
6. Переход к шагу 3.
7. Конец файла, закрытие файла, строим удаленные индексы.

Если шаги 3 и 4 выполнять параллельно, то можно сэкономить на памяти.

По поводу лимита: у тебя сложность алгоритма O(n) - т. е. линейно зависит от кол-ва строк в файле, ускорить (если недостаточно) поможет либо оптимизация (использования низкоуровневых утилит для вставки данных, но данные эти заранее должны быть подготовлены), либо использование более производительного железа (клиента, сети, сервера).

Answer 3 · 2014-02-06 19:51:46

Приходилось парсить файлы с огромным количеством e-mail'ов, при похожих условиях. Я использовал аякс как прокладку. С одной php забирал данные на клиент, и потом партиями отправлял в другую, где вставлял все это в базу.

Могу отправить Вам на почту этот скрипт, правда он довольно топорный, делался в спешке. Для его использования лучше разбить файл на несколько частей и запустить парсинг в несколько окон, чтоб быстрее было. Если что допилите, как Вам нужно.

Answer 4 · 2014-02-06 21:00:31

Пробовал читать файл по 1000 строк (каждый раз приходится его открывать), естественно, в 30 сек оно не укладывается...

Таки вещи делаются через AJAX. Файл открывается на сервере и в браузер клиента пересылается инфа о количестве строк. Далее клиент позылает через AJAX короткие задания: занести в базу строки с 1 по 10. Даже при большом файле на короткие операции не такие уж длинное время требуется. После выполнения этоко маленького куска сервер через AJAX сообщает результат операции: успешно внесено, ошибка в строке NNN или что то еще.

Минусом идет то, что у клиента все время должна быть открыта сессия браузера. При ее закрытии ничего бельше непосылается серверу и оперции останавливаются.

Answer 5 · 2014-02-06 23:06:19

Я обычно на клиентской стороне бью файл на части, копирую на ftp. А там специальный скрипт с GET-параметром, в котором стоит счётчик, читает сначала первую часть, даёт редирект на вторую; вторая на третью - и так до конца заливки.