Как оптимизировать парсинг больших csv файлов?

Question

Максим Медведев @reimax

PHP
CSV

Как оптимизировать парсинг больших csv файлов?

Есть csv файл объемом 300мб. В нем 200 000 строк вида:

текст текст; "текст в двойных кавычках; текст в двойных кавычках; текст в двойных кавычках"; текст; текст
текст текст; "текст в двойных кавычках; текст в двойных кавычках; текст в двойных кавычках"; текст; текст; текст;  текст
текст текст; текст; текст;  "текст в двойных кавычках;текст в двойных кавычках; текст в двойных кавычках"; текст; текст

Разделитель ; , но так как внутри ячеек так же встречается ; приходится делать замену с помощью регулярки, решение нашел здесь: 373729

Далее, для обработки файла использую следующий код:

$handle = fopen($file_save . $name_csv, "r");
			$data_import = array();
			if(empty($handle) === false) {
			    while(($data = fgetcsv($handle, 0, ";")) !== FALSE) {
					array_push($data_import, $data);
			    }
			    fclose($handle);
			}

проблема в том, что скрипт забирает себе 1гб оперативы. Вопрос, может я упускаю какой то более правильный способ парсинга csv файла такого объема? Регулярка и сам парсинг разнесены отдельно и количество потребляемой памяти на разбор файла указан без работы по замене разделителя.

Вопрос задан более трёх лет назад
1057 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Средний
Как понять почему долго формируется страница в 1с-битрикс?
- 1 подписчик
- 2 часа назад
- 29 просмотров
0

ответов
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 3 подписчика
- 14 нояб.
- 318 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 220 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 186 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 309 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 283 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 150 просмотров
1

ответ
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 321 просмотр
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 375 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 304 просмотра
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2016-11-25 22:48:54

учитывая, что потом Вы это запихиваете в БД - пихайте сразу в БД и дальше делайте логику на SQL. будет на порядки быстрее и в разы менее прожорливо до памяти

Answer 2 · 2016-11-25 22:34:00

Почитайте про генераторы Для чего нужны Генераторы (yield) в php? (ссылку привел для примера, просто первая попалась и там как раз тоже человек показал обработку csv)

Как оптимизировать парсинг больших csv файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт