Как ускорить чтение большого архива gz?

Question

maiskiykot @maiskiykot

Free coder

PHP

Как ускорить чтение большого архива gz?

Есть файлы на десятки миллионов строк. Делаю для себя поиск по ним. Проблема в чем - если, его раскрывать, то даже винда начинает притормаживать и вываливаются приложения. Пошел по пути чтения с помощью php. Собрал с миру по нитке такой вот код

ini_set('memory_limit', '2048M');
  ini_set('max_execution_time', '3000');
  
 $z = gzopen($_POST['file'],'r') or die("can't open: $php_errormsg");
    $string = [];

    while ($line = gzgets($z,1024)) {
     
       if (preg_match("!".$_POST['request'][0]."[^0-9]!",$line))
       $string[] = $line;
    
    }
      //далее обрабатываю $string.

Все бы ничего, но ищет минуты три инфу, а тот же Emeditor несколько секунд. Как оптимизировать поиск в пределах php? Всем спасибо!

Вопрос задан более трёх лет назад
172 просмотра

6 комментариев

Подписаться 1 Средний 6 комментариев

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

6 комментариев

maiskiykot @maiskiykot Автор вопроса

У меня винда

Написано более трёх лет назад
Stalker_RED @Stalker_RED

maiskiykot, если wsl работает, то не проблема.
Ну или через cygwin.

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

Stalker_RED, Задача не глобальная - нет желания время тратить на модификации системы. Пока попытаюсь в пределах своей системы расшевелить.

Написано более трёх лет назад
Ипатьев @ipatiev Куратор тега PHP

Поставить Git-SCM - 2 минуты
Но можно продолжать есть кактус.

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

Ипатьев, Так оно ускорит процесс? Вопрос скорее факультативный - для общего развития, поэтому нет необходимости ваять что-то - просто попытаться оптимизировать

Написано более трёх лет назад
Ипатьев @ipatiev Куратор тега PHP

maiskiykot, оно не ускорит, оно позволить использовать zgrep
который будет искать мгновенно

Написано более трёх лет назад

2 комментария

4 комментария

maiskiykot @maiskiykot Автор вопроса

pigz этот разве ищет в архивах? Судя по доке - он просто для архивирования/разахивирования сделан. И потом, как его вызвать из php?

Написано более трёх лет назад
rPman @rPman

он не ищет, он распаковывает, ключи -dkc это распаковать без удаления архива в stdout
| - передать поток следующей программе grep, которая умеет искать к примеру regexp (ключ -e) или передавай в awk, древнейшая утилита на си, специально созданная для анализа текстовых файлов в потоках... если нужно сложнее, бери perl (он создавался как убийца awk и sed) ну и либо, как уже сказал, пиши на c++ сам

смысл пайпов в многопоточности, все указанные программы будут запущены одновременно и будут ждать данные друг от друга, в результате обработка данных будет паралельной а не последовательной как в твоем коде (распаковал, потом поискал)

upd: замени gzip на zstd, вот уж где ускорение получишь, и бонусом еще несколько процентов уменьшения размера архивов.

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

rPman, Чувствую - это мне неасилить в рамках решения вопроса. Но, как вариант, в будущем гляну при наличии времени. Спасибо!

Написано более трёх лет назад
rPman @rPman

В догонку, избавляйся от windows, очень многое на ней работает 'чтобы хоть как то работало' например для отладки.

Понятия не имею почему, но собранная утилита на c++ (просто парсит json, в логах, где 1 строка json примерно на 300 байт) с использованием microsoft visualstudio обрабатывала ~170к строк в секунду, собранная в gcc llvm mingw разгонялась до 400к, но когда я тот же код с теми же ключами скомпилировал в linux, на той же машине я получил почти 800к

Написано более трёх лет назад

13 комментариев

AUser0 @AUser0

К этому очень полезному ответу добавлю...
А обязательно для фильтрации использовать preg_match()? В $_POST['request'][0] хранится имено regex, или простой текст? Если второе - то банальный strstr() ускорит работу...

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

AUser0, strstr не подходит. Поиск идет в основном по IP, а strstr ищет довольно-таки вольно ту же 4 = 4 = 44 = 444 и т.д.

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

По поводу блокового чтения. Тут, конечно, напрашивается такой вариант, но дело в том, что все строки важны и результат поиска - именно строка, а не простое совпадение. Поэтому получается, что блок надо все равно разбивать на строки и как-то еще стараться собирать куски строк от разбиения, потому что искомая строка может быть как раз тем результатом поиска.

Написано более трёх лет назад
ksnk @ksnk
maiskiykot, Ну так и что ? Ищем внутри блока какой-то такой регуляркой

// нужно найти строку $_POST['request']! внутри блока if (preg_match("!^.*?".preg_quote($_POST['request'], '!').".*?$!m",$line)){ echo $line[0]; // вся найденная строка }

preg_quote позволит не парится по поводу точек и звездочек в строке поиска, модификатор m и указание начала-конца строки с нежадными точками - выдадут всю строку
Если нужно привязать к номеру строки файла - вот тут будет интересно - нужно будет собирать статистику по всем попавшимся \n в блоках с привязкой к смещению в буфере+смещение чтения самого буфера. Регулярку поиска нужно делать с PREG_OFFSET_CAPTURE и потом по получившемуся смещению вычислять номер строки.
Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

ksnk, Это я все знаю, умею. Меня смущает именно строка, которая неизбежно будет покоцана в конце/начале блока. А таковых тыщи получатся. Десятки миллионов строк. А результат поиска как правило 2-3 строки.

Написано более трёх лет назад
ksnk @ksnk

maiskiykot, Нужно сохранить последнюю строку прочитанного блока и добавить ее в следующий
Найти последнюю строку -strrchr ищем символ \n в буфере, сохраняем хвост в переменной и отсекаем буфер на столько символов. При чтении следующего буфера - приписываем ему вначало сохраненный предыдущий хвост

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

ksnk, мне все равно нужно для поиска блок эксплодить, так что кусок найти можно, но тут опять возникает проблема, если вдруг блок окончится аккурат на \n

Написано более трёх лет назад
ksnk @ksnk

maiskiykot, Это же хорошо. Не надо передвигать хвост :) Нам нужно гарантировать, что каждый блок начинается с новой строки И заканчивается целой строкой. Строка у нас - это то, что заканчивается на \n

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

В общем беспристрастные тесты показали:
1. Мой вариант - найдено 3 совпадения - 104 секунд
2. Вариант поблочно 4Мб блок - найдено 2(!!!) совпадения - 89 секунды.

Величина блока особого выигрыша не дает +/- секунды, а вот потерянная строчка - полное фиаско!

Написано более трёх лет назад
ksnk @ksnk

Потерянная строка - это не фиаско, а ошибка в программировании (imho, конечно :) ). У меня на файле 3Гига, примерно, поиск строк в конце файла идет 1 минуту, на машине разработчика, тестирование phpUnit. Не моментально, конечно, но это всеж php... Размер буфера 40000 (40к). От увеличения размера скорость уже не увеличивается. 4MB - тут уже можно в ограничения на память самого php нарваться...
Причем забавный факт, если использовать регулярку в качестве средства поиска по буферам, то работает примерно в 2 раза быстрее, чем иcпользовать функцию stripos
Если интересно - https://github.com/Ksnk/scaner. В tests/readlogTest.php пример поиска по длинному логу.

Написано более трёх лет назад
ksnk @ksnk

maiskiykot, еще странное наблюдение. fread, похоже сейчас всегда читает по 8к, независимо от запрашиваемого размера чтения. Это выглядит странным багом, но проверяется у меня в отладчике. php 7.3.17

Написано более трёх лет назад
ksnk @ksnk

maiskiykot, Извиняюсь, все не так страшно, ограничение было связано с тем, что я в тесте читал файл из tar.gz архива. Однако скорость чтения большого файла, хоть какими блоками, существенно медленнее строковых операций. Настолько, что на этом фоне различать по скорости строковые операции и работу с регулярками уже в большой степени бессмысленно, они примерно одинаковы, с точностью до ошибок собственной реализации.

Написано более трёх лет назад
maiskiykot @maiskiykot Автор вопроса

ksnk, В этом и суть. От блочного чтения скорость не прыгнула до 10 сек к примеру, а точность поиска пострадала. А мне нужна каждая строчка из 19,7 миллионов

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 192 просмотра
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 267 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 256 просмотров
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 243 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 240 просмотров
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 158 просмотров
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 221 просмотр
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 261 просмотр
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 271 просмотр
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 266 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP/Go

ЭТП ГПБ / VESNA

До 220 000 ₽

Проститьки, если не в тему, но почему бы не перегнать все данные в БД? Или это невозможно?
Рональд Макдональд, Мне данные не нужны - только результаты поиска. И речь идет об архивах.
А ещё ваш алгоритм не найдёт строку, которая попала на границу блока.
Stalker_RED, Это о чем? Файл - лог, порублен \n
maiskiykot, вы его рубите не по \n, а по 1024

$line = gzgets($z,1024)
maiskiykot, впрочем сорри, если строки короче 1024, то все норм

Answer 1 · 2021-11-18 22:36:48

Stalker_RED @Stalker_RED

zgrep -i mySearchStr myFile.txt.gz

Ответ написан более трёх лет назад

6 комментариев

Answer 2 · 2021-11-18 22:40:39

1) вижу в коде $_POST и получение файла из запроса, не проще ли написать консольный скрипт, который просто читает файл по указанному пути?
2) можно использовать генератор, чтобы не грузить память файлом
https://www.php.net/manual/ru/language.generators....
https://riptutorial.com/php/example/5441/reading-a...

Answer 3 · 2021-11-19 08:40:57

на php анализ логов будет очень медленным, я переписывал на c++ и получал до 10крат ускорение (можно и больше, все зависит от логики анализа, а при использовании clang llvm еще 2х, например парсинг json ускоряется буквально на глазах, пока llvm собирает статистику исполнения), у тебя основная нагрузка именно тут.

так же пользуйся многопоточностью, например готовые консольные утилиты и пайпы, запуская их из своей программы:

pigz -dkc dump.log.gz | grep -e 'регулярное выражение' | программа_анализирующая_итоговые_строки

тут дополнительно gzip заменен на pigz, можно скачать для windows даст кратно ускорение на распаковку за счет многопоточности.

upd: замени gzip на zstd, вот уж где ускорение получишь, и бонусом еще несколько процентов уменьшения размера архивов.

Answer 4 · 2021-11-19 00:08:11

Читать нужно не по строкам, а блоками, килобайт по 40. Просто проверь - чтение блоками всего файла или чтение построчное gzgets. Вот искать в таких блоках сложнее - нужно гарантировать что найденный кусок не попадет на границу буфера чтения. Для этого, можно последнюю "строку" блока сохранять и копировать в следующий блок.
Читать загзипованые файлы удобнее, imho, обычными файловыми операциями fread, feof вот только открывать его придется gzopen. Как нибудь так...

if (preg_match('/\.gz$/', $name)) {
                $_handle = fopen($name, "rb");
                fseek($_handle, filesize($name) - 4);
                $x = unpack("L", fread($_handle, 4));
                $this->finish = $x[1];
                fclose($_handle);
                $handle = gzopen(
                    $handle, 'r'
                );
            } else {
                $this->finish = filesize($name);
                $handle = fopen($name, 'r');
            }

Как ускорить чтение большого архива gz?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт