Выбор CPU для grep

Question

Ad3pt @Ad3pt

Выбор CPU для grep

Всем доброго времени суток.
Такая ситуация: есть старый сервер (4 CPU cores), подключенный к SCSI (DAS) дисковой полке. На дисках лежат логи apache/nginx. Периодически запускается grep по какой-то части этих логов (обычно по отдельному каталогу в 80-120GB). Самый оптимальный способ запуска grep, который я нашел:

find /logdir/log_5*201211060* |xargs -n 1 -P 4 lzcat|grep -i «some_phrase»

В такой ситуации время поиска, по моим наблюдениям (пробовал на разных хостах), сильно зависит от CPU. Как раз пришло время заказывать новый сервер и я пытаюсь выбрать CPU (желательно, Intel), максимально производительный для этой задачи. Подскажите, пожалуйста, на какие характеристики следует в первую очередь обратить внимание: частота, кэш, может быть, частота памяти или что-то еще.
Заранее большое спасибо

P.S. Возможно, есть более оптимальный способ запуска grep. GNU parallel почему-то на моей задаче показывает худшие результаты, чем xargs -P 4

Вопрос задан более трёх лет назад
4453 просмотра

2 комментария

Подписаться 2 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

3 комментария

Ad3pt @Ad3pt Автор вопроса

Судя по top, упирается в grep. Отсутствие '-i' действительно несколько ускорило процедуру, спасибо!

Написано более трёх лет назад
Алексей Акулович @AterCattus
Тогда так. У вас

... | xargs -n 1 -P 4 lzcat|grep -i "some_phrase"

запускает 4 потока zcat и только один grep. А ядро у вас наверняка не одно можно использовать.
Сделайте это в несколько потоков таки :) Например банально так:

... | xargs -n 1 -P 4 lzcat | xargs -n 1 -P 4 grep -i "some_phrase"

Число потоков под каждую задачу можно регулировать.
Написано более трёх лет назад
gribozavr @gribozavr

Если вот так распаковывать несколькими потоками в один пайп, то можно некоторые вхождения паттерна не найти. Дело в том, что распаковка происходит не построчно, а поблочно (как удобно декомпрессору). Поэтому декомпрессор может выдать начало паттерна в конце блока, затем другой процесс выдаст свой блок и первый процесс запишет хвост паттерна из второго блока. Таким образом паттерн будет разорван.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Процессоры

+1 ещё

Простой
Совместимы ли 12400f и Z790?
- 1 подписчик
- 23 часа назад
- 168 просмотров
1

ответ
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 191 просмотр
2

ответа
Железо

+2 ещё

Простой
Как устранить микрофризы в Supermium (YouTube/чат-боты) на Windows 7 с i5-12400F и RTX 3050?
- 1 подписчик
- 29 июн.
- 226 просмотров
1

ответ
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 878 просмотров
1

ответ
Железо

+1 ещё

Простой
Сломалась флешка, что делать?
- 3 подписчика
- 25 июн.
- 801 просмотр
2

ответа
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 302 просмотра
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 361 просмотр
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 264 просмотра
1

ответ
Железо

+2 ещё

Простой
Как познать сокрытое программатором?
- 1 подписчик
- 18 июн.
- 454 просмотра
6

ответов
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 143 просмотра
2

ответа
Показать ещё Загружается…

2 x Intel Xeon DP 2.80 GHz, также тестировал на 2 x Intel Xeon X5450. Хотелось бы получить время, в 1.5-2 раза меньшее, чем на X5450.

Answer 1 · 2012-11-15 03:13:41

gribozavr @gribozavr

Если поиск cpu-bound, то возможно имеет смысл написать специализированный инструмент для поиска.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2012-11-15 09:23:00

А не zcat ли является тут cpu bound звеном? Во время поиска в ТОПе процессов по cpu из этих 4х первым висит именно grep?
Если именно grep, то присоединяюсь к варианту избавления от -i.

Выбор CPU для grep

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт