Каким способом лучше перерабатывать многомиллионые логи?

Question

Андрей @Laptinius

PHP
MySQL

Каким способом лучше перерабатывать многомиллионые логи?

Доброго времени суток сообщество.
Суть задачи: еженедельно обрабатывать логи в 50кк-80кк строк.

Есть mysql база с уникальными полями в 25кк строк, со временем собираются необходимые логи и нужно обновить инфу(счётчики + дополнительные поля).

Как я сейчас это вижу:
1. Переработать логи убрав дубликаты/суммировать поля. (обычно строк где то 60% от количества строк в БД)
2. Построчно делать запросы к базе (сравнить и обновить/добавить если надо)
Но время работы скрипта растягиваются на часы + очень трудно вывести прогресс работы.

Как можно решить данную проблему? Помогите :)

Как работало раньше. Когда то база была <5кк и я сливал всё в многомерный массив, логи тоже в массиве быстро собирал, сравнивал и обновлял. Но месяц назад мне начало выдавать ошибку с нехваткой памяти, а поднять лимит нельзя, php ведь 32битный. Обновление такой базы протекало не более 2-5 минут.

Вопрос задан более трёх лет назад
2373 просмотра

1 комментарий

Подписаться 2 Оценить 1 комментарий

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- вчера
- 193 просмотра
3

ответа
PHP

Простой
Можно ли в PHP вкладывать однострочные комментарии // в многострочные /* */?
- 1 подписчик
- 16 окт.
- 182 просмотра
4

ответа
PHP

+1 ещё

Простой
Перестал работать php запрос к телеграмм?
- 1 подписчик
- 15 окт.
- 191 просмотр
1

ответ
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 133 просмотра
1

ответ
PHP

Простой
Как точно работает скрипт на RoadRunner?
- 1 подписчик
- 13 окт.
- 198 просмотров
1

ответ
PHP

+1 ещё

Простой
Стоит ли использовать файловый сервер в проекте?
- 2 подписчика
- 13 окт.
- 234 просмотра
3

ответа
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт.
- 261 просмотр
3

ответа
PHP

+1 ещё

Средний
Что входит в отладку скрипта на PHP?
- 1 подписчик
- 02 окт.
- 261 просмотр
1

ответ
PHP

+1 ещё

Средний
Возможно ли профилирование на PHP без xhprof и xdebug?
- 1 подписчик
- 02 окт.
- 172 просмотра
2

ответа
PHP

+2 ещё

Средний
PHP может выполнять функцию прокси curl запросов? Например между 1C и Битрикс24?
- 1 подписчик
- 02 окт.
- 167 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

Остров Сокровищ

от 180 000 до 250 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Разработчик PHP | WordPress

Globaldrive

от 150 000 ₽

уххх... Вот это ночка выдалась. Все логи записаны.
Спасибо обоим за советы. Реализовал поэтапную заливку логов с сохранением незавершённых ссесий во временной таблице. Работает на удивление быстро :)

Answer 1 · 2014-08-14 01:51:09

А нельзя обрабатывать не еженедельно, а каждые сутки, например?
К тому же, такого демона реализовать можно(лучше) на C++, и распараллелить.

Answer 2 · 2014-08-14 10:29:53

tar.gz для хранения
mysql сделайте репликацию, в новой базе сделайте "свои" индексы
По ним и считайте

А вообще ваш лог через unuxовый sort пролезает?
Делайте sort, потом uniq, а работайте уже с выходным файлом.
Обработка через awk

Answer 3 · 2014-08-14 11:28:35

Там много велосипедов можно придумать с SQL базами/демонами и репликациями, но все они плохо масштабируются и люто тормозят. Если есть тенденция увеличения объема логов, то нужно смотреть в сторону logstash + elastic search, иначе в будущем у вас будет такое легаси, с которым уже сложно будет что-то сделать.

Каким способом лучше перерабатывать многомиллионые логи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт