Что лучше использовать для логов парсера: mysql или elasticsearch?

Question

Kolya Vantukh @vkolya

Что лучше использовать для логов парсера: mysql или elasticsearch?

Делаю парсер и возник вопрос как сохранять предыдущие результаты парсинга . на данный момент есть одна таблица в бд,где сохраняются результаты последнего парсинга . т.е. перед стартом парсера все данные удаляются с этой таблицы и добавляются новые . Нужно где-то сохранять полностью все данные предыдущих парсеров т.е. вести логирование, чтобы потом можно с ними делать какую-то статистику(например как менялась цена) . как лучше это сделать? данных с работы парсеров будет довольно много поэтому думал сохранять их в эластике так как он быстрее сможет обрабатывать большие обьемы данных . или это как то можно решить на уровне mysql, чтобы в будущем не было проблем? подскажите с советом

Вопрос задан более трёх лет назад
250 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 698 просмотров
2

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 136 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 405 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 368 просмотров
2

ответа
Python

+2 ещё

Средний
Можно ли получить доступ к сайту?
- 4 подписчика
- 05 мар.
- 1109 просмотров
4

ответа
Elasticsearch

Простой
Как настроить workflow (n8n v2.3.5) для работы Chat->AI Anget ->Model-Elastcsearch?
- 2 подписчика
- 02 мар.
- 133 просмотра
0

ответов
Парсинг

Простой
Как спарсить Интернет Магазин?
- 1 подписчик
- 27 февр.
- 431 просмотр
4

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 251 просмотр
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 221 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2019-03-01 18:04:19

Elastic выглядит как оверкилл тут, вполне реально обойтись просто mysql, просто не удаля данные/записывая их в таблицу. Ну и "довольно много" это очень разные понятия могут быть.
Скорость обработки elastic и mysql сравнивать не совсем корректно, elasticскорее для (не)четкого поиска по данным - если есть четкое понимание по какому полю будете искать(например по ид товара) - то mysql ничуть не хуже и значительно проще в настройке и эксплуатации

Answer 2 · 2019-03-01 18:29:33

Я бы порекомендовал эластик. Во первых - в нем гораздо удобнее хранить логи, можно настроить индексы и сделать их в кластере, если меняется формат логов, то достаточно просто сделать несколько разных схем данных. Поиск и агрегация гораздо мощнее, чем в SQL. Можно делать алиасы и разбивать индексы как угодно.
Во вторых - к эластику можно прикрутить kibana, или grafana, или вообще что-то свое написать - REST API хоть через curl дергать можно.

Ну и, если эластика будет не хватать, то druid.io вам в помощь или kafka :-)

Answer 3 · 2019-03-05 13:50:33

Что использовать?
Зависит от нагрузки, одно из преимуществ ElasticSearch это сжатие хранимых данных, не четкий поиск, горизонтальное масштабирование из коробки (без танцев с бубном), fault tolerance при правильной настройке кластера
Минусы, я думаю сложнее в настройке как самого эластика так и JDK под него.

Что лучше использовать для логов парсера: mysql или elasticsearch?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт