Задать вопрос

Какая из баз данных будет работать с таблицей в 1 петабайт и 3000 миллиардов записей?

Есть задача - хранение и поиск по логам:
timestamp - client IP - destination IP - destination URL

Таких записей появляется 10 млрд в сутки или 3000 млрд в год. При этом нет серьезных требований по нагрузке - несколько раз в месяц надо найти нужные записи.

Предполагается простой веб-интерфейс для создания запроса, но надо определиться с базой. Какая база справится с этой задачей?
  • Вопрос задан
  • 1785 просмотров
Подписаться 11 Оценить 8 комментариев
Пригласить эксперта
Ответы на вопрос 6
BuriK666
@BuriK666
Компьютерный псих
Может поможет. Недавно на одной местной конференции рассказывали как устроено у Avito хранение логов:
KNRU8T5FjRZHfFZkLerGPcAo7BuUCiBkNRUK5-jdK2ybq_AgBj2XFfxo2ZRdL7S0OM9VQqPg197gOaEj

У них там не просто хранение, а монетизация всех этих данных за счет таргетинга рекламы и пр.
Интересный был доклад, жаль видео записи не сохранилось.

Вот еще ссылка на презенташку с этим докладом.
Ответ написан
Комментировать
@inkvizitor68sl
Linux-сисадмин с 8 летним стажем.
mongo + шардирование.
Ответ написан
Комментировать
HeadOnFire
@HeadOnFire
PHP, Laravel & WordPress Evangelist
Про Big Data слышали? На таких масштабах забудьте про классическую БД.
Ответ написан
Neuroware
@Neuroware
Программист в свободное от работы время
Во первых нужно определиться с тем Что именно в этой куче нужно искать, то есть от чего отплясывать, одно дело если Для Данного IP найти все destination URL, совсем другое найти все IP которые заходили на данный destination URL. Архитектура хранения в обоих случаях должна быть разной. В любом случае задачи подобных масштабов решают профессионалы с соответсвующей квалификацией. "По рекомендации на тостере" подобные вещи не делаются, в лучшем случае самопал будет адски тормозить и делать "поиск" годами, в худшем в определенный момент потеряете данные.
Ответ написан
Комментировать
zoonman
@zoonman
⋆⋆⋆⋆⋆
Можете почитать сами kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis
Я рекомендовал бы смотреть в сторону Hadoop детишек вроде HBase или Cassandra.
Но и MongoDB вполне справится.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы