Где и как хранить множество файлов разного размера?

Question

Дмитрий Скрябин @SkryabinD

Программирование, управление проектами.

Где и как хранить множество файлов разного размера?

Есть много файлов разного размера (в сжатом виде от 1КБ до 100Mб) . Файлы - текстовые логи трафика пользователей, сжатые gzip. 1 файл - логи одного пользователя за 1 день.
Один день - примерно 60k файлов (в сжатом виде порядка 15Гб). Сейчас храню их в директориях по дням, внутри дня разбиваю по директориям по префиксам. С одной стороны, удобно - по любому пользователю можно быстро получить логи. Но работать с массой таких файлов не удобно - копируются медленно, фс работает медленно. Учитывая, что на разделе хранятся логи за последние 3-4 месяца, получается 7-8 млн файлов.

Ищу такое хранилище (или способ организации), чтобы сократить количество файлов для облегчения работы с ними, при этом чтобы было сжатие. Рассматривал вариант сохранять файлы в PostgreSQL (логи в поле типа text, чтобы работало сжатие), там файлов меньше получается, но проблема в записи больших файлов - текстовый лог размером в 1Гб не получилось записать - не хватает памяти скрипту (писал на питоне).

Есть ли какие-то другие варианты хранения такого рода файлов?

Вопрос задан более трёх лет назад
3198 просмотров

Комментировать

Подписаться 7 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Профессия Интернет-маркетолог с нуля до PRO

7 месяцев

Далее
АБИУС

Применение нейросетевых технологий и ИИ-агентов в маркетинге

2 месяца

Далее
МИПО

Интернет-маркетинг

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Дмитрий Скрябин @SkryabinD Автор вопроса

Спасибо, интересные решения. Но у HistoryDB API только под C либо через HTTP. Ни то, ни другое не подходит. Сам по себе Elliptics для меня несколько избыточен, т.к. распределенности не нужно, зато нужна возможность резервного копирования (чтобы взять один большой файл со всеми логами и записать его на стриммер). А вот то, что использует Elliptics в качестве хранилища (eblob) - это уже почти то, что мне нужно. Правда, там тоже API только для С, а мне нужно для Python.
В общем, получается, мне нужен аналог Eblob, работающий с Python.

Написано более трёх лет назад
Дэн Иванов @ptchol

У эллиптикса есть API на пайтон. doc.reverbrain.com/elliptics:api-python.
В целом я вас понял, решения не совсем подходят, просто предполагал что нужен постоянный доступ к полному объему данных.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 262 просмотра
6

ответов
PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 96 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 156 просмотров
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 293 просмотра
3

ответа
Поисковая оптимизация

Сложный
Стало заходить много ботов на сайты, какими способами заблокировать их?
- 1 подписчик
- 01 июл.
- 179 просмотров
2

ответа
Поисковая оптимизация

Простой
Зачем iframe-tasks заходит на отсутствующие товары в ИМ?
- 1 подписчик
- 30 июн.
- 70 просмотров
3

ответа
Поисковая оптимизация

Простой
Какой будет правильный Robots.txt для Wordpress (привел пример структуры)?
- 1 подписчик
- 14 июн.
- 110 просмотров
5

ответов
Поисковая оптимизация

Сложный
Индексация http при настроенном редиректе на https?
- 1 подписчик
- 08 июн.
- 126 просмотров
1

ответ
Поисковая оптимизация

Простой
Как лучше кластеризировать ключевики?
- 1 подписчик
- 05 июн.
- 85 просмотров
1

ответ
Поисковая оптимизация

Простой
Где покупать ссылки и как анализировать ссылочный профиль?
- 1 подписчик
- 05 июн.
- 93 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2018-10-04 09:12:54

Для решения задачи хранения логов решил использовать ClickHouse от Яндекса. Колоночность, сжатие и быстрый доступ позволяет удобно работать с данными: можно быстро получать весь трафик по конкретному пользователю. Физически создается не много файлов, можно бекапить прямо эти файлы (отключив их от базы). На данный момент для меня это оптимальное решение.

Answer 2 · 2014-03-04 11:59:07

Посмотрите на
https://github.com/reverbrain/historydb
https://github.com/reverbrain/elliptics

Но оно хорошо работает только с файлами среднего и большого объема, тоесть от нескольких десятков килобайт и больше.

Где и как хранить множество файлов разного размера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт