Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

Question

hostovik @hostovik

Базы данных

Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

Есть csv, от десятков ГБ до 1 ТБ, то есть,сильно больше чем моя RAM.
В строке таблицы порядка 5 полей. Размер одного поля можно считать нефиксированным.
Число строк от 100 млн до 2 млрд. Будет именно чтение одним пользователем, никаких записей в файл.

В таблицах есть уникальное поле, "хеш". Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?-
А) sql. типа postgre. удобно но эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл
Б) sql типа sqllight. на малых объемах летает. но не уверен что она хорошо работает с большими файлами, в том числе сможет быстро создавать индексы
В) nosql база типа mongo?
Г) файлы с индексами - обработка python-ом
Я думаю что вариант Г) - оптимальный. или есть иные варианты? куда именно смотреть?

Вопрос задан более трёх лет назад
1325 просмотров

1 комментарий

Подписаться 4 Средний 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 6

7 комментариев

hostovik @hostovik Автор вопроса

данные тестирования бы глянуть. слишком сильное утверждение чтобы без них

Написано более трёх лет назад
Рональд Макдональд @Zoominger

hostovik, а чего сильного-то? У вас грамм примитивных данных без сложных связей, с этим и массивы в ОЗУ бы справился.

Написано более трёх лет назад
Hemul GM @HemulGM

hostovik, sqlite с проиндексированной таблицей имеет очень хорошие показатели скорости в запросах.
Грубо могу рассказать о сравнениях, которые я делал несколько лет назад, когда необходимо было сформировать БД для ФИАС. ФИАС - это огромная база данных адресов России. Государственная БД. Она предоставляется в XML или в dbf.
Когда я перенёс бд из dbf в SQLite, то скорость запросов была примерно секунд 40 (иногда до минуты), после индексации таблиц скорость запросов была около ~1-2 сек.

PS. БД ФИАС весит сейчас 7гб. (xml - 9гб, на тот момент весила 6+ гб dbf и 8+ xml))

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Рональд Макдональд, для 1 млрд записей даже если размер пар "ключ -значение" 100 байт, нужно 100 ГБ ram, у меня такого нет - "массивы в ОЗУ бы справился."

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Hemul GM, 7 гб это совсем иное. Это умещается в RAM, и диск вообще вторичен, а у меня в память не запихнуть и узкое место -диск

Написано более трёх лет назад
Hemul GM @HemulGM

hostovik, ОЗУ там не играли большой роли.

Написано более трёх лет назад
ComodoHacker @ComodoHacker

hostovik, Реляционные СУБД как раз оптимизированы для случая, когда все данные не вмещаются в ОЗУ. Именно так они работали всегда, за исключением последних 10 лет. А вот среди NoSQL таких — единицы.

Попробуйте SQLite, если не устроит, MySQL. Но я уверен, что SQLite справится.

Написано более трёх лет назад

10 комментариев

hostovik @hostovik Автор вопроса

"эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл
В чём конкретно минус-то? "
- думаю в требованиях к памяти может быть проблема. фиг знает может postgre летает на таких данных, но только например с величины RAM от 100 ГБ.

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

hostovik, у меня в одном из проектов PostgreSQL на стандартных настройках резво обрабатывал запросы к таблице с 23 миллиардами записей, а стандартные настройки выставлены для очень хилого железа.

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Сергей Горностаев, обалдеть. спасибо, удивительная информация.

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Сергей Горностаев, а индексы к такой таблице изначально как долго создавались?

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

hostovik, точно не скажу, но да, это могло бы быть проблемой, если бы у вас и частые записи в таблицу были бы.

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Сергей Горностаев, а на диске ваша база сколько примерно места занимала?

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev

hostovik, 37 гигов, если мне память не изменяет. Но в ней было ещё много чего, кроме этой длиной таблицы.

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

Сергей Горностаев, странно малый размер 37 ГБ. Ведь если у вас 23 млрд рядов, в каждом 1 байт (!) всего это уже 23 ГБ

Написано более трёх лет назад
15432 @15432

hostovik, может дедупликация, сжатие

Написано более трёх лет назад
d'Ivan @2ord

15432, может, 370 ГБ.

Написано более трёх лет назад

6 комментариев

hostovik @hostovik Автор вопроса

оч интересно. мне как раз для подобных дел. в google bigquery есть такая штука как "партицирование и кластеринг". я это к тому, что набор пар "индекс-значение" в мою RAM не влезет даже для очень короткого значения(. postgre тоже умеет делать партиции

жаль , но похоже leveldb не умеет делать партиции - https://db-engines.com/en/system/LevelDB

Написано более трёх лет назад
WinPooh32 @WinPooh32

hostovik, вы в вопросе не описали что вы хотите получить :)
Например, с какой частотой запросы будут и т.д.

жаль , но похоже leveldb не умеет делать партиции

Так и не должен, это же встраиваямая бд. Потому что разбиение на части используется в системах с несколькими узлами.

Вы можете сами шардировать данные, используя хеширование, это достаточно просто реализуется.

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

речь про аналитику. то есть сидит один пользвователь и делает ручные запросы к базе, опрос еще и осмыслить надо и обычно сделать визуализацию. то есть запросы думаю ну не чаще чем раз в 10 минут "Например, с какой частотой запросы будут и т.д."

Написано более трёх лет назад
WinPooh32 @WinPooh32

hostovik, а разбиение для чего вам?

Написано более трёх лет назад
hostovik @hostovik Автор вопроса

WinPooh32, разбиение для чего? хм. я думал что индексы работают быстро если в память влезают полностью. если 2 млрд записей "ключ-значение" хотя бы по 100 байт длиной это 200 гбайт, у меня такой памяти нет,

Написано более трёх лет назад
WinPooh32 @WinPooh32

hostovik, leveldb построен на lsm-tree, поэтому там нет понятия "индекс".

Архитектура LSM-дерева позволяет удовлетворить запрос на чтение либо из оперативной памяти, либо за одно обращение к устройствам постоянного хранения. Запись тоже всегда быстра независимо от размеров хранилища.

Написано более трёх лет назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 181 просмотр
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 302 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 432 просмотра
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 203 просмотра
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 92 просмотра
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4855 просмотров
8

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 406 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 214 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 150 просмотров
1

ответ
Показать ещё Загружается…

Art Director (TV, Youtube, Реклама)

SDL • Москва

от 190 000 ₽

Системный аналитик (Мои Сервисы)

Сбер • Москва

от 300 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

У MongoDB оверкилла будет ещё больше, чем у PostgreSQL.

Answer 1 · 2020-09-24 17:04:08

apache parquet

колоночный тип в бинарном формате, решение для экономичного хранения данных в частности csv таблицы.
Компрессия 1тб csv исходных порядка 80-85% = ~120гб в parquet
Скорость чтения ~ х34 раза быстрее чем raw csv файл
Благодаря колоночному типу возможно делать выборки без чтения полностью файла
0*2hvPbX_y6u5389E3

но это решение под хранение / чтения данных, на счет тонкостей работы с данным форматом данных смотрите документацию, тонкостей много, возможно категорически буду противоречить поставленной задаче.

Answer 2 · 2020-09-14 09:08:33

Во что мне конвертировать csv файл, чтобы максимально быстро получать доступ к строке по индексу?

В SQL-таблицу.
MySQL к вашим услугам. SQLite тоже подойдёт.

Answer 3 · 2020-09-14 09:15:31

эта БД поддерживает многопользовательскую запись, репликации- всё это мне не нужно, оверкилл

В чём конкретно минус-то? Не нужно — не пользуйтесь.

Г) файлы с индексами - обработка python-ом
Я думаю что вариант Г) - оптимальный.

На каждое изменение требований потом придётся всё переделывать. Учитывая объёмы данных, лучше сразу взять что-то относительно гибкое.

Answer 4 · 2020-09-14 09:41:53

Встраиваемое kv-хранилище от гугла - leveldb вам в помощь. Обертки есть почти под каждый популярный ЯП.

leveldb используется для хранения транзакций в клиенте биткоиана, а там уже, на минуточку, объем БД перевалил за 200 гигов.

Только учитывайте, что магии не будет, когда БД в RAM не вмещается, и боттлнек будет на дисковой подсистеме. Сильное ускорение будет давать быстрый ssd, особенно который nvme через pci.
Поэтому на частые запросы обмазываемся кэшами и, возможно, радуемся.

Т.к. это встраиваемое хранилище, то всю сетевую обвязку придется реализовывать самому.

Answer 5 · 2020-09-14 10:30:35

Viktor T2 @Viktor_T2

python developer

Lightning Memory-Mapped Database (LMDB)
Tokyo Cabinet

Ответ написан более трёх лет назад

Комментировать

Answer 6 · 2020-09-14 10:50:35

Владимир Коротенко @firedragon

Не джун-мидл-сеньор, а трус-балбес-бывалый.

https://www.quora.com/What-tools-are-data-scientis... Посмотрите на ответы в этом топике, похоже это ваши задачи

Ответ написан более трёх лет назад

Комментировать

Answer 7 · 2020-09-14 12:17:24

Будет именно чтение одним пользователем, никаких записей в файл.

Примерно для такого D. J. Bernstein придумал ConstantDataBase (CDB) Вот современная реализация на Python https://github.com/bbayles/python-pure-cdb (есть на PyPI)

Во что конвертировать огромный, сотни ГБ, CSV-файл для максимально быстрого чтения по «ключу»?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт