Что можно использовать для хранения данных на компьютере с быстрым доступом?

Question

up7 @up7

Хранение данных

Что можно использовать для хранения данных на компьютере с быстрым доступом?

Необходимо организовать хранение и поиск больших объемов данных на компьютере. Выбрал sqlite, но она очень медленно работает.

По сути данные - это набор строк. Ставить СУБД типа MySQL стоит? Там будут сотни миллионов строк.

Уточню. База будет из недлинных строк, потом будет пополняться ими. Пополнение только уникальными, не дубликатами.

В общем, даже пых с мускулем разочаровали( мне нужно было максимально быстрое слияние с уборкой дублей.

Победителями оказались обычные текстовые файлы и хэштаблицы (для отсева дублей).

Вопрос задан более трёх лет назад
121 просмотр

9 комментариев

Подписаться 2 Средний 9 комментариев

Иван Шумов @inoise

Зависит от того что и как искать.

Написано более трёх лет назад
up7 @up7 Автор вопроса

Иван Шумов, строки. Недлинные. Необходимо пополнять будет базу, но не дубликатами. На вход файлы с сотнями тысяч строк. В итоге чтобы в базе были только уникальные.

Написано более трёх лет назад
Иван Шумов @inoise

up7, ни разу не сузили круг

Написано более трёх лет назад
up7 @up7 Автор вопроса

Иван Шумов, предположим, есть список слов. Далее заливаем еще сотню тысяч слов, база/система должна шустро отсеять дубликаты (то есть по слову) и занести только уникальные.

Написано более трёх лет назад
Иван Шумов @inoise

up7, это умеет делать вообще любая база на сегодня. С sqlite проблема в том что это не база, а, по факту, файл, который полностью перезаписывается

Написано более трёх лет назад
d'Ivan @2ord

up7, покажи свои медленные запросы и также схему БД с индексами.

Написано более трёх лет назад
up7 @up7 Автор вопроса

Роман Мирр, да там просто инсерты и одна таблица. Банально быстродействия не хватает.

Написано более трёх лет назад
xmoonlight @xmoonlight

up7, а вставку одной строки - делаете одним запросом?

Написано более трёх лет назад
d'Ivan @2ord

up7, пароли или хэши паролей?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

REBRAIN

Ceph

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 199 просмотров
6

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 152 просмотра
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 284 просмотра
3

ответа
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 342 просмотра
5

ответов
Хранение данных

Простой
Как открыть образ диска VHD?
- 1 подписчик
- 29 апр.
- 156 просмотров
1

ответ
Резервное копирование

+1 ещё

Простой
Как лучше подключать СХД к Proxmox Backup?
- 3 подписчика
- 22 апр.
- 370 просмотров
2

ответа
Компьютеры

+2 ещё

Простой
Что делать если не очищается место на диске C ssd?
- 1 подписчик
- 19 апр.
- 356 просмотров
3

ответа
Сетевое оборудование

+2 ещё

Простой
Как настроить дедупликацию btrfs в Asustor (AS6804T)?
- 1 подписчик
- 17 февр.
- 141 просмотр
1

ответ
Хранение данных

Средний
StorWize V7000 — Alert: 1630 — run FIX?
- 1 подписчик
- 16 февр.
- 92 просмотра
0

ответов
Хранение данных

+1 ещё

Простой
Как создавать временные файлы в S3?
- 1 подписчик
- 12 янв.
- 201 просмотр
2

ответа
Показать ещё Загружается…

Иван Шумов, строки. Недлинные. Необходимо пополнять будет базу, но не дубликатами. На вход файлы с сотнями тысяч строк. В итоге чтобы в базе были только уникальные.
Иван Шумов, предположим, есть список слов. Далее заливаем еще сотню тысяч слов, база/система должна шустро отсеять дубликаты (то есть по слову) и занести только уникальные.
up7, это умеет делать вообще любая база на сегодня. С sqlite проблема в том что это не база, а, по факту, файл, который полностью перезаписывается
up7, покажи свои медленные запросы и также схему БД с индексами.
Роман Мирр, да там просто инсерты и одна таблица. Банально быстродействия не хватает.
up7, а вставку одной строки - делаете одним запросом?

Answer 1 · 2019-12-09 18:48:22

SQLite - это одна из быстрых DBMS. Если у тебя что-то медленно работает то наверное ты так написал запрос. Или такой набор индексов построил. Или тебе реально не хватает возможностей SQLite. Насколько я помню там некоторые опции не поддерживались типа CONNECT BY PRIOR и возможно оконные и аналитические функции тоже. Вобщем не стоит сразу ругать инструмент если ты точно не разобрался чего тебе именно не хватает. Ато перейдешь на OracleXE а там еще медленнее будет.

Answer 2 · 2019-12-09 21:16:00

На файлах - можно, но нужно знать, как правильно работать с конкурентными/параллельными потоками чтения и записи через файловый дескриптор.
(думаю, что тут можно разобраться)
Далее - про логику работы самой базы.

Алгоритм для файловой БД:
Отсортируйте список перед добавлением так, чтобы самые короткие уникальные сочетания символов - были в самом верху, а длиннее - чуть ниже.

В самом низу списка - максимально повторяющиеся сочетания по одному символу, затем 2-м и т.д., и в конце - по подряд идущим сочетаниям повторяющихся символов.

Создайте биграммные-триграммные кластеры на повторных сочетаниях.

При проверке на дубликат - спускаетесь вглубь по кластерному "дереву" (это и есть индексная карта ваших данных), используя файловое смещение узлов "дерева" (от узла к узлу) и получаете мгновенно вердикт: есть/нет проверяемое сочетание символов (например, уникальное слово или хеш-строка) в базе.

Что можно использовать для хранения данных на компьютере с быстрым доступом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт