@SkyNezu

Какую БД выбрать для обработки 300 млн строк?

Добрый день.
Имеется: несколько текстовых файлов, размером от 5.5 млн. строк до 150 млн. строк. Общее количество около 300-350 млн. строк. Файлы обновляются каждый день. Каждая строка содержит:
1. Строковые данные, не длиннее 128 символов.
2. Дата.
3. Дата.
4. Комментарий. Длина не известна.

Задача: ежедневно загружать эти файлы в БД. Новую версию загруженных данных сравнивать с предыдущей, помечать новые строки. Ежедневно по новым строкам организовать поиск ключевых слов/символов/фраз, их около 20 шт. По требованию осуществлять поиск по всему массиву данных по ключевым словам.

Какую БД подобрать для этих целей?
- Бесплатное.
- С быстрым поиском.
- Для администрирования не требующего сильно специфичных знаний. Конечный пользователь не айтишник.
- Возможность быстрого переноса с линукса на винду, с серверной платформы на обычный рабочий ПК и обратно.

Пока предложили: postgresql, firebird, nosql, mysql.
Подскажите пожалуйста, какая БД подойдет больше для описанных задач и почему?

З.Ы. Камнями прошу не кидать. Как поставили задачу, так и описал ее здесь.
  • Вопрос задан
  • 165 просмотров
Пригласить эксперта
Ответы на вопрос 4
saboteur_kiev
@saboteur_kiev
software engineer
nosql в основном для строк в виде "ключ" - "значение", а не четырех значений. Поэтому nosql я бы сразу отложил.

А так - любая подойдет - у вас нет сложной структуры с кучей связей или логики в самой базе.
То есть требуемый функционал достаточно простой, а значит производительность будет больше зависеть от железа, чем от базы - и mysql и mariadb и pgsql будут примерно одинаково работать. Ну разве что поиграться с типом базы и индексами.
Ответ написан
Комментировать
@beduin01
Хватит и MariaDB/MySQL. Можно и PostgreSQL, но его чуть сложнее администрировать и настраивать.
Ответ написан
2ord
@2ord
- Для администрирования не требующего сильно специфичных знаний. Конечный пользователь не айтишник.
- Возможность быстрого переноса с линукса на винду, с серверной платформы на обычный рабочий ПК и обратно.

По-моему, по легкости администрирования SQLite вне конкуренции. В едином файле вся БД.
При наличии индексов все будет быстро.
Ответ написан
Комментировать
@nrgian
300 млн. - это ерунда для современных СУБД.
Брать то, что удобно лично вам.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы