Какой самый оптимальный / надежный вариант для хранения данных?

Question

Mouvdy @Mouvdy

Какой самый оптимальный / надежный вариант для хранения данных?

Приветствую,

В поисках оптимального / безопасного / быстрого способа хранения данных.

Работаю с bash скриптом, который после обработки должен куда-то записывать "домен сайта" и потом сверять ли он уже обрабатывался.

На данный момент уже около 1,5 млн доменов накопилось (домен вида: yandex.ru, google.com, toster.ru и т.д).

Не думал, что будет такой объем данных по этому сразу не подумал о масштабируемости.

Учитывая, что это только "для меня" я реализовал глуповато и на скорую руку - у меня в папке sites/ создаются папки с именами доменов и потом просто поиск идет ли директория существует :) Все работает довольно шустро.

Пример кода:

if [ -d "$systemdir/$downloadfolder" ]
        then
        echo "nothing to do" # папка существует
        else
        mkdir -p $systemdir/$downloadfolder
    fi

Но столкнулся с переездом сервера и необходимостью быстро разворачивать свою рабочую систему - теперь директорий слишком много и при переносе данных на другой сервер все сложно, даже если я просто делаю ls sites > list.sh и потом дописываю к каждой строке создание директории и выполняю как скрипт.

И вот я задумался об изменении принципа работы.

1. Можно все хранить в текстовом файле и делать запись / поиск по нему - файл порядка 130 мб - вроде бы работает быстро.
2. Можно хранить в mysql и с bash скрипта делать нужные мне запросы в базу

Но и в том и другом случае возникает проблема: в пики у меня будет около 800-1300 запросов в секунду на запись/поиск файла. Боюсь что может не корректно записаться информация в текстовом файле, а mysql при высоких нагрузках на сервер и большом кол-во запросов - попросту ляжет (LA > 700).

Как лучше все сделать ? Какие другие возможные варианты?

Или быть может остаться на моей "файловой структуре" хранения данных так как по мне это самый безопасный / производительный способ (конечно же имеется ввиду под мои текущие задачи) и не обращать внимание на время развертывания системы с бекапов?

Вопрос задан более трёх лет назад
720 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

Старт в DevOps: системное администрирование для начинающих

4 месяца

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

7 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

3 комментария

Mouvdy @Mouvdy Автор вопроса

Да, но тогда redis это уже "лишняя" сложность в развертывании системы и файлы всеравно нужно будет разворачивать по моему текущему способу
(создание 1,5 млн директорий занимает порядка 20 часов)

и мой текущий способ хранения не особо упирается в производительность. Я больше в поисках лучшего и самого простого способа для работы/разворачивания с бекапов

Написано более трёх лет назад
Walt Disney @ruFelix

Mouvdy: редиска легче(меньше, проще, быстрее, понятнее) mysql
хеш таблицы для вас идеальный вариант, они дают время/сложность операций не зависящие от объёма базы. Редиска - это самый популярный вариант хеш таблиц, у вас всё будет быстро и развертывание и работа и бэкапы. Можно конечно взять mysql сделать табличку с хеш индексом, но это странное решение.

Я не очень понял, у вас ещё файлы в этих папках лежат?

Написано более трёх лет назад
Mouvdy @Mouvdy Автор вопроса

у меня только папки, в них пусто.

Спасибо, буду рассматривать ваш вариант

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 15 часов назад
- 100 просмотров
2

ответа
Linux

+2 ещё

Простой
Какие подходящие характеристики для VPN?
- 1 подписчик
- вчера
- 343 просмотра
2

ответа
Linux

Сложный
Как вылечить инфокиоск?
- 1 подписчик
- 19 нояб.
- 359 просмотров
1

ответ
Linux

+1 ещё

Простой
Какие есть простенькие скрипты «HTTP over Email», чтоб поставить у себя на серваке?
- 1 подписчик
- 14 нояб.
- 376 просмотров
1

ответ
Linux

+3 ещё

Простой
Fedora 6 как починить загрузчик grub?
- 2 подписчика
- 13 нояб.
- 224 просмотра
1

ответ
Linux

+1 ещё

Средний
Как получить publicKey используя xray x25519?
- 2 подписчика
- 10 нояб.
- 368 просмотров
0

ответов
Linux

+1 ещё

Простой
Как установить «Госплагин» в Яндекс-браузер на Debian 12?
- 1 подписчик
- 10 нояб.
- 593 просмотра
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 207 просмотров
1

ответ
Хранение данных

Простой
Сервер (хранит) для хранения файлов и получение по ссылке?
- 1 подписчик
- 07 нояб.
- 231 просмотр
4

ответа
Linux

+4 ещё

Простой
Не видно курсор в KDE, что делать?
- 1 подписчик
- 07 нояб.
- 205 просмотров
1

ответ
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Answer 1 · 2016-08-31 01:46:12

Взять redis и настроить синхронизацию с диском в зависимости от паранойи и производительности вашего сервера.

Дело в том, что хеш таблицы это идеальная структура данных для вашей задачи.

Answer 2 · 2016-08-31 06:06:02

И вот я задумался об изменении принципа работы.

1. Можно все хранить в текстовом файле и делать запись / поиск по нему - файл порядка 130 мб - вроде бы работает быстро.

наверное стоит почитать принцип поиска по текстовому файлу. ты офигеешь и больше такие мысли не будут посещать светлую голову.

Answer 3 · 2016-09-03 11:22:35

Директории нафиг не нужны, ибо лишь только лишняя нагрузка на файловую систему при поиске существующей.
Вместо этого воспользоваться Redis с её SADD, SISMEMBER.

Answer 4 · 2016-08-31 04:05:41

Я больше в поисках лучшего и самого простого способа для работы/разворачивания с бекапов.

Попробуйте Tarantool.
— "персистентность": лог транзакций (.xlog) и полные снимки БД (.snap);
— простой перенос с сервера на сервер (достаточно скопировать все файлы командой scp);
— простая система горячего бэкапа и подключения реплики;
— быстрее чем Redis :)

Answer 5 · 2016-08-31 15:05:47

Артемий @MetaAbstract

Архитектор информационных систем и баз данных. Ful

Berkeley_DB возьмите она и быстрая и надежная и объемы легко тянет и функционал мощный.

Ответ написан более трёх лет назад

Комментировать

Какой самый оптимальный / надежный вариант для хранения данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт