Как подготовить MySQL 8.0 с датасетом из 5 млн. фото (2 ТБ) и текстово-числовой информации (50 ГБ) для максимальной производительности на чтение?

Question

Иван Мельников @immelnikoff

Изучаю БД

MySQL

Как подготовить MySQL 8.0 с датасетом из 5 млн. фото (2 ТБ) и текстово-числовой информации (50 ГБ) для максимальной производительности на чтение?

Нужно добиться максимальной производительности.
Как я понимаю, исходить нужно из того, что БД будет работать только на чтение. Запись в БД не предвидится!
Какой движок лучше выбрать: InnoDB, MyISAM или ещё какой-то?
Стоит ли удалить все уникальные индексы, или может быть заменить их обычными индексами?
Стоит ли удалить все внешние ключи? Ведь запись не предвидится и нарушение целостности данных не произойдет.
Может что-то ещё?

Что уже сделал:
1) Удалил из БД всю инфу, не участвующую в обучении.
2) Во всех текстовых полях всех таблиц изменил кодировку (CHARACTER SET) с utf8mb4 на cp1251. Оказалось, что все хранимые символы в БД умещаются в пространство cp1251.
3) Для всех целочисленных полей установил минимально достаточный целочисленный тип данных.
4) Все таблицы (кроме таблицы с бинарными данными фото) сделал static: все записи каждой таблицы имеют одинаковый размер в байтах. Для этого пришлось везде изменить тип VARCHAR на CHAR (а кодировка cp1251 в свою очередь гарантирует, что поле типа CHAR для всех записей имеет одинаковый размер в байтах). Благо из-за этого съелось
совсем немного дополнительного места на SSD.
5) Заменил, где это возможно, внешние ключи на ENUM. Насколько это целесообразно для порядка 50 000 значений в ENUM?

Вопрос задан более трёх лет назад
266 просмотров

3 комментария

Подписаться 2 Сложный 3 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Иван Мельников @immelnikoff Автор вопроса

А сделать-то вы с этими данными что хотите?

Не понял вопрос. Мне нужна максимальная производительность БД и минимизировать нагрузку на ЦП и SSD со стороны БД.

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

Иван Мельников, я пытаюсь намекнуть, что при обучении вы можете упереться не в базу, а в CPU/GPU. Оптимизировать нужно то, что является бутылочным горлышком всего процесса. С какой скоростью ваш CPU/GPU кластер способен обрабатывать данные из этой базы?

Написано более трёх лет назад
Иван Мельников @immelnikoff Автор вопроса

Я понимаю, что обучение упрется скорее всего в GPU. Но меня сейчас интересует оптимизация только БД, находящейся на SSD. Можно считать, что это чисто теоретический интерес.

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

Иван Мельников, с этим я вам помочь не смогу, но предлагаю тогда убрать тег "Нейронные сети" из вопроса, поскольку он не имеет к ним отношения.

Написано более трёх лет назад
Виталий @vshvydky

может быть постановка вопроса в корне неверная? если бд как статика, есть ли от нее профит? рассматривали ли другие бд, которые заточены именно под подобного рода кейсы? если выборок не предвидится, может рассмотреть какие-то бд аля ключ значение , скорость и нагрузку можно достаточно быстро протестировать же

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Какое отставание MySQL Slave от MySQL master считать проблемным?
- 1 подписчик
- 12 часов назад
- 105 просмотров
2

ответа
MySQL

Простой
MYSQL --skip-grant-tables?
- 1 подписчик
- 04 июл.
- 90 просмотров
1

ответ
JavaScript

+2 ещё

Простой
Как использовать js плагин mysql в сборке gulp?
- 1 подписчик
- 20 июн.
- 166 просмотров
1

ответ
MySQL

+1 ещё

Средний
MySQL/MariaDB. 10 vs 11 version. Индексы. Странное поведение?
- 5 подписчиков
- 01 июн.
- 3873 просмотра
0

ответов
MySQL

Простой
Возможно ли сделать такие запросы-замены в таблице?
- 1 подписчик
- 26 мая
- 169 просмотров
1

ответ
MySQL

Простой
MySQL как получить ID родительского поля у которого в разных строках есть значение?
- 1 подписчик
- 24 мая
- 107 просмотров
0

ответов
MySQL

+1 ещё

Простой
Как предотвратить поломку базы данных XAMPP?
- 1 подписчик
- 11 мая
- 160 просмотров
0

ответов
MySQL

Простой
Какую кодировку выбрать для немецкого языка?
- 1 подписчик
- 07 мая
- 250 просмотров
4

ответа
MySQL

+1 ещё

Простой
Как описать такой запрос к mysql на sequelize?
- 1 подписчик
- 04 мая
- 116 просмотров
1

ответ
MySQL

Простой
Как создать в таблице новое значение аттрибута и установить для него value?
- 1 подписчик
- 02 мая
- 80 просмотров
1

ответ
Показать ещё Загружается…

DBA MySQL

Marfatech

Database Administrator (MySQL / ClickHouse)

СмартУм • Лимассол

PHP Developer

Marfatech

Иван Мельников, но зачем?????????????????????????????????????

Answer 1 · 2018-11-02 10:57:56

Для обучения нейросети mysql совершенно не подходит, абсолютно бесполезно и создаст дополнительные накладные расходы.
Храните все в файлах, практически все библиотеки работы с нейронными сетями предоставляют свои форматы для хранения обучающей выборки, используйте их в т.ч. Понятно не удаляйте оригинальные изображения.

На входы/выходы нейронной сети подаются числа,.. в некоторых библиотеках есть готовые инструменты по работе с битмапом, но это просто методы, приводящие изображение к нормализованному массиву чисел

Вам может понадобиться хранить сами нейронные сети (в процессе обучения их может быть много) и значения функций ошибки для обучающих данных для каждой сети, в данном случае наверное можно было бы организовать такое хранение в базе, но не изображения, а ссылки на них.

Answer 2 · 2018-11-02 08:37:45

А сделать-то вы с этими данными что хотите? Вполне вероятно, что в базу вы и до всех ваших оптимизаций не упёрлись бы.

Как подготовить MySQL 8.0 с датасетом из 5 млн. фото (2 ТБ) и текстово-числовой информации (50 ГБ) для максимальной производительности на чтение?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт