verdex:
1. Имеются ли цифры скорости До и После? Чем замерены?
2. Каковы сетевые настройки подключения интернет? Т.е. адреса DNS? Покажи вывод команд "ifconfig" и "lspci" в консоли?
Turtle_Onni: А можно ли дополнить список какие трансформации над текстом приводят к дубликатам?
1. увеличение количества пробелов между словами.
2. перемена мест любых слов
3. использование разделителей (каких? где относительно слов?)
4. замена заглавных/строчных букв в словах
Ещё, может быть, каталоговый номер ("KDJF39484") стоит отделить в отдельное поле.
freeeeez: попробуй разобраться с о структурой таблиц EAV, описанной в статье из моего ответа.
Суть состоит в том, чтобы атрибуты данных росли не вширь (в колонки), а вниз.
vampire333: вопрос не в том каким образом физически будут храниться данные (raid ведь файлы не упорядочивает). Десяток сканов - пустяки. В чём тогда проблема с папками? Откуда их тогда так много?
Что составляет бОльшую часть файлов? Офисные доки, сканы или что-то другое?
Каким образом сегодня происходит поиск по данным? Открывается некоторый файл и в нём поиск? Или есть какое-то централизованное средство поиска по всей иерархии папок, с учётом типа документа?
Может вам какая-то система документооборота нужна?
Александр +: архитектурные проблемы нужно решать, а не откладывать на потом.
Насколько я понял, при работе с MariaDB ColumnStore ничего не меняется с точки зрения подключения к СУБД: остаётся та же строка подключения, тот же драйвер, что и к MySQL. Во всяком случае, имеет смысл проверить этот вариант.
(комментарий полезен и для freeeeez ).
Задача описана неполно. Неясны цели. Тем не менее, задача о подключении RoR к двум БД должна нагугливаться без проблем.
Рекомендую обновить вопрос, добавив метки "хранение данных", "Базы данных".
1. Имеются ли цифры скорости До и После? Чем замерены?
2. Каковы сетевые настройки подключения интернет? Т.е. адреса DNS? Покажи вывод команд "ifconfig" и "lspci" в консоли?