Касательно обоих пунктов: нужно позаботиться о сохранности передаваемых данных. Если API, то нужно применять дополнительно API для аутентикации с обоих сторон. Если настраивать доступ к удалённой СУБД, то только с безопасным соединением при помощи сертификата SSL.
(адресовано и Никита Кудинов )
verdex:
1. Имеются ли цифры скорости До и После? Чем замерены?
2. Каковы сетевые настройки подключения интернет? Т.е. адреса DNS? Покажи вывод команд "ifconfig" и "lspci" в консоли?
Turtle_Onni: А можно ли дополнить список какие трансформации над текстом приводят к дубликатам?
1. увеличение количества пробелов между словами.
2. перемена мест любых слов
3. использование разделителей (каких? где относительно слов?)
4. замена заглавных/строчных букв в словах
Ещё, может быть, каталоговый номер ("KDJF39484") стоит отделить в отдельное поле.
freeeeez: попробуй разобраться с о структурой таблиц EAV, описанной в статье из моего ответа.
Суть состоит в том, чтобы атрибуты данных росли не вширь (в колонки), а вниз.
vampire333: вопрос не в том каким образом физически будут храниться данные (raid ведь файлы не упорядочивает). Десяток сканов - пустяки. В чём тогда проблема с папками? Откуда их тогда так много?
Что составляет бОльшую часть файлов? Офисные доки, сканы или что-то другое?
Каким образом сегодня происходит поиск по данным? Открывается некоторый файл и в нём поиск? Или есть какое-то централизованное средство поиска по всей иерархии папок, с учётом типа документа?
Может вам какая-то система документооборота нужна?
Разве не лучше иметь 1 точку отказа, чем несколько?
Станислав Катков