Есть как логически-самостоятельные сущности, так и сущности, реализующие связь между несколькими другими.
Про эти сущности есть набор текстовых файлов (csv и xml), описывающих состояния разных сущностей "в моменте", то есть на момент генерации текстовых файлов с осписанием. Типов сущностей десятки, самих сущностей десятки миллионов каждого типа, исторических состояний (то есть файлов со слепком тех или иных сущностей) - пара тысяч весом в 200Гб.
Хочется подсунуть все файлы в какое-то одно место, чтобы поизучать общую картину на предмет количества и качества связей между сущностями, как они меняются от слепка к слепку и проч.
Самый простой способ - запихать все в SQL, но покуда про сущность с одним id могут быть десятки состояний непонятно насколько запросы будут долго крутиться без адекватных индексов, которые непонятно как строить.
С инструментами для анализа данных никогда не сталкивался, идей нет. :)