Как грамотно провести анализ выборки временных рядов/спектральных данных?
Добрый день!
Имеется: 2 выборки данных (временные ряды), по которым позже строятся спектрограммы. Первая - "ДО", далее идет эксперимент, получаем вторую выборку "ПОСЛЕ". Т.е. один элемент выборки - не число или конкретное значение, а последовательность значений (и довольно большая). Объем выборок - 30-40 элементов (одинаковый ДО и ПОСЛЕ).
Задача: найти адекватный метод для статистической оценки выборки. Основная гипотеза: есть ли различия ДО и ПОСЛЕ, если да - хотелось бы как-то охарактеризовать их.
Ясно, что тут нужен тест для зависимых выборок. Если бы сравнивались наборы единичных значений ДО и ПОСЛЕ - вопроса бы не было. Так же кажется, что сравнение 30-40 длинных последовательностей "в лоб" или очень сложно, или малоэффективно, потому надо сравнивать какую-то "сжатую информацию" из этих рядов. Но что именно сравнивать? Вижу 2 варианта:
1. Выделение в исходных файлах "ключевых метрик" для сравнения (например, частоты и амплитуды первых 3 (5?, 10?) максимальных пиков, показатели вариации, какие-то производные от всей последовательности характеристики и т.д.). Если да - какие выбирать метрики? Далее вижу это как набор 5-10 метрик, с которым можно работать, например, методом анализа главных компонент (PCA) а также станлартными тестами.
2. То же самое, но уже для спектров исходных файлов. Тут, я бы обратил внимание также на частоты и амплитуды первых 3 (5?, 10?) максимумов. Но может есть что-то луше (что-то еще)?
При необходимости опишу подробные характеристики исходных последовательностей.
Если есть подходящее или близкое решение на Python (библиотека какая специальная) - буду благодарен!