Текст произвольной длины, по-видимому, разбиваете на фрагменты и делаете статистический анализ.
Что касается машинного обучения, то выделяются характерные черты (features), которые запоминаются (создаётся словарь). Этот метод применяется для распознавания изображений.
А вот
пример, как обрабатываются сигналы акселерометра смартфона, чтобы узнать положение человека (стоит, лежит, идёт, идёт по ступенькам вверх или вниз). Сигнал разбивается на фрагменты (буферы), далее идёт спектральный анализ, особенности спектра запоминаются (обучается нейронная сеть).