LSTM сеть по своей природе сеть предсказательная, т.е. классифицирующая. Для задач кластеризации - мягко говоря малопригодная. Что от нее можно хотеть, не подавая на вход набор обучения без меток - представить сложно. Поэтому на ваш вопрос ответ скорее всего - никак.
Впрочем может кто-то где-то когда-то что-то кластеризовал с помощью LSTM (что очень вряд-ли), и посмотреть на результат было бы крайне интересно.
Так мы даже не знаем, что за задачу вы решаете.
А в как один из вариантов - я выше написал, да вы видно не заметили - Autoencoder.
А вообще, задача кластеризации вполне себе прилично решаются и без неросетей. В той же Scikit-learn с десяток вполне рабочих методов.
У меня не классификация.
Я хочу попробовать научить сеть ввести диалог.
У меня есть датасет из диалогов в виде чисел.
Вопрос в том что должен выводить код и поэтому я выбрал обучение без учителя.
Идея тяжёлая и я не знаю как у меня получится.
Классификация - это не всегда два возможных ответа, иногда это тысячи возможных ответов. А при распознавании лиц (например по фото) - и миллионы.
Обучение диалогу - эти типичная (!) задача классификации.
Сначала вы скармливаете десятки тысяч примеров пар "вопрос"(вход)-"ответ"(метка). Система обучается и строит модель классификатора, по которой потом на неизвестный ранее вопрос дает наиболее подходящий ответ.
Обучения без учителя тут разве что в предварительной кластеризации ответов, да и то не факт, что надо.
В чем "тяжесть" идеи - непонятно. Таких систем есть достаточно реализованных. Советую поискать, почитать, подковаться теоретически, а уж потом приступать к реализации.
dmshar, я просто хотел сказать что я решил использовать LSTM так как его используют когда не знают сколько данных будет на входе. А там юзают Dense.
Что делать?