Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Question

drlafa @drlafa

Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Допустим есть последовательность текста для входа на нейронную сеть X_train: ["Привет", "как", "дела", "?"]
И ответ на эту последовательность Y_train: ["Всё", "отлично"]

Как правильно подготовить эти данные, токенизировать, привести в матричный режим, что бы можно было скормить нейронной сети при обучении?
model.fit(X_train, Y_train)

Вопрос задан более трёх лет назад
1787 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 1

3 комментария

drlafa @drlafa Автор вопроса

Архитектура сети: LSTM Encoder-Decoder
Тип текста:
Обучающая выборка X_train: ["Привет как дела?", "Ещё одна последовательность текста", "И т.д."]
Ответ на обучающую выборку Y_train: ["Дела у меня хорошо", "Ответ на последовательность", "И т.д."]

Написано более трёх лет назад
xdgadd @xdgadd

drlafa: т.е, вы делаете чат бота. У меня с чат-ботами опыта ноль, но в теории это похоже на генератор текста, только сидом является реплика.

Для начала можете погуглить LSTM text generator и LSTM based chat bots.
Про обработку текста чуть-чуть есть здесь. Откройте этот контест на кэгле, там в дискуссиях есть несколько тетрадок с готовым кодом.

Написано более трёх лет назад
drlafa @drlafa Автор вопроса

xdgadd: спасибо, буду гуглить

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Как сделать на vps сервер чтобы определённое приложение шло через мост Тор obfs4?
- 1 подписчик
- 3 часа назад
- 40 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- вчера
- 97 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- вчера
- 105 просмотров
1

ответ
Python

Простой
Что можно ускорить в коде решателя игры крестики нолики?
- 1 подписчик
- вчера
- 157 просмотров
0

ответов
Python

Простой
Как подключиться по SMTP к Reg ru?
- 1 подписчик
- вчера
- 131 просмотр
0

ответов
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 43 просмотра
1

ответ
Python

+1 ещё

Простой
Как настроить группы при создании нового пользователя в битриксе?
- 1 подписчик
- 14 авг.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
При добавления строчки @commands.has_permissions в терминале при запуске выдает ошибку?
- 1 подписчик
- 14 авг.
- 90 просмотров
0

ответов
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 130 просмотров
0

ответов
Python

Простой
Не работает код, что делать?
- 2 подписчика
- 10 авг.
- 2132 просмотра
4

ответа
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python-разработчик (Senior)

BCraft

от 3 500 до 4 500 $

Answer 1 · 2017-08-02 03:57:32

Гуглите NLP, text preprocessing и word embeddings. Способов много и зависят они от архитектуры модели, вашей задачи, типа и качества текста.
Алсо, в керасе есть embedding layers, через них можно пропускать уже готовые вектора, e.g. word2vec, OHE.

P.S. Для большей гибкости рекомендую вам попробовать Lasagne или Tensorflow. Keras хорош, когда задачу нужно решить быстро, с минимумом кода и теории. А для экспериментов и обучения лучше использовать более близкие к "железу"(менее абстрактные) инструменты.

Answer 2 · 2017-08-02 03:21:37

1. токенизировать - возможно, nltk.tokenize ?
2. далее, вероятно, стоит удалить стоп-слова. Например, полученные от nltk.stopwords
3. (вероятно, будет толк от стемминга - например, nltk.stem)
4. далее - например, заменить слова/корни (после стеминга) каким-либо embedding-м (который поставит в соответствие каждому слову вектор) - например, word2vec. Ну или использовать собственный embedding. Например (но это явно затратный в плане памяти путь):
4.1. создать словарь, содержащий все слова обучающей выборки
4.2. поставить в соответствие каждому слову его номер. Тогда текст будет представлен одномерным массивом чисел
4.3. подменить каждое число вектором, где N-й элемент равен 1, остальные - 0. А N - собственно, наше число
4.4. добавить на вход сети embedding слой и обратный на выход

Как подготовить текстовые данные в Keras для обучения Encoder-Decoder LSTM сети (sequence-to-sequence)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт