Как обучить сверточную НС для векторизации текста?

Я хочу использовать CNN для получения векторного представления текста. Т.е. вначале каждое слово преобразуется в вектор (например, с помощью word2vec). А затем нужно пропустить такой текст через сверточную сеть, чтобы получить векторное представление всего текста. Так вот, не понятно, как такую сеть обучать. Если допустим для классификации текстов или анализа тональности, понятно что сеть дает ответ, который мы сравниваем с имеющимся у нас и т.д., а как обучать сеть когда выхода как такового нет?
  • Вопрос задан
  • 1166 просмотров
Пригласить эксперта
Ответы на вопрос 3
gobananas
@gobananas
finishhim.ru
Я бы пошёл дальше и спросил для чего нам векторизация текста. Вы указали, например анализ тональности. Но анализ тональности можно проводить разными методами см. анализ тональности И метод с векторами кажется мне здесь не самым удобным, ведь на выходе скорее всего получится много отдельных графив-деревьев, т.е. лес, а значит будем иметь дело с несвязанными графами.
Для этой задачи проще применить словари тогда уж.

Далее почему графы, а например не... битраммно-триграммный анализ? Биграммы может и не дадут нужной точности, а вот количество триграмм хоть и достаточно велико, но конечно, а главное, существенно меньше количества возможных слов (подробнее aztips.blogspot.ru/2009/04/blog-post_12.html) Составили список триграмм в негативных текстах, в позитивных и в нейтральных, всё анализируете и классифицируете. Если точность не удовлетворяет, тогда применяете пару методов.
Ответ написан
@Vlad_Fedorenko
Вот нужно вам понизить размерность входных данных. Почему CNN? Почему не PCA, t-SNE, автоэнкодеры?
Понижать размерность ради понижения размерности - сомнительная затея, вы ведь наверняка это используете для подготовки данных к решению какой-то задачи. Вот по качеству решения этой задачи и подбирайте параметры сетки
Ответ написан
@ivodopyanov
NLP, python, numpy, tensorflow
Сам интересуюсь сейчас этой проблемой - алгоритмы doc2vec. Мне вообще кажется, что эта задача должна решаться за счет использования seq2seq как собственно автокодировщика - подаем на вход и выход одни и те же данные, заставляем сеть перегонять фразу в вектор и обратно в фразу и получаем внутри некоторое векторное представление, с которым можно работать. Например, подавать в seq2seq следующего уровня.
Вообще за последний год вышло несколько интересных статей про Hierarchical RNN. Еще интересный вопрос - это использование char-based RNN или CNN для word embedding. В таком случае должна отпадать проблема с OOV-словами, плюс обрабатываться различные орфографические ошибки.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы