Как обучить сверточную НС для векторизации текста?

Question

Alf162 @Alf162

Как обучить сверточную НС для векторизации текста?

Я хочу использовать CNN для получения векторного представления текста. Т.е. вначале каждое слово преобразуется в вектор (например, с помощью word2vec). А затем нужно пропустить такой текст через сверточную сеть, чтобы получить векторное представление всего текста. Так вот, не понятно, как такую сеть обучать. Если допустим для классификации текстов или анализа тональности, понятно что сеть дает ответ, который мы сравниваем с имеющимся у нас и т.д., а как обучать сеть когда выхода как такового нет?

Вопрос задан более трёх лет назад
1171 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

3 комментария

Alf162 @Alf162 Автор вопроса

Дело не в понижении размерности, с этим справляется word2vec. Нужно сделать результирующий текста. Получать его простым сложением - не самый лучший вариант. Поэтому используют cnn. Только не понятно как именно

Написано более трёх лет назад
Vlad_Fedorenko @Vlad_Fedorenko

https://arxiv.org/abs/1408.5882 не смотрели тут?

Написано более трёх лет назад
Alf162 @Alf162 Автор вопроса

Смотрел. там как раз понятно как обучать, потому что есть обучающая выборка, где каждое предложение ассоциировано со своим классом. А я спрашиваю, что делать, если обучающей выборки как таковой нет?

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 182 просмотра
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 230 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 151 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 125 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 254 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 145 просмотров
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 261 просмотр
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

Answer 1 · 2016-11-16 15:02:16

Я бы пошёл дальше и спросил для чего нам векторизация текста. Вы указали, например анализ тональности. Но анализ тональности можно проводить разными методами см. анализ тональности И метод с векторами кажется мне здесь не самым удобным, ведь на выходе скорее всего получится много отдельных графив-деревьев, т.е. лес, а значит будем иметь дело с несвязанными графами.
Для этой задачи проще применить словари тогда уж.

Далее почему графы, а например не... битраммно-триграммный анализ? Биграммы может и не дадут нужной точности, а вот количество триграмм хоть и достаточно велико, но конечно, а главное, существенно меньше количества возможных слов (подробнее aztips.blogspot.ru/2009/04/blog-post_12.html) Составили список триграмм в негативных текстах, в позитивных и в нейтральных, всё анализируете и классифицируете. Если точность не удовлетворяет, тогда применяете пару методов.

Answer 2 · 2016-11-16 18:28:43

Вот нужно вам понизить размерность входных данных. Почему CNN? Почему не PCA, t-SNE, автоэнкодеры?
Понижать размерность ради понижения размерности - сомнительная затея, вы ведь наверняка это используете для подготовки данных к решению какой-то задачи. Вот по качеству решения этой задачи и подбирайте параметры сетки

Answer 3 · 2016-11-19 10:59:18

Сам интересуюсь сейчас этой проблемой - алгоритмы doc2vec. Мне вообще кажется, что эта задача должна решаться за счет использования seq2seq как собственно автокодировщика - подаем на вход и выход одни и те же данные, заставляем сеть перегонять фразу в вектор и обратно в фразу и получаем внутри некоторое векторное представление, с которым можно работать. Например, подавать в seq2seq следующего уровня.
Вообще за последний год вышло несколько интересных статей про Hierarchical RNN. Еще интересный вопрос - это использование char-based RNN или CNN для word embedding. В таком случае должна отпадать проблема с OOV-словами, плюс обрабатываться различные орфографические ошибки.

Как обучить сверточную НС для векторизации текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт