Всем доброго дня.
Возникла необходимость в создании визуализации семантической близости слов по технологии w2v в рамках нескольких сотен документов, каждый из которых включает в себе различные тематики и фильтры.
И, соответственно, визуализируем, например, облако слов только для определенного географического региона людей определенного возраста.
Самый простой вариант, который я вижу - сформировать обучающие выборки для всех возможных комбинаций, чтобы научить модель "говорить" на языке каждого из возможных вариантов. Единственная проблема здесь в том, что конечное количество вариантов от 230к до 937кк, что в принципе очень грустно.
Я в технологиях подобных обработки текста на вопрос поиска семантических связей и визуализации не погружен.. поэтому буду благодарен за любое направление, в которое стоит копать.
Сейчас для визуализации использую:
https://projector.tensorflow.org/
Саму технологию w2v реализую в
gensim Python