Как получить вектор из слова на кириллице?

Question

mavar @mavar

Как получить вектор из слова на кириллице?

Очень нужен пример получения вектора одинакового размера для русских слов.
У меня например есть слова городов:

Питер
Нижний новгород
Уфа
Владивосток
и т.д.

Нужно получить нормализованный вектор из каждого слова. Этот вектор я буду подавать на вход нейронной сети.

Если можно, скиньте пример кода на python.

Вопрос задан более трёх лет назад
1018 просмотров

3 комментария

Подписаться 3 Простой 3 комментария

xmoonlight @xmoonlight

А какая конечная задача стоит?
(может другой подход можно тут применить...)

Написано более трёх лет назад
mavar @mavar Автор вопроса
xmoonlight, я ищу кусок кода функции на python примерно такого вида:
word = 'ПИТЕР' def vektorizator(a) vector = algoritm(a) return vektor

Мне нужно обучить нейронную сеть следующему:
на вход я подаю разные города, а на выходе сеть должна обучиться давать три популярных вида отдыха в этом городе.

Вот для входа мне нужно сделать этот вектор всегда одинакового размера и желательно чтобы он был не двоичного вида [1, 0, 0, 1], а вот такого [0.21, 0.87, 0.96, 0.53]
Написано более трёх лет назад
xmoonlight @xmoonlight

mavar, составляете алфавит, затем по каждой букве берёте процентную позицию в алфавите, принимая, что весь алфавит - это 1.0.
26+33 = 59 (eng+рус => суммарный алфавит)
1/59 = 1*0,016949 (первая буква алфавита)
2*0,016949=0,033898 (вторая буква алфавита)
59/59 = 1.0 (последняя буква алфавита)
И записываете их в массив друг за другом в том порядке, в котором они стоят в слове.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

11 комментариев

xmoonlight @xmoonlight

Данил, Какая связь W2V с вопросом от mavar?

Написано более трёх лет назад
mavar @mavar Автор вопроса

Данил, решение интересное, но моих скилов не хватает чтобы запустить ваш пример. Я не справился.

Написано более трёх лет назад
Данил @DanilBaibak
mavar, возможны два подхода к решению:
Скачать предобученную модель (в примере я обучил игрушечную) и получить векторную презентацию для каждого города
Если городов не слишком много использовать one hot encoding
Написано более трёх лет назад
Данил @DanilBaibak

xmoonlight, игрушечный пример - для каждого слова можно получить его векторное представление.

Написано более трёх лет назад
mavar @mavar Автор вопроса
Данил, скажите, а что за параметры передаются в функцию?
model = Word2Vec(words_corpus, size=100, seed=42, window=5, min_count=1, workers=4)

Я хотел бы получить вектор в диапазоне 0 - 1, вернее хочу понять как влияют параметры на формат вывода вектора точнее на диапазоны значений.

One Hot Encoding approach - тоже как вариант решения.

Спасибо огромное за помощь!
Написано более трёх лет назад
Данил @DanilBaibak

Про параметры лучше почитать в документации. Единственное, если Вы скачиваете уже предобученную модель, Вы не можете менять параметры.

Пробуйте ;)

Написано более трёх лет назад
mavar @mavar Автор вопроса

Данил, спасибо за ответ.
Простите за назойливость, но не нашел как получить вектор в диапазоне 0 - 1. Не подскажете как это сделать?

Написано более трёх лет назад
Данил @DanilBaibak

Если нужен вектор именно в диапазоне 0 - 1, тогда использовать One Hot Encoding и не заморачиваться с word2vec.

Написано более трёх лет назад
mavar @mavar Автор вопроса

Данил, word2vec подходит, только хочу избежать отрицательных значений.
Мне нужно получите вектора не двоичного вида [1, 0, 0, 1], а вот такого [0.21, 0.87, 0.96, 0.53]

Написано более трёх лет назад
Данил @DanilBaibak

Хммм, возможно Вам стоит подойти к вопросу под другим углом? Большинство библиотек для нейронных сетей умеют делать word embedding из коробки. Пример /embeddings слоя для Keras. Вот развернутый пример из документации Keras-а.

Написано более трёх лет назад
xmoonlight @xmoonlight

Данил, Ну опять Вас не в ту степь занесло)
Задача - не создания вектора сочетаний слова с другими, а создание вектора для одиночного слова.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

5 комментариев

mavar @mavar Автор вопроса

У меня список городов, тексты я не буду анализировать. И мне нужно для каждого сделать просто нормализованный вектор одинаковой длины, чтобы на него могла реагировать нейронная сеть.

Наверное word embeddings или пар\триплетов интереснее чем токены. Вы можете привести простой пример кода на питоне, на вход подаем слово, на выходе получаем вектор заданной длины?

Написано более трёх лет назад
ivodopyanov @ivodopyanov

А в чем, собственно, сложность?

Написано более трёх лет назад
mavar @mavar Автор вопроса

ivodopyanov, я не могу алгоритм построить преобразования кириллицы в вектора.

Написано более трёх лет назад
ivodopyanov @ivodopyanov

mavar, я же его описал. Что конкретно вам не понятно?

Написано более трёх лет назад
mavar @mavar Автор вопроса
ivodopyanov, я ищу кусок кода функции на python примерно такого вида:
word = 'ПИТЕР' def vektorizator(a) vector = algoritm(a) return vektor
Написано более трёх лет назад

5 комментариев

mavar @mavar Автор вопроса

Длина вектора будет разной. Мне нужен ровный вектор

Написано более трёх лет назад
xmoonlight @xmoonlight

mavar, Просто дополните нулями до максимальной длины вектора (т.е., слово с максимальным количеством букв).

Написано более трёх лет назад
mavar @mavar Автор вопроса

Нули очень плохое решение. Они заблокируют часть нейронов при умножении на 0 и они не несут информации.

Вектор нужен типа такого:
[0.01, 0.6, 0.9, 0.4, 0.9, 0.41, 0.21, 0.33, 0.89]

Всегда значения больше 0 и меньше 1

Написано более трёх лет назад
xmoonlight @xmoonlight

mavar, как это они не несут информации?! Они как раз несут информацию о том, что на позициях в конце слова нет букв.
А всё, что Вы предоставили в качестве примера - это уже ВЫХОДНЫЕ данные НС, которые строятся по входным, которые, как создавать, я Вам и указал.
Входов - 59, выходов - сколько хотите в зависимости от того, какое качество Вам нужно.

Написано более трёх лет назад
Денис Мамаев @expertykt

mavar, почему нельзя отнормировать?
Фактически предлагается использовать 59-тиричную систему счисления. Т.е. название города ABC представляется вектором [1,1,1,остальные нули] - сумма 59-ричных кодов A,B и С. Однако, 59 параметров (а еще нужны символы "-" и другие) это 59 нод только входного слоя, а ноды еще и обучать надо. А ведь в общем случае чем меньше нод в сети, тем меньше нужно их обучать. Поэтому перевести из 59-ричной системы в десятичную и отнормировать на 1 разделив код каждого слова на код самого "большого" слова. Тогда все города будут закодированы одной единственной цифрой в диапазоне [0,1].

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 128 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 93 просмотра
1

ответ
MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 19 июл.
- 400 просмотров
5

ответов
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 107 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 368 просмотров
0

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 156 просмотров
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 553 просмотра
2

ответа
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 240 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 673 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Показать ещё Загружается…

А какая конечная задача стоит?
(может другой подход можно тут применить...)
xmoonlight, я ищу кусок кода функции на python примерно такого вида:
word = 'ПИТЕР' def vektorizator(a) vector = algoritm(a) return vektor

Мне нужно обучить нейронную сеть следующему:
на вход я подаю разные города, а на выходе сеть должна обучиться давать три популярных вида отдыха в этом городе.

Вот для входа мне нужно сделать этот вектор всегда одинакового размера и желательно чтобы он был не двоичного вида [1, 0, 0, 1], а вот такого [0.21, 0.87, 0.96, 0.53]
mavar, составляете алфавит, затем по каждой букве берёте процентную позицию в алфавите, принимая, что весь алфавит - это 1.0.
26+33 = 59 (eng+рус => суммарный алфавит)
1/59 = 1*0,016949 (первая буква алфавита)
2*0,016949=0,033898 (вторая буква алфавита)
59/59 = 1.0 (последняя буква алфавита)
И записываете их в массив друг за другом в том порядке, в котором они стоят в слове.

Answer 1 · 2018-10-15 17:56:41

Данил @DanilBaibak

Machine Learning engineer

Word2vec тебе в помощь. Игралчся с векторным представлением слов для собрания книг про Гарри Поттера.

Ответ написан более трёх лет назад

11 комментариев

Answer 2 · 2018-10-16 08:14:54

Конкретно для именованных сущностей типа городов или фио, лучше использовать словарь этих сущностей, при нахождении в тексте - заменить на какой-нибудь токен (%город%, %имя%, %фамилия%), и дальше работать с этим токеном. Потому что для логики работы модели почти наверняка не важно, какой именно город был назван; важно, был ли он назван вообще или нет.

Самый простой способ получить векторное представление слова - просто сначала составить словарь используемых слов в датасете, и потом заменить слово на его id в этом словаре или на one-hot представление.
Более умные варианты - это word embeddings, когда id слова соответствует какой-то вектор, полученный заранее или обучаемый в ходе работы модели. Есть еще варианты с кодированием пар\триплетов букв в слове.

Answer 3 · 2018-10-16 17:42:55

Составляете алфавит, затем по каждой букве берёте процентную позицию в алфавите, принимая, что весь алфавит - это 1.0.
26+33 = 59 (eng+рус => суммарный алфавит)
1/59 = 1*0,016949 (первая буква алфавита)
2*0,016949=0,033898 (вторая буква алфавита)
59/59 = 1.0 (последняя буква алфавита)
И записываете их в массив друг за другом в том порядке, в котором они стоят в слове.

Как получить вектор из слова на кириллице?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт