Fasttext и «похожесть» строк. Как найти?

Question

vitalykhy @vitalykhy

http://webinnews.ru/

Машинное обучение

Fasttext и «похожесть» строк. Как найти?

Есть хорошая библиотека от facebook под названием fasttext. Я совсем недавно приступил к изучению и мне необходима помощь.
Сейчас не совсем понимаю как можно найти по строке (допустим заголовок новости, как в яндексе) похожую новость.
Если я все верно понимаю, то данное сопоставление ищется по векторам. То есть на основании модели (тут тоже не совсем понятно как составить обучение такой модели на основании fasttext) мы получаем вектора на предложение (заголовок новости).
Далее мы берем новую новость и строим вектор по ней. По обоим векторам находим косинус и получаем итоговое соотношение похожести. Но в таком случае мы получаем, что у нас есть миллионы новостей в БД и мы получается должны для каждой новости строить такой вектор и где величина попадает в определенный процент - туда и относить?

В общем мне нужно помочь в понимании того:
1) как производить обучение такой модели на основании fasttext. В официальной документации я не понял принцип составление данных для обучения через label. Ведь в таком случае у меня будет масса лэйблов, так как новостей тоже может очень много. Как добавлять новую новость в модель? И нужно ли это делать?
2) как производить сопоставление. Тут достаточно будет описание алгоритма. Если есть возможность подкрепить формулой или выдуманным примером - буду очень признателен.

Также буду признателен, если подскажете где почитать. Углубляться в дебри не нужно, так как "магия" реализованная в библиотеке - это для саморазвития. Небольшое понимание основ у меня есть. А суть библиотеки - это скрыть от пользователя сложные расчеты. То есть примерно такую информацию хотел бы получить: вот статья - в ней рассказано как на основании такой-то информации получить такие-то результаты.

Очень жду от вас направлений (но не в гугл).

Вопрос задан более трёх лет назад
429 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженерия машинного обучения

2 года

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 233 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 166 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Поиск по образцу. Как сделать быстрый поиск вхождения картинок-символов на большом чертеже?
- 2 подписчика
- 19 сент.
- 194 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 190 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 61 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
Какие есть ML-инструменты, которые по структуре или изображению лендинга предсказывают зоны внимания пользователей?
- 1 подписчик
- 28 авг.
- 399 просмотров
3

ответа
Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- 24 авг.
- 428 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 473 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 65 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 149 просмотров
3

ответа
Показать ещё Загружается…

Специалист по управлению мастер данными

Vital Partners

от 200 000 до 270 000 ₽

Technical support (Ассистент Product Owner)

uKit Group • Ростов-на-Дону

от 50 000 до 55 000 ₽

Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

LCap • Алматы

До 2 600 €

Answer 1 · 2018-04-29 19:14:14

Full-mesh нужных строк прогоняем через Stumper API - Compare с записью каждой пары в базу и нет проблем.
Затем, локально строим нужный граф с любого узла к любому.

Fasttext и «похожесть» строк. Как найти?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт