@Narrator69

Реализация поиска похожих по смыслу предложений?

Возникла необходимость относить товар в к той или иной категории, опираться можно на его имя.
Есть некая база товаров, уже принадлежащих к той или иной категории. Пример того, что есть:

Товары для детей:
Резиновый мяч
Стальной самокат
Обруч

Товары для взрослых:
Удочка (спиннинг)
Ведро стальное, 10 л
Перфоратор

Уже имеющаяся база довольно большая, но четких совпадений по ней не будет, потому что может попасться:
Перф-тор
спин. рыбацкий
в. стальное
Мяч резин.

В общем, ситуация довольно щекотливая и, возможно, полнотекстовый поиск не будет справляться. Тут я вспомнил о статье на хабре, в которой чат-бот использует нейросеть для поиска ответа по готовой базе. Я в сомнениях, не знаю, что здесь лучше подойдет. Что посоветуете? Может быть, есть еще какие-то решения?
  • Вопрос задан
  • 1397 просмотров
Пригласить эксперта
Ответы на вопрос 2
dimonchik2013
@dimonchik2013
non progredi est regredi
нейросеть - круто, только ж ее на чем-то надо обучить )) а как будет, на чем, проще с этим чем и работать )

шинглы пробуйте, побуквенно

"Сд. пр. ком. в. уд. в. н. м. од. ин. хол."
Ответ написан
Комментировать
@Levhav
Возьмусь за разработку проектов любой сложности.
Я использовал https://pypi.python.org/pypi/redisbayes/0.1.3 для определения причины по которой надо забанить объявление.

Алгоритм байесовского классификатора спама достаточно прост в реализации и позволит осуществлять классификацию текстов обучаясь на тестовой выборке.

Библиотеку redisbayes я использовал в связке с pymorphy.

Я брал текст делил его на массив слов исключал из массива предлоги и прочие слова которые встречаются в любом тексте (а, но, если, чтобы и подобное )
Остальные слова с помощью pymorphy я приводил в именительный падеж единственное число и только потм это дело отдавал в redisbayes.

Классификатор можно научить не только определять спам или не спам а допусти научить его отделять объявление о продажи квартиры от объявления продажи машины. А вот отделять объявление о продажи квартиры от объявления о покупке или аренде квартиры мне не удалось хотя наверное это возможно но у мея получался большой процент ошибок так как тематики близкие и слова в них встречаются примерно одни и теже.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы