Сложно ли тематически сортировать сообщения/посты в неком потоке?

Допустим есть вконтакте ряд пабликов/групп/людей (ряд стен), которые периодически обновляються. Задача на основании потока постов и некой дополнительной иформации о стене определеть тематику сообщения (есть фиксированый список тем, по которым нужно классифицировать) и определить являеться ли пост предложениям работы, предложения выполнить некий проект или задания, покупки или продажы.
Вопрос сложно ли осуществлять такую классификацию и какими методами/алгоритмы ИИ это можно делать. Необходимо показывать эти сообщения конечному пользователю, который выбрав интересующеюю его тематику и видит только соответсвующие ей посты. Вероятность ложной класификации по теме и полезности (являеться ли это предложения чего-то) должна быть меньше 50%.
Насколько сложнее будет сделать вероятность ошибки меньше 10%? Сложно ли сделать алгоритм обучаемым, чтобы вероятность ложного срабатывания со временем уменьшалась?
Вконтакте указано для примера. Технические вопросы как сканировать большое количество и каких пабликов не рассматривать
  • Вопрос задан
  • 463 просмотра
Пригласить эксперта
Ответы на вопрос 2
Kotofey
@Kotofey
То, о чем вы пишете уже вполне себе реализовано например вот этими ребятами - shikari.do
Насколько это сложно не скажу, но раз есть, то вполне возможно и на первый взгляд ошибка сильно меньше 10%.
Ответ написан
Наверное, неактуально, но - задача же сводится к классификации (возможно - кластеризации) текстов?
Если первое - возможно стоит смотреть в сторону abbyy smartclassifier (возможно уже добавились и новые готовые классификаторы с поддержкой русского языка).

з.ы. попадались посты от https://habrahabr.ru/users/ServPonomarev/ . Моя череззадная реализация https://github.com/alex4321/w2v-cluster-distance-c... таки работала на небольшом наборе данных (судя по его постам - алгоритм должен работать и на больших наборах). Впрочем, использовать её я, конечно, не рекомендую :-)

з.ы.2. что до "Сложно ли сделать алгоритм обучаемым, чтобы вероятность ложного срабатывания со временем уменьшалась?" - в случае подобного вышеуказанному - это не должно стать большой сложностью (разумеется - потребуется добавить пример в датасет и провести переобучение), в случае ИНС - возможно, понадобится менять её конфигурацию.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы