Есть люди, профессионально решающие проблемы кластеризации (data mining)?
Срочно нужны люди в проект. Возможно работа по удаленке.
Cуть такая, у нас собирается огромная куча материала из соц медиа (твиттер, контакт, facebook, жж, он-лайн газеты, журналы и прочее). Поток идет постоянно в режиме реал тайма. Резко потребовались системы по кластеризации. Автоклассификатор, хоть и плохонький, но есть.
Основная проблема, что, например, по теме "Путин" в кластер с именем "Путин" попадали сообщения, содержащие не только формы имени, но и "президент", чисто имя и отчество и так далее. Пока задача решается подключением wiki, но вот для событий которые произошли совсем недавно, статьи в вики нет пока еще.
Скинул ссылку на ваш вопрос знакомому с отделения Прикладной Математики НИУ ВШЭ. Там полно толковых специалистов как среди преподавателей, так и среди студентов.
Но сразу скажу, что задача актуальная и нетривиальная, поэтому вряд ли вам удастся найти лёгкий/быстрый/качественный способ её решения.