Наверное, неактуально, но - задача же сводится к классификации (возможно - кластеризации) текстов?
Если первое - возможно стоит смотреть в сторону abbyy smartclassifier (возможно уже добавились и новые готовые классификаторы с поддержкой русского языка).
з.ы. попадались посты от
https://habrahabr.ru/users/ServPonomarev/ . Моя череззадная реализация
https://github.com/alex4321/w2v-cluster-distance-c... таки работала на небольшом наборе данных (судя по его постам - алгоритм должен работать и на больших наборах). Впрочем, использовать её я, конечно, не рекомендую :-)
з.ы.2. что до "Сложно ли сделать алгоритм обучаемым, чтобы вероятность ложного срабатывания со временем уменьшалась?" - в случае подобного вышеуказанному - это не должно стать большой сложностью (разумеется - потребуется добавить пример в датасет и провести переобучение), в случае ИНС - возможно, понадобится менять её конфигурацию.