Я использовал
https://pypi.python.org/pypi/redisbayes/0.1.3 для определения причины по которой надо забанить объявление.
Алгоритм
байесовского классификатора спама достаточно прост в реализации и позволит осуществлять классификацию текстов обучаясь на тестовой выборке.
Библиотеку redisbayes я использовал в связке с
pymorphy.
Я брал текст делил его на массив слов исключал из массива предлоги и прочие слова которые встречаются в любом тексте (а, но, если, чтобы и подобное )
Остальные слова с помощью pymorphy я приводил в именительный падеж единственное число и только потм это дело отдавал в redisbayes.
Классификатор можно научить не только определять спам или не спам а допусти научить его отделять объявление о продажи квартиры от объявления продажи машины. А вот отделять объявление о продажи квартиры от объявления о покупке или аренде квартиры мне не удалось хотя наверное это возможно но у мея получался большой процент ошибок так как тематики близкие и слова в них встречаются примерно одни и теже.