Как в потоке сообщений лучше всего определить ключевые слова сообщений, чтобы потом искать "похожие"?
На примере аггрегаторов новостей, где сообщения объединяются в сюжеты.
Желательно на Python.
Сейчас использую библиотеки spaCy и Textacy для выделения ключевых слов. Дальше ищу пересечения и сортирую в порядке возрастания суммарного веса совпадающих ключевых слов.
key_terms = textacy.keyterms.key_terms_from_semantic_network(doc,
normalize=normalize,
window_width=15,
n_keyterms=30)
Но точность сильно хромает