Здравствуйте, пытаюсь разобраться с тем как можно сравнить тексты и пока не нашел ничего толкового, собственно вопрос в том есть ли в данный момент какие-то алгоритмы для подобных задач, а то пока что выглядит все очень больно и печально.
Задача по сути такого рода: есть исходный документ doc0, на вход поступает множество других документов doc_n (тематика текстов разношерстная) и нужно с какой-то степенью вероятности сказать что, к примеру, в doc_10 идет речь о том же что и в doc_0 (попадаются очень хорошо переписанные тексты об одном и том же). Важно именно такое сравнение, я пробовал
LSI в целом штука забавная, но как по мне она больше подходит для группировки документов нежели их "осмысленное" сравнение. Шилинги, n-граммы и т.п. весьма неоднозначны. Подскажите, пожалуйста, существует ли вообще подобные решения и какие? И что можно почитать хорошо по данной тематике из книг?