для слов есть алгоритм прям в вики
MapReduce, раздробить по количеству вычислительных возможностей и юзать.
сравнение слов классически по хешу, причем посдчет также раздробить внутри мапредуса можно. ну и не забыть нормализацию Е-Ё И-Й
подсчет совпадающих предложений бессмыслен, ибо таковых не найдется.