поищите perl-Digest-Nilsimsa
создаете хэш для каждой статьи кладете в базку
сравнение кажется побитное непомню использовал давно
точный (если куски текста просто поменяны местами находит 100% идентичность)
относительно быстрый
не латиницу перед созданием хэша транслитеруйте