Алгоритм сопоставления двух текстов?

Есть два текста одного и того же документа. Требуется найти совпадающие или почти совпадающие фрагменты. Ну то есть например в одном тексте есть шапка и комментарии. А в другом нет. Но нужно определить и желательно быстро те фрагменты двух текстов, которые одинаковы.

Особенно ценно было бы находить нечёткие совпадения. Например, один текст был получен в результате распознавания образа и местами он довольно кривой.

Пожалуйста, подскажите направление. Какие алгоритмы можно применить, что почитать?
  • Вопрос задан
  • 435 просмотров
Пригласить эксперта
Ответы на вопрос 1
gbg
@gbg
Любые ответы на любые вопросы
Начать с diff, потом docdiff. Последнее довольно неплохо диффает вордовские файлы.

Главное забыл! Диссернетовкий детектор плагиата!
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы