Алгоритм сопоставления двух текстов?

Question

Антон Жучков @fireton

Алгоритм сопоставления двух текстов?

Есть два текста одного и того же документа. Требуется найти совпадающие или почти совпадающие фрагменты. Ну то есть например в одном тексте есть шапка и комментарии. А в другом нет. Но нужно определить и желательно быстро те фрагменты двух текстов, которые одинаковы.

Особенно ценно было бы находить нечёткие совпадения. Например, один текст был получен в результате распознавания образа и местами он довольно кривой.

Пожалуйста, подскажите направление. Какие алгоритмы можно применить, что почитать?

Вопрос задан более трёх лет назад
440 просмотров

8 комментариев

Подписаться 7 Средний 8 комментариев

shurshur @shurshur

Ну начать с применения расстояния Левенштейна, Хэмминга и других подобных методов. Если это действительно два почти одингаковых текста, то может неплохо подойти.

Но сравнивать лучше не тексты целиком, а кусками: разделами, абзацами, предложениями...

Написано более трёх лет назад
Антон Жучков @fireton Автор вопроса

shurshur, ну вот я думал уже в этом направлении. Но как мне, например, сделать своего рода «нечёткий хэш» предложения? Так чтобы если, скажем в одном из текстов слово не распозналось толком, то соответствие предложений всё равно было найдено...

Написано более трёх лет назад
hint000 @hint000

Антон Жучков, есть подозрение на https://tproger.ru/explain/xyproblem/

Написано более трёх лет назад
posters @posters

hint000, И тем не менее постановка проблемы интересная сама по себе. Подписался.

Написано более трёх лет назад
posters @posters

Возможно вам чем-то поможет этот топик
https://qna.habr.com/q/96289

Написано более трёх лет назад
hint000 @hint000

Так-то есть https://ru.wikipedia.org/wiki/Diff
Есть Git, в котором тоже какой-то алгоритм сравнения текстов, а поскольку open source, то никто не запрещает взять исходники и расковырять.

posters, согласен, интересная, но сложная. За 5 минут тут чего-то насоветовать нельзя, требуется погружаться в проблему с головой.

Написано более трёх лет назад
Антон Жучков @fireton Автор вопроса

Спасибо всем ответившим. Дифф, конечно, идеально, но там диффер сдохнет, если сравнивать даже пословно, тексты довольно большие. А разделение по параграфам и строкам может быть разным, так что их сравнивать тоже не вариант.

Поэтому я пришёл к решению, когда я нормализую текст, удаляя знаки препинания и прочие незначащие символы, а затем итеративно сворачиваю в хеши сначала слова, а потом и сочетания слов-хешей. И сравниваю на каждом уровне, находя различающиеся фрагменты и уточняя сравнение. В итоге можно и до символов дойти, если надо. Но мне достаточно по словам сравнить.

Ещё раз спасибо.

Написано более трёх лет назад
dm7-5 @dm7-5

Еще может помочь https://www.youtube.com/watch?v=8T3giE2KaoI&list=P...

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 134 просмотра
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 224 просмотра
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 175 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 258 просмотров
3

ответа
Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг.
- 172 просмотра
2

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 170 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 308 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 481 просмотр
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 93 просмотра
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 135 просмотров
1

ответ
Показать ещё Загружается…

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда сервисов телефонии

Яндекс • Москва

от 300 000 до 490 000 ₽

Ну начать с применения расстояния Левенштейна, Хэмминга и других подобных методов. Если это действительно два почти одингаковых текста, то может неплохо подойти.

Но сравнивать лучше не тексты целиком, а кусками: разделами, абзацами, предложениями...
shurshur, ну вот я думал уже в этом направлении. Но как мне, например, сделать своего рода «нечёткий хэш» предложения? Так чтобы если, скажем в одном из текстов слово не распозналось толком, то соответствие предложений всё равно было найдено...
Антон Жучков, есть подозрение на https://tproger.ru/explain/xyproblem/
hint000, И тем не менее постановка проблемы интересная сама по себе. Подписался.
Возможно вам чем-то поможет этот топик
https://qna.habr.com/q/96289
Так-то есть https://ru.wikipedia.org/wiki/Diff
Есть Git, в котором тоже какой-то алгоритм сравнения текстов, а поскольку open source, то никто не запрещает взять исходники и расковырять.

posters, согласен, интересная, но сложная. За 5 минут тут чего-то насоветовать нельзя, требуется погружаться в проблему с головой.
Спасибо всем ответившим. Дифф, конечно, идеально, но там диффер сдохнет, если сравнивать даже пословно, тексты довольно большие. А разделение по параграфам и строкам может быть разным, так что их сравнивать тоже не вариант.

Поэтому я пришёл к решению, когда я нормализую текст, удаляя знаки препинания и прочие незначащие символы, а затем итеративно сворачиваю в хеши сначала слова, а потом и сочетания слов-хешей. И сравниваю на каждом уровне, находя различающиеся фрагменты и уточняя сравнение. В итоге можно и до символов дойти, если надо. Но мне достаточно по словам сравнить.

Ещё раз спасибо.
Еще может помочь https://www.youtube.com/watch?v=8T3giE2KaoI&list=P...

Answer 1 · 2021-12-15 09:52:22

Начать с diff, потом docdiff. Последнее довольно неплохо диффает вордовские файлы.

Главное забыл! Диссернетовкий детектор плагиата!

Алгоритм сопоставления двух текстов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт