Алгоритм сопоставления двух текстов?

Question

Антон Жучков @fireton

Алгоритм сопоставления двух текстов?

Есть два текста одного и того же документа. Требуется найти совпадающие или почти совпадающие фрагменты. Ну то есть например в одном тексте есть шапка и комментарии. А в другом нет. Но нужно определить и желательно быстро те фрагменты двух текстов, которые одинаковы.

Особенно ценно было бы находить нечёткие совпадения. Например, один текст был получен в результате распознавания образа и местами он довольно кривой.

Пожалуйста, подскажите направление. Какие алгоритмы можно применить, что почитать?

Вопрос задан более трёх лет назад
453 просмотра

8 комментариев

Подписаться 7 Средний 8 комментариев

shurshur @shurshur

Ну начать с применения расстояния Левенштейна, Хэмминга и других подобных методов. Если это действительно два почти одингаковых текста, то может неплохо подойти.

Но сравнивать лучше не тексты целиком, а кусками: разделами, абзацами, предложениями...

Написано более трёх лет назад
Антон Жучков @fireton Автор вопроса

shurshur, ну вот я думал уже в этом направлении. Но как мне, например, сделать своего рода «нечёткий хэш» предложения? Так чтобы если, скажем в одном из текстов слово не распозналось толком, то соответствие предложений всё равно было найдено...

Написано более трёх лет назад
hint000 @hint000

Антон Жучков, есть подозрение на https://tproger.ru/explain/xyproblem/

Написано более трёх лет назад
posters @posters

hint000, И тем не менее постановка проблемы интересная сама по себе. Подписался.

Написано более трёх лет назад
posters @posters

Возможно вам чем-то поможет этот топик
https://qna.habr.com/q/96289

Написано более трёх лет назад
hint000 @hint000

Так-то есть https://ru.wikipedia.org/wiki/Diff
Есть Git, в котором тоже какой-то алгоритм сравнения текстов, а поскольку open source, то никто не запрещает взять исходники и расковырять.

posters, согласен, интересная, но сложная. За 5 минут тут чего-то насоветовать нельзя, требуется погружаться в проблему с головой.

Написано более трёх лет назад
Антон Жучков @fireton Автор вопроса

Спасибо всем ответившим. Дифф, конечно, идеально, но там диффер сдохнет, если сравнивать даже пословно, тексты довольно большие. А разделение по параграфам и строкам может быть разным, так что их сравнивать тоже не вариант.

Поэтому я пришёл к решению, когда я нормализую текст, удаляя знаки препинания и прочие незначащие символы, а затем итеративно сворачиваю в хеши сначала слова, а потом и сочетания слов-хешей. И сравниваю на каждом уровне, находя различающиеся фрагменты и уточняя сравнение. В итоге можно и до символов дойти, если надо. Но мне достаточно по словам сравнить.

Ещё раз спасибо.

Написано более трёх лет назад
dm7-5 @dm7-5

Еще может помочь https://www.youtube.com/watch?v=8T3giE2KaoI&list=P...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 325 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 389 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 281 просмотр
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 427 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 405 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 295 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 252 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 235 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 391 просмотр
1

ответ
Показать ещё Загружается…

Ну начать с применения расстояния Левенштейна, Хэмминга и других подобных методов. Если это действительно два почти одингаковых текста, то может неплохо подойти.

Но сравнивать лучше не тексты целиком, а кусками: разделами, абзацами, предложениями...
shurshur, ну вот я думал уже в этом направлении. Но как мне, например, сделать своего рода «нечёткий хэш» предложения? Так чтобы если, скажем в одном из текстов слово не распозналось толком, то соответствие предложений всё равно было найдено...
Антон Жучков, есть подозрение на https://tproger.ru/explain/xyproblem/
hint000, И тем не менее постановка проблемы интересная сама по себе. Подписался.
Возможно вам чем-то поможет этот топик
https://qna.habr.com/q/96289
Так-то есть https://ru.wikipedia.org/wiki/Diff
Есть Git, в котором тоже какой-то алгоритм сравнения текстов, а поскольку open source, то никто не запрещает взять исходники и расковырять.

posters, согласен, интересная, но сложная. За 5 минут тут чего-то насоветовать нельзя, требуется погружаться в проблему с головой.
Спасибо всем ответившим. Дифф, конечно, идеально, но там диффер сдохнет, если сравнивать даже пословно, тексты довольно большие. А разделение по параграфам и строкам может быть разным, так что их сравнивать тоже не вариант.

Поэтому я пришёл к решению, когда я нормализую текст, удаляя знаки препинания и прочие незначащие символы, а затем итеративно сворачиваю в хеши сначала слова, а потом и сочетания слов-хешей. И сравниваю на каждом уровне, находя различающиеся фрагменты и уточняя сравнение. В итоге можно и до символов дойти, если надо. Но мне достаточно по словам сравнить.

Ещё раз спасибо.
Еще может помочь https://www.youtube.com/watch?v=8T3giE2KaoI&list=P...

Answer 1 · 2021-12-15 09:52:22

Начать с diff, потом docdiff. Последнее довольно неплохо диффает вордовские файлы.

Главное забыл! Диссернетовкий детектор плагиата!

Алгоритм сопоставления двух текстов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт