Поиск похожего предложения

Question

AigizK @AigizK

Поиск похожего предложения

Представим ситуацию:
Студент сдал реферат и надо проверить, не скопипастил ли из других источников.
Так же есть куча других рефератов(в дальнейшем будем называть база рефератов), среди которых и буду искать.

Алгоритм простой:
Достаю каждое предложение из исходного реферата и проверяю по базе рефератов, есть ли похожее предложение там.
Что значит похожее. Это значит что последовательность слов из моего предложения встречается в искомом предложение.
Например:
Дано предложение «Здоровый образ жизни — это образ жизни, основанный на принципах нравственности.»
1. Если я найду такое же предложение, то значит копипаст.
2. Пропущено слово(или несколько слов) в начале или в конце предложения:
это образ жизни, основанный на принципах нравственности — копипаст, т.к пропущены слова в начале предложения.
3. Добавлено слово(или слова) в начале или в конце предложения:
Пупкин говорит: Здоровый образ жизни — это образ жизни, основанный на принципах нравственности. — копипаст, т.к. добавлены слова «Пупкин говорит:».

Теперь надо как то оптимально реализовать данный алгоритм. Естественно будет ограничение типа «куски предложения меньше 3 слов не рассматриваем»
Подскажите, в какую сторону копать? А то если тупо перебирать, то скорость пострадает.

Обновление от 27.09.2011
В итоге получился следующий алгоритм:
1. Разбиваю исходный текст на предложения(с помощью split по символам '.','!','?')
2. Пробегаюсь по каждому тексту из БД(в моем случае это не реляционная база, а отдельные текстовые файлы) и каждый текст разбиваю на предложения
3. Сравниваю исходное предложение с предложением из БД следующим образом:
а)сколько слов из исходного предложения содержится в предложение из БД
б)если это число больше N процентов, то считаю расстояние Левенштейна для этих предложений

Результат меня устраивает вполне. В принципе пункт «3а» можно было опустить, но в моем случае я вывожу отдельно информацию «Сколько слов совпало»

Вопрос задан более трёх лет назад
3743 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Решения вопроса 1

6 комментариев

AigizK @AigizK Автор вопроса

Да, похоже то что надо.

Написано более трёх лет назад
Константин @Norraxx

Нет за что, и спасибо за минус в карму.

Написано более трёх лет назад
Trept @Trept

Может не пройти по быстродействию.
Тысяча рефератов по тысяче предложений, вот и миллион слов, с которыми надо сравнить. Слова очень длинные, да и допустимое расстояние по Левенштейну для копипаста в примере большое.

Написано более трёх лет назад
Константин @Norraxx

Левенштайном сравнивают ДНА, пару тысяч слво = ерунда. Сравнивайте так: расстояние / количество слов или букв. Это должно дать какой-то там коофициент.

Написано более трёх лет назад
AigizK @AigizK Автор вопроса

Минус не ставил, сейчас плюсанул :)
>>Сравнивайте так: расстояние / количество слов или букв
хорошо, завтра как раз и попробую, а то этот момент больше всего и смущает.

Написано более трёх лет назад
Trept @Trept

Давайте прикинем.
Для упомянутой мной базы и реферата нужно 10^9 поисков каждый примерно в 80*40=3200 операций (50% отличие).
Итого 3*10^12 операций, т.е. где-то 6000 сек.
Вроде, приемлемо, но не ерунда.
И зависит от объема базы.
В моем примере это 70Мб, а для 700Мб получится уже 17 часов.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 6

2 комментария

1 комментарий

2 комментария

1 комментарий

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

HTML

+1 ещё

Простой
Как добавить оттенки на фоне как на макете?
- 1 подписчик
- 21 минуту назад
- 2 просмотра
0

ответов
Платёжные системы

+3 ещё

Простой
Какой банк в Армении выбрать it компании?
- 1 подписчик
- 32 минуты назад
- 15 просмотров
0

ответов
Windows

+2 ещё

Средний
Почему интернет на пк до 100мб?
- 1 подписчик
- час назад
- 28 просмотров
0

ответов
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 3 часа назад
- 79 просмотров
3

ответа
Arduino

Простой
Возможно ли залить скетчи на Arduino Nano в моей ситуации?
- 1 подписчик
- 4 часа назад
- 39 просмотров
0

ответов
Joomla

Средний
Ad Agency проблема с SEF — не работает, как решить?
- 1 подписчик
- 5 часов назад
- 9 просмотров
0

ответов
Жёсткие диски

Простой
Почему пропали жесткие диски?
- 1 подписчик
- 7 часов назад
- 60 просмотров
2

ответа
WordPress

+1 ещё

Простой
Купил тему the7 для wordpress на themeforest, но не дают активировать из-за санкций?
- 1 подписчик
- 9 часов назад
- 72 просмотра
1

ответ
Windows

+2 ещё

Средний
В Windows не видит второй монитор хотя при запуске ПК все работает, почему?
- 1 подписчик
- 11 часов назад
- 117 просмотров
1

ответ
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 11 часов назад
- 69 просмотров
1

ответ
Показать ещё Загружается…

SDET (C#)

Лаборатория Касперского

Монтажник ВОЛС

beeline • Санкт-Петербург

Монтажник ВОЛС

beeline • Москва

Answer 1 · 2011-09-23 21:32:30

Константин @Norraxx

en.wikipedia.org/wiki/Levenshtein_distance

Ответ написан более трёх лет назад

6 комментариев

Answer 2 · 2011-09-23 21:36:01

Может помочь метод шинглов.
Каждое предложение разбиваем на ряд n-грамм, например, триграмм. Строим хэши для триграмм. Таким образом каждому предложению соответствует несколько хэшей, для триграмм их будет k-2, т.е. в Вашем примере 8. При совпадении хэшей проверяемого предложения с хэшами какого-либо предложения из базы больше некой границы, скажем, 50%, будем считать предложение «копипастным».

Answer 3 · 2011-09-23 21:35:58

Riateche @Riateche

Посмотрите в сторону расстояния Левенштейна. В вашем случае «символом» является слово.

Ответ написан более трёх лет назад

1 комментарий

Answer 4 · 2011-09-23 20:53:21

Я бы начал разбивать по предложению, которое переводил бы в регулярку и пробивал бы по базе куда вносил текст. Так же в одну бы регулярку все не вставлял разбил бы по порядку с эффектом точности. Базу можно использовать например MySQL (SELECT MYSQL regexp и т.д.)

Answer 5 · 2011-09-23 21:01:52

Разбивал бы на предлодения, вырезал все знаки и выбирал через sphinx, хотя уверен должно быть более менее готовое решение для сравнения

Answer 6 · 2011-09-24 15:04:20

Можно построить хеш-таблицу (или другую структуру, например, сложить в БД), содержащую все предложения из базы рефератов, а также все их достаточно длинные префиксы и суффиксы. То есть для предложения «мама мыла раму вчера вечером» в хеш-таблицу можно сложить предложения
«мама мыла раму вчера вечером»
«мыла раму вчера вечером»
«раму вчера вечером»
«мама мыла раму вчера»
«мама мыла раму».
Когда надо проверить предложение на баянистость, так же размножаем его на набор предложений, полученных из него удалением слов в начале или конце. Для каждого проверяем, есть ли оно в хеш-таблице. Если какое-то есть, наше предложение, возможно, баян. Более того, чем больше совпало, тем более вероятно, что предложение похоже на существующие в базе. Это должно работать достаточно быстро: предложения будут размножаться в среднем на 10-15, то есть индекс (хеш-таблицы) будет занимать примерно в 10-15 раз больше чем исходные тексты, а проверка предложения на баянистость будет сводиться к 10-15 поискам предложения в хеш-таблице. Можно вместо слов хранить их айдишники, уменьшив занимаемое место и время в несколько раз.

Answer 7 · 2011-09-24 21:00:22

AigizK @AigizK Автор вопроса

Как написал выше, база не совсем статичная. Так что хеш таблицу не получится составить.

Ответ написан более трёх лет назад

1 комментарий

Поиск похожего предложения

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт