Поиск повторяющихся фрагментов текста?

Question

Игорь Статкевич @MadInc

Поиск повторяющихся фрагментов текста?

Добрый день, может у кого был опыт, необходим алгоритм/подсказка в каком направлении копать.
Есть большие переписки по email, необходима анонимизация переписки, необходимо убрать подписи из текста писем:

Вася Пупкин
Менеджер
телефон 674847585748
адрес 523645653

Можно было бы собрать все в один текст, и вычленить повторяющиеся куски текста, тогда примерно это и были бы подписи, но как найти именно куски (несколько строк) повторяющегося текста.

Вопрос задан более трёх лет назад
920 просмотров

6 комментариев

Подписаться 5 Простой 6 комментариев

Ivan Yakushenko @kshnkvn

Не. Вот например в том, что ты написал повторяются:
3- текста, 2- переписки, 2 - подписи, 2- куски.
Нужно брать большое кол-во писем и разбирать их по шаблону, а не по конкретным словам. Делать проверки с регулярками, что бы убедиться что в строках действительно есть такие данные, как имя/фамилия и т.д.

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

И да, это повторения без учета всяких в/на/о/бы/это/и и т.д.

Написано более трёх лет назад
Игорь Статкевич @MadInc Автор вопроса

Ivan Yakushenko, Посчитать количество повторяющихся слов или даже строчек не проблема и как это сделать знает каждый школьник. Интересуют именно куски (несколько строк), подпись проставленная в нескольких места автоматически становиться дубликатом.
Регулярки это бред ну найду я почту и телефон, а как определить имя или название организации в подписи, да мало ли что там будет ?

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

> но как найти именно куски (несколько строк) повторяющегося текста.
По вашему алгоритму оно еще и цитаты повырезает...

можно регулярками + логикой
нашли телефон +1 балл
Нашли в пределах -пары-тройки строк вверх или вниз от телефона подобие адреса по регулярке +1 балл
Нашли в пределах -пары-тройки строк вверх или вниз от телефона подобие ФИО (можно использовать словарь имен и фамилий) +1 балл
и т.п.

Если суммарное количество баллов для фрагмента превысило пороговое - значит с определенной вероятностью можно сказать - нашли подпись...

Написано более трёх лет назад
Ivan Yakushenko @kshnkvn

Игорь Статкевич, еще раз говорю - подобное делается анализом структуры документов. В большинстве случаев имя и фамилия пишутся друг после друга с большой буквы. Т.е. берем регулярку и ищем строку в которой слово с большой буквы, после него символьный пробел и еще одно слово с большой буквы. Проверяем регулярку на, допустим тыще писем, смотрим те, где регулярка сработала не правильно - правим условия, расширяем.
Искать повторяющиеся блоки текста - это плохая идея по многим причинам, в том числе по озвученной Владимир Куц.

Написано более трёх лет назад
Игорь Статкевич @MadInc Автор вопроса

Владимир Куц, Может быть не так изложил и вы не так поняли, имелось ввиду следующее:
взять эту кучу писем сложить в один файл и пробежать по нему, подписи будет повторяться в некоторых письмам, а текс в переписках по большому счету везде разный, поэтому и возникла идея проверки блоков текста (нескольких строк) а не строчек или узких фраз.

Ваша идея вполне хороша, имелась такая мысль, но необходима реализация и тесты, поэтому интересовался может кто уже сталкивался и реализовывал похожее.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- вчера
- 109 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 92 просмотра
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 103 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 353 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 670 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 554 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 571 просмотр
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Не. Вот например в том, что ты написал повторяются:
3- текста, 2- переписки, 2 - подписи, 2- куски.
Нужно брать большое кол-во писем и разбирать их по шаблону, а не по конкретным словам. Делать проверки с регулярками, что бы убедиться что в строках действительно есть такие данные, как имя/фамилия и т.д.
И да, это повторения без учета всяких в/на/о/бы/это/и и т.д.
Ivan Yakushenko, Посчитать количество повторяющихся слов или даже строчек не проблема и как это сделать знает каждый школьник. Интересуют именно куски (несколько строк), подпись проставленная в нескольких места автоматически становиться дубликатом.
Регулярки это бред ну найду я почту и телефон, а как определить имя или название организации в подписи, да мало ли что там будет ?
> но как найти именно куски (несколько строк) повторяющегося текста.
По вашему алгоритму оно еще и цитаты повырезает...

можно регулярками + логикой
нашли телефон +1 балл
Нашли в пределах -пары-тройки строк вверх или вниз от телефона подобие адреса по регулярке +1 балл
Нашли в пределах -пары-тройки строк вверх или вниз от телефона подобие ФИО (можно использовать словарь имен и фамилий) +1 балл
и т.п.

Если суммарное количество баллов для фрагмента превысило пороговое - значит с определенной вероятностью можно сказать - нашли подпись...
Игорь Статкевич, еще раз говорю - подобное делается анализом структуры документов. В большинстве случаев имя и фамилия пишутся друг после друга с большой буквы. Т.е. берем регулярку и ищем строку в которой слово с большой буквы, после него символьный пробел и еще одно слово с большой буквы. Проверяем регулярку на, допустим тыще писем, смотрим те, где регулярка сработала не правильно - правим условия, расширяем.
Искать повторяющиеся блоки текста - это плохая идея по многим причинам, в том числе по озвученной Владимир Куц.
Владимир Куц, Может быть не так изложил и вы не так поняли, имелось ввиду следующее:
взять эту кучу писем сложить в один файл и пробежать по нему, подписи будет повторяться в некоторых письмам, а текс в переписках по большому счету везде разный, поэтому и возникла идея проверки блоков текста (нескольких строк) а не строчек или узких фраз.

Ваша идея вполне хороша, имелась такая мысль, но необходима реализация и тесты, поэтому интересовался может кто уже сталкивался и реализовывал похожее.

Answer 1 · 2020-01-28 15:21:31

Привет. Не до конца уверен, но возможно тебе могут помочь регулярные выражения. Попробуй с ними поработать, может получиться

Answer 2 · 2020-01-28 16:01:34

Возможно, вам поможет библиотека textblob. А именно, эта часть: Tutorial: Building a Text Classification System. В качестве примера:

#!/usr/bin/python
from textblob import TextBlob
from textblob.classifiers import NaiveBayesClassifier

train1 = '''
Вася Пупкин
Менеджер
телефон 674847585748
адрес 523645653
'''
train2 = '''
Иван Иванов
Менеджер
телефон 673844589748
адрес 513665053
'''
train3 = '''
Николас Медведев
Менеджер
телефон 674947581748
адрес 526641655
'''
train = [
    (train1, 'pos'),
    (train2, 'pos'),
    (train3, 'pos'),
    ('С уважением, от команды Хабра!', 'neg'),
    ('Купите наших котиков?', 'neg'),
    ('Скидки 120% но Aliexpress.', 'neg'),
]
test = '''
Привет!
Алиса Аксенова
Менеджер
телефон 678942581948
адрес 520671655
'''
cl = NaiveBayesClassifier(train)
blob = TextBlob(test, classifier=cl)
for s in blob.sentences:
    print("'{}' - {}".format(s, s.classify()))

Выдаст такое:

'Привет!' - neg
'Алиса Аксенова
Менеджер
телефон 678942581948
адрес 520671655' - pos

Поиск повторяющихся фрагментов текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт