Tuxman
@Tuxman

Как распознать в почте/ньюсах где приветствие, подпись, а где важный смысл сообщения?

Имеются большие объёмы емейл переписок, или ньюс групп фидов, где есть цепочки ответов. Разные варианты группирования по темам сообщений, деревьев ответов и и пр. не так наглядно когда речь идёт о большом количестве сообщений. Размышляю над визуальным представлением информации из почты/ньюсов в виде ленты, где можно было бы читать все ответы без необходимости видеть несколько строк приветствия, подписей и пр.

Первое что легко сделать без машинного обучения - это определить квоты оригинального сообщения и вокруг этого ответ, тем самым ограничить корпус только этим объёмом текста, но есть риск пропустить контексто-значимый текст.

Имея много примеров писем от каждого корреспондента, можно построить модель шаблона его писем, где часть письма относится к приветствию и упоминанию, что это ответ такому-то корреспонденту, а где уже подпись с прощальными словами, которые не так важны для смысла.

Хотелось бы узнать ваше мнение, в каком направлении двигаться, какие библиотечки на Python, Golang, т.д. посмотреть?
  • Вопрос задан
  • 87 просмотров
Пригласить эксперта
Ответы на вопрос 3
@rPman
99% технического мусора отсеивается:
* типичные шаблонные сообщения в начале и в конце письма (приветствую, вы писали дата и т.п.) фильтрацию этого нужно кодировать вручную, задав фильтры по словам (и положению в документе), сложнее тем что в конце письма вставляют, чтобы такие выявлять, нужно привязывать эти сообщения к конкретному пользователю, т.е. все что повторяется в большинстве сообщениях пользователя и есть мусор. Так же не пытаться искать этот мусор в середине - он либо в начале письма либо в конце
* искать цитаты и копии сообщений в письмах-ответах сравнивая по содержанию (только сравнивай не посимвольно а собрав в строчки, выкинув лишние пробелы и символы цитирования и может быть знаки препинания), само собой удалять нужно только полное цитирование сообщения а не частичное, и только если это окончание/начало письма (после удаления шаблонных приветствий), кстати вместо удаления можно оставлять в итоговом интерфейсе гиперссылку

нормальные почтовые приложения просто сворачивают такие цитаты (если цитата короткая обрамлена текстом - ее не сворачивать)
Ответ написан
Комментировать
@ehevnlem
Программирую с 1975, в интернете с 1993.
вообще это задача для понимания текста, несколько упрощенная. строят смысловые ветора слов . https://ru.wikipedia.org/wiki/Word2vec может быть это будет интересно
Ответ написан
Комментировать
dimonchik2013
@dimonchik2013
non progredi est regredi
https://pypi.org/project/readability-lxml/

но без ML задача красиво не решается
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы