Как распознать в почте/ньюсах где приветствие, подпись, а где важный смысл сообщения?
Имеются большие объёмы емейл переписок, или ньюс групп фидов, где есть цепочки ответов. Разные варианты группирования по темам сообщений, деревьев ответов и и пр. не так наглядно когда речь идёт о большом количестве сообщений. Размышляю над визуальным представлением информации из почты/ньюсов в виде ленты, где можно было бы читать все ответы без необходимости видеть несколько строк приветствия, подписей и пр.
Первое что легко сделать без машинного обучения - это определить квоты оригинального сообщения и вокруг этого ответ, тем самым ограничить корпус только этим объёмом текста, но есть риск пропустить контексто-значимый текст.
Имея много примеров писем от каждого корреспондента, можно построить модель шаблона его писем, где часть письма относится к приветствию и упоминанию, что это ответ такому-то корреспонденту, а где уже подпись с прощальными словами, которые не так важны для смысла.
Хотелось бы узнать ваше мнение, в каком направлении двигаться, какие библиотечки на Python, Golang, т.д. посмотреть?
99% технического мусора отсеивается:
* типичные шаблонные сообщения в начале и в конце письма (приветствую, вы писали дата и т.п.) фильтрацию этого нужно кодировать вручную, задав фильтры по словам (и положению в документе), сложнее тем что в конце письма вставляют, чтобы такие выявлять, нужно привязывать эти сообщения к конкретному пользователю, т.е. все что повторяется в большинстве сообщениях пользователя и есть мусор. Так же не пытаться искать этот мусор в середине - он либо в начале письма либо в конце
* искать цитаты и копии сообщений в письмах-ответах сравнивая по содержанию (только сравнивай не посимвольно а собрав в строчки, выкинув лишние пробелы и символы цитирования и может быть знаки препинания), само собой удалять нужно только полное цитирование сообщения а не частичное, и только если это окончание/начало письма (после удаления шаблонных приветствий), кстати вместо удаления можно оставлять в итоговом интерфейсе гиперссылку
нормальные почтовые приложения просто сворачивают такие цитаты (если цитата короткая обрамлена текстом - ее не сворачивать)
вообще это задача для понимания текста, несколько упрощенная. строят смысловые ветора слов . https://ru.wikipedia.org/wiki/Word2vec может быть это будет интересно
Вы не поняли вопрос, мне не надо чистить тест от HTML тегов. Мне надо понимать, где человек или шаблон почтового редактора пишут приветствия и подписи.