Как распознать в почте/ньюсах где приветствие, подпись, а где важный смысл сообщения?

Question

Tuxman @Tuxman

Машинное обучение

Как распознать в почте/ньюсах где приветствие, подпись, а где важный смысл сообщения?

Имеются большие объёмы емейл переписок, или ньюс групп фидов, где есть цепочки ответов. Разные варианты группирования по темам сообщений, деревьев ответов и и пр. не так наглядно когда речь идёт о большом количестве сообщений. Размышляю над визуальным представлением информации из почты/ньюсов в виде ленты, где можно было бы читать все ответы без необходимости видеть несколько строк приветствия, подписей и пр.

Первое что легко сделать без машинного обучения - это определить квоты оригинального сообщения и вокруг этого ответ, тем самым ограничить корпус только этим объёмом текста, но есть риск пропустить контексто-значимый текст.

Имея много примеров писем от каждого корреспондента, можно построить модель шаблона его писем, где часть письма относится к приветствию и упоминанию, что это ответ такому-то корреспонденту, а где уже подпись с прощальными словами, которые не так важны для смысла.

Хотелось бы узнать ваше мнение, в каком направлении двигаться, какие библиотечки на Python, Golang, т.д. посмотреть?

Вопрос задан более трёх лет назад
97 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
Бруноям

Data Scientist

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MacBook

+2 ещё

Простой
Mac для машинного обучения, стоит ли брать?
- 1 подписчик
- 19 июл.
- 440 просмотров
5

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 164 просмотра
2

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 569 просмотров
2

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 237 просмотров
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 521 просмотр
2

ответа
Карьера в IT

+1 ещё

Простой
Стоит ли беспокоится, если иду в NLP, но я плох на числовых табличных данных?
- 1 подписчик
- 11 мая
- 476 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 375 просмотров
1

ответ
Машинное обучение

Простой
Необходимо разработать модель классификации, поможете с выбором парадигмы решения задачи?
- 2 подписчика
- 22 янв.
- 158 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 144 просмотра
0

ответов
Машинное обучение

Простой
Можно ли получить сразу полный список чего-либо от LLM по определённому критерию?
- 1 подписчик
- 28 дек. 2025
- 138 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-10-26 00:07:05

99% технического мусора отсеивается:
* типичные шаблонные сообщения в начале и в конце письма (приветствую, вы писали дата и т.п.) фильтрацию этого нужно кодировать вручную, задав фильтры по словам (и положению в документе), сложнее тем что в конце письма вставляют, чтобы такие выявлять, нужно привязывать эти сообщения к конкретному пользователю, т.е. все что повторяется в большинстве сообщениях пользователя и есть мусор. Так же не пытаться искать этот мусор в середине - он либо в начале письма либо в конце
* искать цитаты и копии сообщений в письмах-ответах сравнивая по содержанию (только сравнивай не посимвольно а собрав в строчки, выкинув лишние пробелы и символы цитирования и может быть знаки препинания), само собой удалять нужно только полное цитирование сообщения а не частичное, и только если это окончание/начало письма (после удаления шаблонных приветствий), кстати вместо удаления можно оставлять в итоговом интерфейсе гиперссылку

нормальные почтовые приложения просто сворачивают такие цитаты (если цитата короткая обрамлена текстом - ее не сворачивать)

Answer 2 · 2021-10-26 17:06:48

вообще это задача для понимания текста, несколько упрощенная. строят смысловые ветора слов . https://ru.wikipedia.org/wiki/Word2vec может быть это будет интересно

Answer 3 · 2021-10-26 09:03:21

Dimonchik @dimonchik2013

non progredi est regredi

https://pypi.org/project/readability-lxml/

но без ML задача красиво не решается

Ответ написан более трёх лет назад

2 комментария

Как распознать в почте/ньюсах где приветствие, подпись, а где важный смысл сообщения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт