99% технического мусора отсеивается:
* типичные шаблонные сообщения в начале и в конце письма (приветствую, вы писали дата и т.п.) фильтрацию этого нужно кодировать вручную, задав фильтры по словам (и положению в документе), сложнее тем что в конце письма вставляют, чтобы такие выявлять, нужно привязывать эти сообщения к конкретному пользователю, т.е. все что повторяется в большинстве сообщениях пользователя и есть мусор. Так же не пытаться искать этот мусор в середине - он либо в начале письма либо в конце
* искать цитаты и копии сообщений в письмах-ответах сравнивая по содержанию (только сравнивай не посимвольно а собрав в строчки, выкинув лишние пробелы и символы цитирования и может быть знаки препинания), само собой удалять нужно только полное цитирование сообщения а не частичное, и только если это окончание/начало письма (после удаления шаблонных приветствий), кстати вместо удаления можно оставлять в итоговом интерфейсе гиперссылку
нормальные почтовые приложения просто сворачивают такие цитаты (если цитата короткая обрамлена текстом - ее не сворачивать)