Привет. Есть ли какой-нибудь алгоритм, чтобы уменьшить текст, т.е. чтобы лишние слова: матафоры, повторы, эпитеты убирались, например, а смысл текста оставался понятным?
Есть опен срорсные программы. Правда плохие, и для английского :).
Если хотите сделать свое, нужно определить некий критерий, к примеру - энтропию или перплексию и постараться его минимизировать. Либо создавать матрицы и пытаться реконструировать low-rank с минимальной потерей.
Помнится на хабре был такой пост, где один журналист рассказывал о таком алгоритме. Он включал в себя всякие слова, которые если убрать смысл, не поменяется, алгоритм выделял эти слова и показывал ему, чтобы он мог эти слова в некоторых местах убрать и сократить текст.
Самый простой пособ - составить большой список регулярных выражений для замен или удаления частей текста. В стиле s/, например, //g. s/Таким образом, //g и так далее.