Есть ли алгоритм по уменьшению текста?

Привет. Есть ли какой-нибудь алгоритм, чтобы уменьшить текст, т.е. чтобы лишние слова: матафоры, повторы, эпитеты убирались, например, а смысл текста оставался понятным?
  • Вопрос задан
  • 2893 просмотра
Решения вопроса 1
@lightcaster
Это называется automatic text summarization

Есть опен срорсные программы. Правда плохие, и для английского :).

Если хотите сделать свое, нужно определить некий критерий, к примеру - энтропию или перплексию и постараться его минимизировать. Либо создавать матрицы и пытаться реконструировать low-rank с минимальной потерей.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
ixon
@ixon

Помнится на хабре был такой пост, где один журналист рассказывал о таком алгоритме. Он включал в себя всякие слова, которые если убрать смысл, не поменяется, алгоритм выделял эти слова и показывал ему, чтобы он мог эти слова в некоторых местах убрать и сократить текст.
Ответ написан
afiskon
@afiskon
Самый простой пособ - составить большой список регулярных выражений для замен или удаления частей текста. В стиле s/, например, //g. s/Таким образом, //g и так далее.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы