Задать вопрос

По каким параметрам определять авторство текста?

Есть задача написать программу, получающую на вход текст, анализирующую его, и на выходе выдающую вероятность того, что ее написал некий автор (сравниваются или два текста, или параметры из загруженного текста с некими сохраненными установками конкретного автора)
Собственно вопрос в том, какие параметры можно использовать для такой классификации (например, самые часто используемые слова, буквы, среднее количество существительных на прилагательное, и все в таком духе)
  • Вопрос задан
  • 414 просмотров
Подписаться 4 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Инженер машинного обучения
    4 месяца
    Далее
  • Skypro
    Нейросети с 0
    9 месяцев
    Далее
  • Специалист.ру
    Специалист по Data Science, машинному обучению и искусственному интеллекту
    6 месяцев
    Далее
Решения вопроса 1
@SeptiM
Посмотрите ключевые слова authorship attribution features. Google в первых результатах выдает статью Bozkurt et al и обзор Stamatatos. Думаю, поможет.
Ответ написан
Пригласить эксперта
Ответы на вопрос 2
myfirepukan
@myfirepukan
Жарим поиск
Хорошо работает определение средней длинны предложений, вводных слов, списков и их типа (нумерованные или с помощью дефисов). Сленг, мат если это возможно, если неформальный текст то приветствия. Особенно введению и заключению нужно уделять внимание.
Ответ написан
Комментировать
Neuroware
@Neuroware
Программист в свободное от работы время
делал чтото подобное раньше ради развлечения, очень неплохой результат давала степень энтропии в тексте. Точно уже не помню(это было несколько лет назад и исходников не сохранилось), но кажется там определялась энтропия букв в предложении и находилось некоторое число, которое достаточно точно определяло автора.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы