По каким параметрам определять авторство текста?

Question

YermolaevG @YermolaevG

По каким параметрам определять авторство текста?

Есть задача написать программу, получающую на вход текст, анализирующую его, и на выходе выдающую вероятность того, что ее написал некий автор (сравниваются или два текста, или параметры из загруженного текста с некими сохраненными установками конкретного автора)
Собственно вопрос в том, какие параметры можно использовать для такой классификации (например, самые часто используемые слова, буквы, среднее количество существительных на прилагательное, и все в таком духе)

Вопрос задан более трёх лет назад
417 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Нейросети на практике: 125 инструментов для работы и бизнеса

2 месяца

Далее
GB (GeekBrains)

Искусственный интеллект. Специалист

12 месяцев

Далее

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Боты

+1 ещё

Простой
Как создать бота ВК на иностранных мозгах?
- 1 подписчик
- 30 июн.
- 240 просмотров
2

ответа
Обработка изображений

+1 ещё

Простой
Через какой ИИ можно массово редактировать изображения?
- 2 подписчика
- 30 июн.
- 375 просмотров
3

ответа
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 420 просмотров
2

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3715 просмотров
12

ответов
Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 88 просмотров
2

ответа
Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 118 просмотров
1

ответ
Искусственный интеллект

Простой
OpenRouter грозит не дать доступ россиянам?
- 3 подписчика
- 16 апр.
- 1396 просмотров
1

ответ
Искусственный интеллект

Простой
Как подключить OpenClaw к OpenwebUI?
- 2 подписчика
- 09 апр.
- 277 просмотров
1

ответ
Искусственный интеллект

Простой
Как решить длинные диалоги с ИИ?
- 1 подписчик
- 07 апр.
- 460 просмотров
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 245 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-05-11 23:18:46

Посмотрите ключевые слова authorship attribution features. Google в первых результатах выдает статью Bozkurt et al и обзор Stamatatos. Думаю, поможет.

Answer 2 · 2015-05-12 11:42:44

Хорошо работает определение средней длинны предложений, вводных слов, списков и их типа (нумерованные или с помощью дефисов). Сленг, мат если это возможно, если неформальный текст то приветствия. Особенно введению и заключению нужно уделять внимание.

Answer 3 · 2015-05-12 05:06:04

делал чтото подобное раньше ради развлечения, очень неплохой результат давала степень энтропии в тексте. Точно уже не помню(это было несколько лет назад и исходников не сохранилось), но кажется там определялась энтропия букв в предложении и находилось некоторое число, которое достаточно точно определяло автора.

По каким параметрам определять авторство текста?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт