Алгоритмы и готовые реализации определения авторства по тексту?

Question

rPman @rPman

Алгоритмы и готовые реализации определения авторства по тексту?

Неоднократно встречаются ситуации, когда необходимо определить авторов текстов и даже коротких сообщений в социальных сетях и форумах, которые активно или пассивно стараются скрыть себя за клонами (регистрируют несколько аккаунтов), кто то ради обычного троллинга, кто то ради повышения своей безопасности… это не важно.

Я знаю, что технологии и алгоритмы определения авторства существуют давно. Например один из дипломов в параллельном мне выпуске ВУЗ-а факультета IT-направленности успешно демонстрировали исследование какого-то алгоритма статистического анализа, работающего с текстами на 'низком' уровне, без семантики, таких как — количество запятых, расстояние между ними, количество слов в предложении и т.п. (там были десятки критериев).

Времени прошло достаточно, наверняка сейчас дело обстоит значительно лучше (или по крайней мере не хуже). Может кто посоветует готовые реализации, библиотеки,… интересует не сильно монструозные реализации… мне достаточно утилиты, которой можно скормить список текстов, а на выходе эти тексты должны быть сгрупированы в группы/кластеры 'похожести', будет достаточно, даже если это будет нечто многомерное/многокритериальное (кластеры по критериям или группам критериев), дальейшую работу с этими кластерами я смог бы провести и сам.

Цель, как я выше определил, поиск клонов, альтернативных регистраций людей, в т.ч. глобально в интернете (а не только в пределах одного форума).

Обновление: Похоже нашел сам.

Стилометрия, и соотв. софт для исползования. Почти первая же статья из гугла.

Для измерения приватности и безопасности исследователи создали 2 программы с открытым исходным кодом — одна из них Jstylo — распознаёт стиль пользователя. Вторая Anonymouth — используется для «анонимизации» письма путём предоставлению пользователю специфических предложений по смене стиля.

github.com/psal/JStylo-Anonymouth

Вопрос задан более трёх лет назад
4563 просмотра

Комментировать

Подписаться 8 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 315 просмотров
0

ответов
Telegram

+2 ещё

Простой
Почему на Fragment не получается залогиниться в Telegram?
- 2 подписчика
- 13 мая
- 635 просмотров
2

ответа
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 385 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 277 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
Показать ещё Загружается…

Answer 1 · 2013-07-23 23:10:22

На сколько я знаю абсолютно готовых реализаций нет.
Вы правильно написали, что можно работать без семантики(хотя с ней круче конечно).
Могу посоветовать только готовые библиотеки для кластеризации и машинного обучения. Например библиотека для python
В принципе задача не сложная, надо только правильно подготовить признаки.
И конечно, очень большая зависимость от корпуса для обучения. Мне кажется, что он должен быть достаточно крупным.

Алгоритмы и готовые реализации определения авторства по тексту?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт