Алгоритмы и готовые реализации определения авторства по тексту?

Неоднократно встречаются ситуации, когда необходимо определить авторов текстов и даже коротких сообщений в социальных сетях и форумах, которые активно или пассивно стараются скрыть себя за клонами (регистрируют несколько аккаунтов), кто то ради обычного троллинга, кто то ради повышения своей безопасности… это не важно.



Я знаю, что технологии и алгоритмы определения авторства существуют давно. Например один из дипломов в параллельном мне выпуске ВУЗ-а факультета IT-направленности успешно демонстрировали исследование какого-то алгоритма статистического анализа, работающего с текстами на 'низком' уровне, без семантики, таких как — количество запятых, расстояние между ними, количество слов в предложении и т.п. (там были десятки критериев).



Времени прошло достаточно, наверняка сейчас дело обстоит значительно лучше (или по крайней мере не хуже). Может кто посоветует готовые реализации, библиотеки,… интересует не сильно монструозные реализации… мне достаточно утилиты, которой можно скормить список текстов, а на выходе эти тексты должны быть сгрупированы в группы/кластеры 'похожести', будет достаточно, даже если это будет нечто многомерное/многокритериальное (кластеры по критериям или группам критериев), дальейшую работу с этими кластерами я смог бы провести и сам.



Цель, как я выше определил, поиск клонов, альтернативных регистраций людей, в т.ч. глобально в интернете (а не только в пределах одного форума).



Обновление: Похоже нашел сам.



Стилометрия, и соотв. софт для исползования. Почти первая же статья из гугла.
Для измерения приватности и безопасности исследователи создали 2 программы с открытым исходным кодом — одна из них Jstylo — распознаёт стиль пользователя. Вторая Anonymouth — используется для «анонимизации» письма путём предоставлению пользователю специфических предложений по смене стиля.




github.com/psal/JStylo-Anonymouth
  • Вопрос задан
  • 4522 просмотра
Пригласить эксперта
Ответы на вопрос 1
briskly
@briskly
На сколько я знаю абсолютно готовых реализаций нет.
Вы правильно написали, что можно работать без семантики(хотя с ней круче конечно).
Могу посоветовать только готовые библиотеки для кластеризации и машинного обучения. Например библиотека для python
В принципе задача не сложная, надо только правильно подготовить признаки.
И конечно, очень большая зависимость от корпуса для обучения. Мне кажется, что он должен быть достаточно крупным.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы