Какие есть сервисы семантического анализа двух текстов для оценки вероятности, что их написал один и тот же человек?
Есть два текста, допустим, на 5 000 - 10 000 знаков.
Ну и, собственно, сам вопрос в заголовке.
Цель - определять ботов/твинков/виртуалов именно по их текстам.
Подпишусь на вопрос, потому что сам бы не отказался от готового решения.
Авторство текста определяют не по одному тексту, а большому его объему... т.е. есть набор текста от человека, и еще один короткий, авторство которого нужно подтвердить.
Есть сервисы, которые этим занимаются на коммерческой основе с правами использовать результат анализа в юридической и судебной сфере.. но вот для обывателя я такое не нашел
Это сложно. И методов матчинга наверное очень много. Мне вспоминается сериал "Охота на унабомбера".
Вобщем там террорист был пойман по такой зацепке. Он по молодости создал студенческий
манифест, где написал пословицу с ошибкой. Впоследствии эта ошибка позволила профайлерам
ФБР найти соотвествие между посланиями анонимоса и этого студента.
Где-то видел исследования по авторству текстов на основе разного рода лексических анализов, которые появились задолго до нинешней моды на тяжёлые нейросети. Можно в них также повникать. Но даже они дают примерный результат с приличным риском ошибки.
Часто вопрос повторного аккаунта того же человека индивидуален, и его решают по эпизодическим обстоятельствам, автоматизировать это почти не имеет смысла - человек лучше понимает, что вот этот текст - он похож на другой предыдущий.
mayton2019, В моем представлении могу ошибаться, но учитывая, что сейчас сетки рисуют картины и делают короткометражки (пусть и из реальных моделей), задача сопоставления каких-либо текстовых сигнатур для них не должна быть чем-то сложным. Особенно, если речь о комментариях, о чем я не упомянул (my fault), пользователя.
Предположим пользователь несколько лет оставляет комментарии на некотором сайте. И имеет твинк, тоже для комментариев. Под одним из акков он имеет 5000 комментариев, а под другим - 400. Возможно, я искаженно мыслю, но внутренние ощущения такие, что для нейросетки оценить лексику и семантику этих двух наборов текстов двух акков не должно быть сильно ресурсоёмкой задачей.
brar, лет 20 назад на одной дипломной работе (случайно услышал), был как раз метод определения авторства текста, так вот алгоритм был примерно таким, исследователь придумывал разные численные признаки, типа количество знаков препинания, средняя длина педложения, соотношение гласных к согласным и прочий бред, десятки признаков. И уже эти признаки использовали для обучения то ли нейронки то ли чего то по проще. Поразительно что для определения авторства хватало именно таких абсурдных признаков, никак не связанных со смыслом.
brar, да. Я думаю что 5000 и 400 комментариев - нормалная выборка чтоб начать анализ.
По поводу 20 го века. Я помню очень шумная история с писателем Шолоховым и Солженицыным,
когда последний усомнился в авторстве Тихого Дона и утверждал что Шолохов не писал произведение.
Было несколько исследований на эту тему. Исследовали методами доступными тогда методами.
И авторство Шолохова было подтверждено. Но методы, понятное дело были более простые.
Я не уверен что использовали TF-IDF. Или векторизировали. Возможно даже литературные
критики и филологи садились и просто вычитывали текст и подсчитывали для себя какие-то
филологические формы.
mayton2019, К слову, Солженицын лишь успел поучаствовать в анти-шолоховской компании на Западе 70-х, которая в СССР была абсолютно не известна. А начало сомнений случилось внутри СССР, ещё в 20-х годах. Основной вывод тогда был, что маститые писатели позавидовали 22-летнему автору.
Скорее всего, Солженицым был просто самым известным, во всех смыслах, человеком, присоединившимся к очередной антисоветской компании, против Шолохова. Работа у него такая тогда была.
Сам не спец, но достаточно прочитать "Поднятую целину" (теперь это трудно себе представить, элементы того культурного контекста, для которого писался роман, искажены капитально), чтобы понять, - автор такого масштаба вполне мог написать (и написал) "Тихий Дон".