Откуда text.ru берет данные для проверки на плагиат?

Question

sokolnikov @sokolnikov

API

Откуда text.ru берет данные для проверки на плагиат?

Привет. У кого есть какие предположения откуда text.ru берет данные для проверки на плагиат? У них есть какой-то более быстрый источник данных чем поисковая выдача.
Например, я на одном из сайтов добавил уникальный текстовый контент, и буквально через минуту он (контент) уже был обнаружен и проанализирован алгоритмом text.ru. А появления этого контента в поисковой выдаче яндекса и гугла еще надо ждать не одну неделю.

Вопрос задан более трёх лет назад
1851 просмотр

16 комментариев

Подписаться 10 Оценить 16 комментариев

xmoonlight @xmoonlight

1. А как Вы это определили?
2. В логе было обращение к Вашему веб-серверу от краулера text.ru?

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

Лог не проверял.
Я проверял текст на уникальность на text.ru, он был 100% уникальный, потом сохранил его на сайте, и проверил уникальность еще раз. На этот раз text.ru сказал, что уникальность 0% и выдал ссылку на только что сохраненную мной страницу моего сайта.

Написано более трёх лет назад
sim3x @sim3x

sokolnikov:
Что такое
только что сохраненную
в секундах?

Написано более трёх лет назад
Станислав @stanislav-belichenko

А появления этого контента в поисковой выдаче яндекса и гугла еще надо ждать не одну неделю.

Ошибочное мнение. Пересчет индекса поисковиков - да, не сразу происходит практически всегда. Попадание в индекс - другая история.

Написано более трёх лет назад
xmoonlight @xmoonlight

sokolnikov:
потом сохранил его на сайте, и проверил уникальность еще раз.
повторная проверка шла через URL вашего сайта?

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

sim3x: 20-30 cекунд

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

xmoonlight: нет, просто проверку текста на уникальность делал.

Написано более трёх лет назад
Wexter @Wexter

sokolnikov: т.е вас не смутило что вы отдали текст им, а потом проверили ещё раз?

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

Wexter: я отдал им текст, а не ссылку на текст. У меня вопрос именно в том, как они так быстро нашли этот текст на только что опубликованной странице.

Написано более трёх лет назад
xmoonlight @xmoonlight

sokolnikov: значит вы дали сайту text.ru два раза текст напрямую из буфера. А что Вы выложили этот текст на своём сайте - text.ru и понятия об этом не имеет.
В итоге - он просто хэш шингл/триграмм построил и записал в базу.
Вот и вся магия.

Написано более трёх лет назад
xmoonlight @xmoonlight

sokolnikov: А Вы счётчик уникальности от text.ru - ставили на сайт?

Написано более трёх лет назад
Wexter @Wexter

sokolnikov: мне кажется им пофигу на то что он где-то опубликован, этот текст вбили у них на проверку и они его запомнили. ваш сайт они даже не открывали для этого
попробуйте вбить новый текст, которому он укажет 100% уникальности, а затем прогоните ещё раз, не публикуя нигде. скорее всего он покажет 0%, ибо запомнил его

Написано более трёх лет назад
xmoonlight @xmoonlight

sokolnikov:
У меня вопрос именно в том, как они так быстро нашли этот текст на только что опубликованной странице.

1. Вам прям линк показали или как?
2. Вы счётчик уникальности от text.ru - ставили на сайт?

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

xmoonlight: 1. да
2. нет

Написано более трёх лет назад
sokolnikov @sokolnikov Автор вопроса

Ладно, решил провести еще несколько экспериментов. Прогоню еще несколько текстов, постараюсь сделать наблюдения.

Написано более трёх лет назад
xmoonlight @xmoonlight

sokolnikov: что-нить удалось выяснить эксперементами?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

API

+1 ещё

Простой
Законно ли получение данных через API школьного портала, если я обычная студентка?
- 1 подписчик
- 26 окт.
- 424 просмотра
2

ответа
API

Простой
API Avito передача x-avito-messenger-signature в Webhook по какому алгоритму?
- 1 подписчик
- 20 окт.
- 122 просмотра
1

ответ
API

Простой
На каком языке лучше писать api (читайте описание)?
- 1 подписчик
- 17 окт.
- 285 просмотров
2

ответа
PHP

+2 ещё

Простой
Как проще отправить изображение на стену канала?
- 1 подписчик
- 15 окт.
- 169 просмотров
1

ответ
PHP

+2 ещё

Средний
PHP может выполнять функцию прокси curl запросов? Например между 1C и Битрикс24?
- 1 подписчик
- 02 окт.
- 180 просмотров
1

ответ
API

Простой
Почему токен (токен свежий и активен на сайте) воспринимается как невалидный в API crm «Мой класс»?
- 1 подписчик
- 28 сент.
- 100 просмотров
1

ответ
API

+1 ещё

Простой
Как проверять подписку на аккаунт в X (Twitter) по API?
- 1 подписчик
- 23 сент.
- 69 просмотров
0

ответов
API

+1 ещё

Средний
Как получить аудиофайл визита из сделки облачного Битрикс24?
- 1 подписчик
- 12 сент.
- 116 просмотров
0

ответов
API

Простой
Как проверить метод POST при тестировании API?
- 3 подписчика
- 07 сент.
- 222 просмотра
3

ответа
API

+1 ещё

Простой
Автоматизация POST запроса и расшифровка base64 в zabbix?
- 1 подписчик
- 26 авг.
- 105 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

1. А как Вы это определили?
2. В логе было обращение к Вашему веб-серверу от краулера text.ru?
Лог не проверял.
Я проверял текст на уникальность на text.ru, он был 100% уникальный, потом сохранил его на сайте, и проверил уникальность еще раз. На этот раз text.ru сказал, что уникальность 0% и выдал ссылку на только что сохраненную мной страницу моего сайта.
sokolnikov:
Что такое
только что сохраненную
в секундах?
А появления этого контента в поисковой выдаче яндекса и гугла еще надо ждать не одну неделю.

Ошибочное мнение. Пересчет индекса поисковиков - да, не сразу происходит практически всегда. Попадание в индекс - другая история.
sokolnikov:
потом сохранил его на сайте, и проверил уникальность еще раз.
повторная проверка шла через URL вашего сайта?
xmoonlight: нет, просто проверку текста на уникальность делал.
sokolnikov: т.е вас не смутило что вы отдали текст им, а потом проверили ещё раз?
Wexter: я отдал им текст, а не ссылку на текст. У меня вопрос именно в том, как они так быстро нашли этот текст на только что опубликованной странице.
sokolnikov: значит вы дали сайту text.ru два раза текст напрямую из буфера. А что Вы выложили этот текст на своём сайте - text.ru и понятия об этом не имеет.
В итоге - он просто хэш шингл/триграмм построил и записал в базу.
Вот и вся магия.
sokolnikov: А Вы счётчик уникальности от text.ru - ставили на сайт?
sokolnikov: мне кажется им пофигу на то что он где-то опубликован, этот текст вбили у них на проверку и они его запомнили. ваш сайт они даже не открывали для этого
попробуйте вбить новый текст, которому он укажет 100% уникальности, а затем прогоните ещё раз, не публикуя нигде. скорее всего он покажет 0%, ибо запомнил его
sokolnikov:
У меня вопрос именно в том, как они так быстро нашли этот текст на только что опубликованной странице.

1. Вам прям линк показали или как?
2. Вы счётчик уникальности от text.ru - ставили на сайт?
Ладно, решил провести еще несколько экспериментов. Прогоню еще несколько текстов, постараюсь сделать наблюдения.
sokolnikov: что-нить удалось выяснить эксперементами?

Answer 1 · 2017-07-24 20:26:30

Скорее всего, там классический "накопительный" подход бигдаты. Асинхронно в бэкграунде идёт парсинг данных из сети, это позволяет всегда держать данные актуальными и динамически её пополнять. Затем формируются метаданные для быстрого анализа, они уже и хранятся в базе сервиса. Затем, когда Вы уже непосредственно ввели текст и отправили на валидацию, идёт анализ сопоставлений с помощью нечёткого поиска или других оптимизированных алгоритмов работы с текстом, сопоставляются метаданные и выдаётся результат. Конечно, я могу и ошибаться, но если бы мне нужно было реализовать подобное решение, то принцип работы у него был бы схож с вышеописанным.

Answer 2 · 2017-07-24 21:13:06

ха-ха, все неизведанное нам кажется чудесным

секрета никакого нет: поисковики

появления этого контента в поисковой выдаче яндекса и гугла еще надо ждать не одну неделю.

, а в duckduckgo можно и не ждать

разумеется, text.ru держит нос по ветру и пасет остальные биржи ( быстро выложил, быстро проиграл (с)), но чуСед никаких нет, есть просто что-то вам непривычное

это очевидно при проверке текста, например, с разных ИП

Откуда text.ru берет данные для проверки на плагиат?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт