Как уникализировать текст и при этом не потерять читабельность (программкой)?
У меня есть текст :
При создании генератора мы использовали небезызвестный универсальный код речей. Текст генерируется абзацами случайным образом от двух до десяти предложений в абзаце, что позволяет сделать текст более привлекательным и живым для визуально-слухового восприятия.
И мне нужно его уникализировать (сделать более уникальным путем замен слов), но нужно в это же время сохранить читабельность (чтобы текст был связный)
Кирилл Плотников: В середине нулевых годов эта тема была актуальна какое-то время. Был огромный ажиотаж среди SEO-шников, схема (теоретически) позволяла получать почти неограниченные объемы поискового трафика при почти нулевых вложениях. Но поисковики быстро поумнели, научились распознавать такие "уникальные" тексты и эта лавочка прикрылась.
Кирилл Плотников: Много воды утекло...сейчас даже какие-то ссылки нарыть трудно. Ищите по запросу "дорген", самые мощные из них часто со встроенными уникализаторами шли. Но те, что попадали в общий доступ, также шли со встроенными троянами и вирусами, такая защита от копирования по-русски.
Кирилл Плотников: Читабельность самих генерируемых текстов у разных поколениях доргенов была разной они эволюционировали вместе с эволюцией алгоритмов поисковиков. Самые первые примитивные образцы могли просто перемешивать слова, говорят Яндекс даже это когда-то индексировал, потом пошли более аккуратные синонимайзеры, заменяющие слова/словосочетания на аналогичные по смыслу. В некоторых поздних разработках был даже какой-то ИИ, тексты стали почти неотличимы от написанных человеком, но вместе с тем сильно понизилась их уникальность относительно исходного текста (поисковики были уже достаточно умны чтобы отлавливать грубые поделки, но еще не достаточно смелы чтобы жестоко карать за малейшее подозрение на плагиат). Потом тема прикрылось окончательно. Но уже после этого, совсем недавно я видел доры на первых строках выдачи русскоязычного Гугла по каким-то низкочастотным запросам. Доры нечеловекочитаемые, сделаны очень грубо, как в старые времена. Видимо, эксплойт на какой-то баг в алгоритме ранжирования, не иначе.
Кирилл Плотников: Вы задаете вопросы про технологии, которая уже несколько лет как не работает. Не эффективная.
В году 2006 на этом можно было поднять огромные деньги. Примерно с 2006 года поисковики активно борятся против информационного мусора. И к нынешнему времени достигли больших успехов.
Статьи про то как на этом заработать - остались в интернете, но статьи эти уже не соответствуют действительности.
abcyu: Я интересуюсь не сколько заработком на этой теме. Мне больше интересно, как это можно реализовать самому при помощи php или других языков. Интересен синтаксис (этапы).
Кирилл Плотников: Для создания собственного алгоритма нужно хорошо разбираться в компьютероной лингвистики. Уникализатор предполагает: 1) лингвистический разбор текста 2) выделение конструкций, замена которых возможна; 3) получение некоторых формальных (не текстовых) характеристик, предполагаемых к замене, словосочетаний; 4) поиск в индексе по минимальному расстоянию между значениями соответствующих характеристик (построение этого индекса огромная отдельная тема); 5) если подходящая фраза найдена (расстояние не более заданной константы), то согласование ее с окружающим контекстом и подстановка на место оригинальной.
У меня есть текст :
При создании генератора мы использовали небезызвестный универсальный код речей. Текст генерируется абзацами случайным образом от двух до десяти предложений в абзаце, что позволяет сделать текст более привлекательным и живым для визуально-слухового восприятия.
И мне нужно его уникализировать (сделать более уникальным путем замен слов), но нужно в это же время сохранить читабельность (чтобы текст был связный)