@AlexeyFuture

Как найти все страницы с дублированным контентом?

Подскажите такой вопрос, есть сайт с огромным количеством статей, работает он с 2021 года, и на нём есть страницы с дублированным пару нашел в процессе обработки 301 и 404 страниц, но хотелось бы найти все страницы с конетном - дублями, может есть какой парсер для этого?)
Вручную это невозможно сделать, там 40к страниц, единственное, не пробовал программы по типу кричащей сео лягушки или netpeak spider, очень сложный процесс, чтобы мне поставили его сисы((((
  • Вопрос задан
  • 75 просмотров
Решения вопроса 2
dimonchik2013
@dimonchik2013
non progredi est regredi
если не хочешь screamingfrog и подобные сервисы - пиши самопис спайдер

проще всего - если там CMS - вытащить все из базы и сравнить текстовым поиском / векторной близостью в postgresql

или соспайдить и тоже сравнить, но придется в базу загонять
Ответ написан
Комментировать
an-tar
@an-tar Куратор тега MODX
Full stack web developer
используйте соответствующие сервисы типа Ahrefs, Semrush, Serpstat и т.п.

Google Search Console после индексации может показать дубли.
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 2
vpetrov
@vpetrov
частный SEO-специалист, textarget.ru
Screaming Frof SEO Spider, как уже отметили выше, наотличненько находит не только полные, но и частичные дубли. Можно задать порог сходства, по умолчанию - от 90%.
Ответ написан
Комментировать
@systembro
Google Search Console вполне ок для начала, но лучше для гарантии прикупить SEO Spider или Ahrefs, тогда будет меньше боязни найти что-то подозрительное через какое-то время
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы