Проблема с файлом robots.txt в Google Search Console. Откуда он его берет?

Question

JonMongol @JonMongol

robots.txt

Проблема с файлом robots.txt в Google Search Console. Откуда он его берет?

Помогите пожалуйста. Есть сайт legendtour.mn все было нормально, но вдруг заметил ошибку при индексировании, что стали появляться файлы запрещенные к индексировани. в фале robots.txt через панель Google Search Console смотрю файл robots.txt Но это не мой файл.
там стоит полностью запрет на обход сайта
User-Agent: Yandex
Disallow: /
Host: www.hoster.ru
User-Agent: Googlebot
Disallow: /
User-Agent: *
Disallow: /

Причем если нажать на ссылку "открыть опубликованный файл" то открывается нормальный файл.
Сейчас он выглядет так
User-agent: *
Allow: /
Я удалили все правила, оставил только вот это.
Но гугл при каждом переобходе находит предыдущий текст.
Я уже удалял полностью свой файл на сутки. Но гугл все равно его откудато берет.
В панеле Яндекса все нормально! Он видит мой файл, индексация есть.
Что делать? Сайт уже двое суток не появляется в поиске!
Скриншот моего файла robots.txt

Скрин панели управления

Вопрос задан более года назад
516 просмотров

Комментировать

Подписаться 1 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

JonMongol @JonMongol Автор вопроса

Большое спасибо, что обратили внимание на тему.
В сети я встречал еще пару раз такие случаи, но никто толком ничего не решил.

1. Настроил редиректы. Да у меня там был беспорядок.
2. Главное зеркало https://legendtour.ru/
3. С форматированием боролся, но не поборолся.
Да файл выглядет как вы показали.
Но если смотреть код страницы
то выглядет нормально.

User-agent: *
Disallow: /404.php
Disallow: *?*
Disallow: *menu*.shtml
Disallow: /bot.shtml
Disallow: /?*
Disallow: *rmp.shtml
Disallow: */txt1.shtml
Disallow: */txt2.shtml
Disallow: */foto.shtml
Disallow: */1.gif
Disallow: */2.gif
Disallow: */top.jpg
Disallow: */top0.jpg
Disallow: */top1.jpg
Disallow: */top2.jpg
Disallow: /eng/
Disallow: /rus/train-ticket/
Disallow: /rus/russia/trans-siberian-railway/
Disallow: /rus/mongolia/auto/
Disallow: /rus/mongolia/fishing/
Disallow: /rus/mongolia/text/
Disallow: /rus/mongolia/informations/
Disallow: /rus/mongolia/ub/
Disallow: /rus/mongolia/ulaanbaatar/
Disallow: /rus/mongolia/tour/index.shtml
Disallow: /rus/mongolia/pictures/foto.shtml
Disallow: /forum/
Disallow: /mongolia/fishing/
Disallow: /mongolia/regions/
Disallow: /mongolia/history/
Sitemap: https://legendtour.ru/sitemap_ru.xml

Это связано с тем что у меня на самом деле файл robors.php И в зависимости от того какой домен обращается к нему формируется свой файл. В файле .htaccess у меня стоит перенаправление с robots.txt на robots.php ( у меня двухязычный сайт русский и анлийская версии. В связи с обстановкой в мире решили сделать 2 разных сайта, т.к. иностранцы сайт в домене РУ воспринимают ненормально. Но у меня на сайте много фоток, более 4000 мегабайт, лежащих в общей папке для двух сайтов). Поэтому так и сделано.
4. Да в Гугле он частично проиндексирован. Но сейчас я на переобход не могу отправить ни одну страницу. Т.к. сразу выскакивает ошибка, что страница запрещена к индексированию в фале robots.txt
И в гугловской консоле в разделе сайтмэпс, стоит пометка файл не получен. Ошибка: При попытке скачать ваш файл Sitemap произошла ошибка. Убедитесь, что он находится по указанному адресу и роботам Google не запрещен доступ к этому файлу. Пробую проверить файл. Гугл отвечает, что данный файл заблокирован в файле robots.txt
5. Еще один симптом. Панель управления Микрософт Bing. При сканировании сайта Ошибка Bingbot IP заблокирован. Сайт заблокировал обход BingBot. (Это если стоит галочка, что не учитывать запреты в robots. Если не ставить, то сайт вообще не сканируется (только начальная страница и все).

Написано более года назад
JonMongol @JonMongol Автор вопроса

Форматирование тоже победил.
В php файле указал явно кодировку.
<?php
header('Content-Type: text/plain; charset=utf-8');
?>
И вывод стал нормальным.
https://legendtour.ru/robots.txt

Написано более года назад

6 комментариев

JonMongol @JonMongol Автор вопроса

Подскажите у вас случайно хостер не hts.ru а то у меня смутные сомнения, что может какой то IP где то заблокирован. Или не заблокирован, а вот этот robots.txt как то связан с IP адресом сайта. Сейчас хочу попробовать подкупить выделенный IP. Посмотрим может это поможет.

Написано более года назад
DemonF @DemonF

JonMongol, да, hts у меня хостер. У меня два сайта у них висит. И на обоих эта ситуация. 1 сайт на ВордПресс, второй на html 10 страничник. Отпишитесь, пожалуйста, по итогу.

Написано более года назад
JonMongol @JonMongol Автор вопроса

Напишите пожалуйста свои сайты. Буду опять жаловаться хостеру. Я уже пару раз им писал. Но отписываются что все нормально. Пусть ищут. И напишите IP своих сайтов (можно посмтреть в панеле управления). У меня заканчиваютсмя на ххх.ххх.50.145 Если сидят еще и на одном айпишнике!

Написано более года назад
DemonF @DemonF

JonMongol, helpadmins.ru и gomel-comp.by. ip - xx.110.50.145

Написано более года назад
JonMongol @JonMongol Автор вопроса

Проверяйте! Похоже хостер решил проблему! Может напишет, что было - сообщу.!!!

Написано более года назад
JonMongol @JonMongol Автор вопроса

Была произведена автоматическая блокировка IP-адресов Google из-за чрезмерного количества одновременных запросов к одному из сайтов. Аналогичные блокировки производятся в процессе фильтрации трафика для первичной защиты от DDOS-атак.
Сейчас IP-адреса внесены в белый список.

Написано более года назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

htaccess

+2 ещё

Простой
Вебмастер: Страницы-дубли с GET-параметрами?
- 1 подписчик
- 27 мар.
- 233 просмотра
4

ответа
Поисковая оптимизация

+3 ещё

Простой
Какой путь исправления проблемы (sitemap.xml с дублями) для Яндекс поиска правильнее?
- 1 подписчик
- 27 февр.
- 166 просмотров
5

ответов
WordPress

+2 ещё

Простой
Как закрыть индексацию корзины в Wordpress?
- 1 подписчик
- более года назад
- 272 просмотра
1

ответ
robots.txt

Простой
Как запретить в robots.txt параметры с #?
- 1 подписчик
- более года назад
- 67 просмотров
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Как скрыть от ботов-поисковиков алиас сайта с помощью robots.txt?
- 1 подписчик
- более года назад
- 79 просмотров
2

ответа
Windows

+3 ещё

Простой
При открывании csv файла в формате .txt появляются символы ("" и ;) как можно открыть csv файл без символов; и «»?
- 1 подписчик
- более года назад
- 190 просмотров
0

ответов
robots.txt

Простой
Можно ли ограничить в robots.txt страницы с символами в конце?
- 1 подписчик
- более года назад
- 71 просмотр
0

ответов
Google

+1 ещё

Средний
Почему google не видит robots.txt?
- 2 подписчика
- более года назад
- 498 просмотров
2

ответа
Поисковая оптимизация

+2 ещё

Простой
Как частично закрыть от индекса /xfsearch/?
- 1 подписчик
- более года назад
- 79 просмотров
1

ответ
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Project менеджер / Менеджер проекта

W3Promo • Москва

от 60 000 до 100 000 ₽

Answer 1 · 2024-05-19 20:47:41

Настройте редиректы на главное зеркало, сейчас все зеркала отдают 200.
Во-вторых, у вас robots.txt выглядит вот так:
User-agent: * Disallow: *.epub Disallow: *.djvu Disallow: /404.php Disallow: *?* Disallow: *menu*.shtml Disallow: /bot.shtml Disallow: /?* Disallow: *rmp.shtml Disallow: *txt1.shtml Disallow: *txt2.shtml Disallow: /rus/ Disallow: /eng/train-ticket/ Disallow: /eng/russia/trans-siberian-railway/ Disallow: /eng/mongolia/fishing/ Disallow: /eng/mongolia/text/ Disallow: /eng/mongolia/informations/ Disallow: /eng/mongolia/ub/ Disallow: /eng/mongolia/ulaanbaatar/ Disallow: /forum/ Disallow: /eng/mongolia/tour/index.shtml Disallow: /eng/mongolia/pictures/foto.shtml Sitemap: https://legendtour.mn/sitemap_mn.xml
Почему сайтмап указывает на неглавное зеркало? Что с форматированием?
Ну и в третьих - всё в порядке с индексом в Гугле, что значит не появляется в поиске?

Answer 2 · 2024-05-20 13:24:08

Присоединяюсь к вопросу. У меня аналогичная ситуация с сайтом https://helpadmins.ru/. Файл Robots в консоли гугл отображается как:

User-Agent: Yandex
Disallow: /
Host: www.hoster.ru

User-Agent: Googlebot
Disallow: /

User-Agent: *
Disallow: /

Хотя в реальности этот файл другой: https://helpadmins.ru/robots.txt.

Что происходит с гуглом?

Answer 3 · 2024-05-24 13:29:15

Написал в службу поддержки хостера:
Здравствуйте уважаемые товрищи.
Свою проблему так и не решил - обращаюсь опять.
Как говорят врачи - появился новый симптом.

Как писал в предыдущих обращениях в панели Google Search Console
Гугл откудато вытаскивает левый файл robots.txt
Вот такого вида.
-----------------------------------------------------
User-Agent: Yandex
Disallow: /
Host: www.hoster.ru

User-Agent: Googlebot
Disallow: /

User-Agent: *
Disallow: /
-------------------------------------------------------

Понятно, что в этом файле запрещена индексация всего сайта!!!
Но на моих сайтах
https://legendtour.ru/robots.txt
https://legendtour.mn/robots.txt

Если смотреть по ссылке совершенно другие записи!
Бьюсь с этим уже 10 дней!!!

Попросил помощи в решении вопроса на Хабре Проблема с файлом robots.txt в Google Search Console. Откуда он его берет?

Но на днях поступило сообщение от человека у которго аналогичная проблема.
Тот же самый левый файл robots.txt
Это человек - то же ваш клиент!!!!
helpadmins.ru
gomel-comp.by
Файлы у него расположены на том же сервере что и у меня!
IP адрес хх.110.50.145

Простите это совпадение?
Я не понимаю, что происходит.
Может у вас где-то выше корня моего сайта лежит этот файл robots.txt
Который хватает бот Гугла????

Может это айпишник где-то у гугла засветился?
Но я понимаю если бы его забанили, внесли в черный список.
Но нет - такого нет. Просто появляется долбанный robots.txt

Проверил еще сайты расположенные у вас под моим управлением:
interpol.ru
хх.110.50.117
С файлом robots.txt все ок. Он судя по айпишнику на другом сервере.
liepa.ru
хх.110.50.121
С файлом robots.txt все ок. Он судя по айпишнику также на другом сервере.

Попробовал для сайта interpol.ru
скопировал на него файлы
.htacces и robots.txt со своего сайта.
все прошло без проблем!
Google Search Console сразу в течении минуты цепляет новый файл и показывает его правильно!
Т.е. в моих файлах нет ошибок!!!

Да и дополнительно. Тоже симптом.
Когда я в Google Search Console отправляю на переобход файл robots.txt с домена legendtour.ru или legendtour.mn
Переобходи идет до нескольких дней!!!!
А другие сайты interpol.ru или liepa.ru МИНУТЫ!!!!!
Хотя я подозреваю тут играет роль и левый robots.txt
Если там все запрещено!

Вопрос - ВЫ МОЖЕТЕ СМЕНИТЬ ip ВСЕГО БЕСПЛАТНОГО СЕРВЕРА???
Или поискать может у вас где-то в настройках ВАШЕГО сервера с этим IP сидит вышеуказанный файл robots.txt

ПРОБЛЕМА РЕШЕНА!
Была произведена автоматическая блокировка IP-адресов Google из-за чрезмерного количества одновременных запросов к одному из сайтов. Аналогичные блокировки производятся в процессе фильтрации трафика для первичной защиты от DDOS-атак. Сейчас IP-адреса внесены в белый список.

Проблема с файлом robots.txt в Google Search Console. Откуда он его берет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт