Здравствуйте, собственно, вопрос описан в сабже, вот robots.txt:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-content/
Disallow: /tag/
Disallow: /category/
Disallow: /archive/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /%D1%81%D0%B5%D0%BA%D1%80%D0%B5%D1%82%D1%8B-%D1%81%D1%82%D0%B8%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9-%D1%81%D0%B2%D0%B0%D0%B4%D1%8C%D0%B1%D1%8B/
интересует последняя ссылка, запрещена ли она? Я проверяю так:
wget --user-agent="Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots" http://mydomain.com/%D1%81%D0%B5%D0%BA%D1%80%D0%B5%D1%82%D1%8B-%D1%81%D1%82%D0%B8%D0%BB%D1%8C%D0%BD%D0%BE%D0%B9-%D1%81%D0%B2%D0%B0%D0%B4%D1%8C%D0%B1%D1%8B
В итоге скачивается содержимое страницы, а оно, по идее, закрыто в robots.txt
Или так я не проверю, потому что поисковики сами сначала читают robots.txt?