Прошу прощения ща банальный вопрос, но ситуация странная и животрепещущая.
У меня на сайте есть разделы которые полностью открываются путем запроса к платному сторонему API, по статистике использования API запросов слишком много идет, вылазит за все доступные квоты и как следствие очень много ест денег. Я в админке поставил галочку Discourage search engines from indexing this site и в корне сайта закинул robots.txt User-agent: * Disallow: /, но запросы все идут даже прямо сейчас.
Я не веб разработчик, но парсить или использовать сайты в свою пользу через роботов умею. Пока что не встречал сайтов который 100% защищенный от роботов. Только не предсказуемые капча(как у Яндекса) может мешать роботам делать свою работу.
как раз статью читал про парсинг сайтов, я думаю наверное выходом будет оптимизировать расходы api путем сохранения данных в БД на какойто промежуток времени.
nonconformiste, Selenium-а даже Яндекс не считает ботом. Просто поставишь время следующего запроса по больше дело в шляпе. Иногда просить капчу тогда придется вводит в ручную. Пока не где не нашёл способ распознавание Яндекс капчу.