Кратко - никак, подробнее ниже.
Для запрета сканирования краулерами обычно используют robots.txt,
например такойUser-agent: Googlebot
Allow: /
User-agent: Yandex
Allow: /
User-agent: *
Disallow: /
Подробные списки юзерагентов:
google и
yandex.
Но robots.txt - это лишь предупреждение, поэтому какие-нибудь SEO-боты попросту его проигнорируют.
Теперь по поводу .htaccess: вебсервер при обработке запросов может ориентироваться только на то, что ему пришлют в заголовках. Любой бот может прислать в User-agent что-угодно, поэтому не получится отличить их от обычного пользователя.
Да, есть проекты
типа такого, которые обновляют базы определения "плохих ботов". Если это вам и правда надо - изучайте.