Есть много разных ботов, одни просто сканируют сайты для анализа посещаемости, чтобы потом составлять таблицу рейтинга, другие просто заносят информацию, что такой сайт есть, так же есть те, которые сохраняют странички типа webarchive, чтобы можно было просматривать изменения за 2-6 лет например. Так же кто то создает свои поисковики и заносит в базу существующие сайты.
Но так же встречал ботов, которые парсили страницы с уникальным контентом, чтобы размещать его у себя.
Они не опасны, просто собирают инфу.
Если данная ситуация напрягает, их всегда можно заблокировать, прописав в файле .httaccess правила
Например:
Где "^Baiduspider" - это название бота
SetEnvIfNoCase User-Agent "^Baiduspider" bad_bot
SetEnvIfNoCase User-Agent "^ia_archiver" bad_bot
SetEnvIfNoCase User-Agent "^priceg.com" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot