Я думаю, спамерские базы стоят денег, но не все готовы платить. Поэтому окажется вряд ли в большинстве баз.
Если есть технические средства для отсечения большинства роботов, они должны быть использованы.
FoxInSox: Гм. ) Но робота это не остановит. Ему неважно на каком ресурсе тусуюутся школьники. Он просто занесёт вас в свою БД и будет слать вам кучу спама.
Любой робот не сможет обойти обфускацию одновременно JS и CSS, ибо для преодоления задачи ему понадобится стать браузером.
"mailto:" и любые другие вещи отлично манипулируются на уровне DOM.
Любопытная задача. А имеется ли достаточно большая выборка объявлений, для сравнения разброса?
Из текста (человеком) можно извлечь: действие, наименование, состояние/свойства, цена, контакты.
Александр Петров: пробовал ли отправлять письма с sendmail? Может, sendmail не настроен?
Я обычно использую метод :smtp для отправки и указываю порт 1025 для получения почты веб-клиентом MailCatcher.