Спасибо всем, кто принимал участие. Конкретно вопрос, указанный в заглавии темы, решить не удалось, но это и понятно - от постраничной разбивки никуда не деться.
Выяснилось несколько любопытных деталей. Я писал, что канонические урлы работают, но это оказалось не так - сами по себе они уже есть в wp, но если использовать плагин (в моем случае all in one seo), то при активации канонических урлов непосредственно в плагине он прописывает в качестве канонического урла страницу с уже добавленной цифрой на конце. После отключения в коде - основная страница без цифр, а это значит, что проблем с индексацией быть не должно. Видимо, баг плагина или фишка, не знаю. Просто проверил еще раз. Сам виноват.
По поводу 404. Я не заметил, но после одного из последних обновлений wp наконец-то стал отдавать 404 ошибку, если после слеша ввести символы (но не цифры). Отличная новость, откровенно говоря.
Наконец, я узнал, откуда бот взял информацию о генерированных страницах - с gravatar.com. Могу сделать вывод, что этот замечательный сайт не только собирает информацию, но и хранит ее на своих серверах.