Тогда я бы отнес это скорее относится к извлечению информации. Нейронные сети тут вряд ли помогут, может достаточно правил на основе регулярных выражений?
Может это ограничение на сессию? Посмотрите, устанавливаются ли какие-либо куки, может их значения меняются с обходом сайта. Напишите мне сайт и что вы парсите в личку. Даже интересно как-то стало.
282, а не 200? Уже лучше… Просто Yandex не надо, лучше валидный, но дело не в нем.
CONCURRENT_ITEMS — макс число элементов, обрабатываемых в Item Pipeline (мне кажется, этот параметр на параллельные запросы не влияет),
CONCURRENT_REQUESTS_PER_SPIDER — макс число параллельных запросов каждого паука (поставьте 1), CONCURRENT_SPIDERS — макс число пауков (поставьте 1)