Когда мы делаем pooling - мы уменьшаем overfitting, увеличиваем receptive field и уменьшаем число необходимых вычислений и параметров.
В контексте данного вопроса нам важно, что увеличивается receptive field. Это означает, что фильтр 5*5 будет воздействовать на бОльшую область изображения (если у нас conv-pool-conv-pool, то на первом слое 5*5, на третьем 10*10 и так далее). Это позволяет относительно дешево получать фичи, описывающие большие области (детекторы линий -> детекторы частей объектов-> детекторы объектов).
Если бы у нас не было pooling, то пришлось бы от слоя к слою увеличивать размеры фильтров. А это очень плохо сказывается на числе параметров, а соответственно и глубине сети. Ну и overfitting был бы больше, так как чем больше деталей, тем легче для сети зацепиться за конкретную деталь, чтобы правильно классифицировать пример.