Какую библиотеку использовать для парсинга большого количества страниц?
Пробовал разные - aiohttp+asyncio+bs4 / grequests+bs4 / requests+bs4 / multiprocessing+requests+bs4 / multithreads+requests+bs4.
Сейчас появилась задача спарсить данные с 2млн+ страниц, и вот не знаю, что справится с задачей быстрее и качественнее.
Также хотелось бы услышать комментарии по поводу Scrapy - скорость/удобство
Вы бы определились - с чем именно проблемы могут возникнуть в вашем случае.
Толку от быстрой библиотеки парсинга страницы не будет если сайт вам страницу полминуты отдавать будет...
Толку от обычного подхода парсинга не будет, если страницу для получения данных на стороне броузера рендерить надо будет или какие-то действия выполнять.
Толку от большого количества запросов в единицу времени не будет, - если сервер будет в бан отправлять за частые запросы.
Ну и т.п.... Так что правильно вам говорят - беритесь уже хоть за что нибудь, да решайте проблемы по мере поступления.