Какие технологии используются при WebScraping в режиме реального времени?
Допустим есть сайт агрегатор со строкой поиска, который возвращает результаты, согласно запросу пользователя, сщ 100 других сайтов. При этом запрос обрабатывается 3-4 секунды. Как это работает?
Я вижу вариант с ежедневным скрэпингом сайтов и сохранением результатов в БД. И затем запрос пользователя работает напрямую с БД.
Если запускать скрипт под каждый запрос и парсить в реальном времени, то в такое время явно не уложиться.
Какие еще есть варианты?
Как мне кажется, если тянуть данные из своей базы - 3-4 секунды слишком много.
А если параллельно отправить несколько запросов к API разных сайтов, то как раз так и получится.
Если говорим про scrapy, то можно использовать scrapyrt для подобного.