Какие технологии использовать при написании парсера и анализатора поисковой выдачи?
Есть поисковая выдача. Нужно регулярно проверять ее. Смотреть на каком месте ты в топе, кто твои конкурент и т.д.
Фреймоорк Codeception для приемочного тестирования вполне сгодиться для основы для парсера, к тому же существует реализация под node.js. Можно писать тесты, смотреть есть ли твой сайт на страницах гугла и яндекса вообще
Этап второй. Будет нужно как обрабатывать вывод. Поэтому потребуется База Данных. Так как платформа выбрана в виде node.js, то скорее всего это должна быть nosql база. Хорошим кандидатом станет rethinkdb, потому как mongadb болеет неизлечимыми болячками
Этап третий. Нельзя же парсить данные в один поток, нужно использовать сразу несколько воркеров, тут нам поможет сервер очередей rabbitmq или gearman
И наконец четвертый этап. Нужно как то дело все это деплоить, и запускать, и доводить до ума. Docker? Думаю что да. К тому же у rethinkdb и rabbitmq уже существует готовые образы, осталось написать образы к воркерам
Этап пятый. Глубокий анализ собранных данных. Нейронные сети
proxy , много-много, если вы о Гугле, это основное препятствие
базы обычно две - NoSQL для неструкрутированных данных (из печки которые), и MySQL / Postgre уже для исорического хранения
сейчас кое под что можно и Clickhouse