@krll-k

Какие технологии использовать при написании парсера и анализатора поисковой выдачи?

Есть поисковая выдача. Нужно регулярно проверять ее. Смотреть на каком месте ты в топе, кто твои конкурент и т.д.

Фреймоорк Codeception для приемочного тестирования вполне сгодиться для основы для парсера, к тому же существует реализация под node.js. Можно писать тесты, смотреть есть ли твой сайт на страницах гугла и яндекса вообще

Этап второй. Будет нужно как обрабатывать вывод. Поэтому потребуется База Данных. Так как платформа выбрана в виде node.js, то скорее всего это должна быть nosql база. Хорошим кандидатом станет rethinkdb, потому как mongadb болеет неизлечимыми болячками

Этап третий. Нельзя же парсить данные в один поток, нужно использовать сразу несколько воркеров, тут нам поможет сервер очередей rabbitmq или gearman

И наконец четвертый этап. Нужно как то дело все это деплоить, и запускать, и доводить до ума. Docker? Думаю что да. К тому же у rethinkdb и rabbitmq уже существует готовые образы, осталось написать образы к воркерам

Этап пятый. Глубокий анализ собранных данных. Нейронные сети
  • Вопрос задан
  • 139 просмотров
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
proxy , много-много, если вы о Гугле, это основное препятствие

базы обычно две - NoSQL для неструкрутированных данных (из печки которые), и MySQL / Postgre уже для исорического хранения
сейчас кое под что можно и Clickhouse
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы