Какие технологии использовать при написании парсера и анализатора поисковой выдачи?

Question

krll-k @krll-k

Парсинг

Какие технологии использовать при написании парсера и анализатора поисковой выдачи?

Есть поисковая выдача. Нужно регулярно проверять ее. Смотреть на каком месте ты в топе, кто твои конкурент и т.д.

Фреймоорк Codeception для приемочного тестирования вполне сгодиться для основы для парсера, к тому же существует реализация под node.js. Можно писать тесты, смотреть есть ли твой сайт на страницах гугла и яндекса вообще

Этап второй. Будет нужно как обрабатывать вывод. Поэтому потребуется База Данных. Так как платформа выбрана в виде node.js, то скорее всего это должна быть nosql база. Хорошим кандидатом станет rethinkdb, потому как mongadb болеет неизлечимыми болячками

Этап третий. Нельзя же парсить данные в один поток, нужно использовать сразу несколько воркеров, тут нам поможет сервер очередей rabbitmq или gearman

И наконец четвертый этап. Нужно как то дело все это деплоить, и запускать, и доводить до ума. Docker? Думаю что да. К тому же у rethinkdb и rabbitmq уже существует готовые образы, осталось написать образы к воркерам

Этап пятый. Глубокий анализ собранных данных. Нейронные сети

Вопрос задан более трёх лет назад
140 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 1 подписчик
- 13 авг.
- 181 просмотр
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 132 просмотра
0

ответов
Парсинг

Простой
Как или чем скачать закодированные изображения, под заглушкой?
- 1 подписчик
- 11 авг.
- 113 просмотров
2

ответа
Парсинг

+1 ещё

Средний
Есть ли бесплатная возможность получить исторические данные мемкоинов в Solana DEX?
- 1 подписчик
- 30 июл.
- 51 просмотр
0

ответов
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 216 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- 16 июл.
- 176 просмотров
3

ответа
Парсинг

+1 ещё

Простой
Datacol программа некоректно работает с прокси, вопрос почему?
- 1 подписчик
- 06 июл.
- 98 просмотров
0

ответов
Парсинг

+4 ещё

Простой
Как отловить фрейм с капчей?
- 1 подписчик
- 02 июл.
- 128 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как можно получить такой список ссылок?
- 1 подписчик
- 01 июл.
- 288 просмотров
0

ответов
Python

+1 ещё

Простой
Парсинг с помощью библиотеки requests для Python. Как указать параметр из API если в нем заключается недопустимое значение с точками?
- 1 подписчик
- 16 июн.
- 211 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

Phyton разработчик

Товеко

До 60 000 ₽

Go Developer (RnD)

AppMagic

До 5 000 $

Answer 1 · 2017-05-29 20:12:37

proxy , много-много, если вы о Гугле, это основное препятствие

базы обычно две - NoSQL для неструкрутированных данных (из печки которые), и MySQL / Postgre уже для исорического хранения
сейчас кое под что можно и Clickhouse

Какие технологии использовать при написании парсера и анализатора поисковой выдачи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт