Правильно ли сделана архитектура системы для парсинга?

Question

vosyukov @vosyukov

Правильно ли сделана архитектура системы для парсинга?

Скрипт на питоне ходит по сайту и собирает ссылки, затем он отправляет их в Rabbitmq. Другие скрипты на питоне обращаются к очереди и парсят все нужные данные и помещают ее в монгу.

Собственно вопрос , можно ли в этой системе что то сделать лучше или можно использовать какие то другие инструменты?

Вопрос задан более трёх лет назад
366 просмотров

5 комментариев

Подписаться 1 Простой 5 комментариев

Dmitry Tallmange @p00h

Вас не устраивает скорость? Быстродействие?

Написано более трёх лет назад
d'Ivan @2ord

Вопрос: "нужно ли?". Поскольку если такая схема удовлетворяет, то зачем её менять?

Написано более трёх лет назад
vosyukov @vosyukov Автор вопроса

Dmitry Tallmange, все устраивает, просто у меня нет опыта и возможно есть более оптимальные решения

Написано более трёх лет назад
vosyukov @vosyukov Автор вопроса

Роман Мирр, да все устраивает, просто интересно узнать мнение тех у кого есть опыт

Написано более трёх лет назад
lega @lega

если rabbitmq только для этого, то его можно выбросить и хранить "задачи" для воркеров в монге (т.к. там все для этого есть)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 204 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 139 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 543 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 114 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 543 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 148 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 131 просмотр
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 571 просмотр
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Вас не устраивает скорость? Быстродействие?
Вопрос: "нужно ли?". Поскольку если такая схема удовлетворяет, то зачем её менять?
Dmitry Tallmange, все устраивает, просто у меня нет опыта и возможно есть более оптимальные решения
Роман Мирр, да все устраивает, просто интересно узнать мнение тех у кого есть опыт
если rabbitmq только для этого, то его можно выбросить и хранить "задачи" для воркеров в монге (т.к. там все для этого есть)

Answer 1 · 2017-12-29 13:16:04

d'Ivan @2ord

Нормальное решение. Идеальных решений не бывает.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-02-06 20:34:08

Нужно отдавать себе отчет, что сейчас много сайтов оживают только если включен JavaScript.
То есть спарзить на голом Python можно не все.
Для полноценного чтения информации с многих сайтов нужно что то вроде SimplerJS, PhantomJS, Selenium

Правильно ли сделана архитектура системы для парсинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт