Какая инфраструктура должна быть для 24/7 парсера обновляющего БД?

Question

guruloz @guruloz

Какая инфраструктура должна быть для 24/7 парсера обновляющего БД?

Привет мастера.
Есть парсер, которые постоянно висит и делает много запросов на curl, плотно работая с БД. Проверка на существования сущности в БД, добавление данных, обновление и т.д.
Проблема в том, что из-за большого количества запросов запросы к АПИ сильно тормозят, пока парсер работает. Как построить архитектуру, чтобы всем было комфортно: и скорость АПИ и регулярность обновлений данных?
Решит ли проблему мастер-слейв связка? И где можно почитать про подобную инфраструктуру, для больших сайтов-парсеров, краулеров, в большим количеством данных.

Вопрос задан более трёх лет назад
351 просмотр

4 комментария

Подписаться 4 Простой 4 комментария

Илья @New_Horizons

конкретизируйте понятие "много"

Написано более трёх лет назад
Сергей Соколов @sergiks

таки что именно тормозит, в первую очередь? Запросы на вставку в огромные индексы?
Может, MySQL не оптимальное хранилище для этих данных, а больше подойдёт key-value или файловая система?

Написано более трёх лет назад
Ромзес Панагиотис @romesses

Сергей Соколов,

Может, MySQL не оптимальное хранилище для этих данных, а больше подойдёт key-value или файловая система?

Это вряд ли. СУБД еще нужно уметь правильно пользоваться. Сомневаюсь, что это случай для автора.
Файловая система тоже ограничена. Тем же количеством открытых файловых дескрипторов. Да и блокировки при обновлении тоже надо самому разруливать во избежание состояния гонки.

Написано более трёх лет назад
Сергей Соколов @sergiks

Ромзес Панагиотис, может какой-то специфичный парсинг не текстовых данных, а к примеру, больших наборов int id. Хранить каждый id строкой в БД крайне неэффективно и альтренатива – сортированные наборы писать бинарными файлами прямо на диск.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 120 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 99 просмотров
2

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 209 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 191 просмотр
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 235 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 127 просмотров
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 177 просмотров
4

ответа
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 215 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 558 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

таки что именно тормозит, в первую очередь? Запросы на вставку в огромные индексы?
Может, MySQL не оптимальное хранилище для этих данных, а больше подойдёт key-value или файловая система?
Сергей Соколов,

Может, MySQL не оптимальное хранилище для этих данных, а больше подойдёт key-value или файловая система?

Это вряд ли. СУБД еще нужно уметь правильно пользоваться. Сомневаюсь, что это случай для автора.
Файловая система тоже ограничена. Тем же количеством открытых файловых дескрипторов. Да и блокировки при обновлении тоже надо самому разруливать во избежание состояния гонки.
Ромзес Панагиотис, может какой-то специфичный парсинг не текстовых данных, а к примеру, больших наборов int id. Хранить каждый id строкой в БД крайне неэффективно и альтренатива – сортированные наборы писать бинарными файлами прямо на диск.

Answer 1 · 2021-02-17 16:12:16

Универсальный ответ - "зависит".
Нужно сделать PoC, посмотреть на запросы, оптимизировать их. Потом оценить траффик в продакшен и сделать load test. По следам это оптимизировать и масштабировать.
С точки зрения инфраструктуры - если много reads, то slave[s] очень помогут.
С точки зрения архитектуры - засылка задач в очередь и вытаскивание из нее помогают сгладить пики.

Answer 2 · 2021-02-17 16:45:06

Посмотри в сторону https://amphp.org/, там и http клиент есть вместо CURL. Я на нём сделал демона который работает 24/7, если появляются новые запросы он обрабатывает их асинхронно. Так же реализовал возможность ограничить максимальное кол-во одновременно исходящих соединений как для всего сервера так и для отдельных источников.
У меня 1 демон с каналом связи 100мбит/c за час 4-8 млн. страниц парсит, хз много это или мало....

Answer 3 · 2021-02-17 19:00:21

Можно построить архитектуру приложений так, что API будет работать преимущественно в режиме чтения с СУБД.
А другой процесс-воркер будет получать задачи через очередь сообщений и интенсивно писать в СУБД.
В API вместо блокирующего ответ клиенту парсинга нужно сразу слать задание в очередь сообщений. Тогда соединения не будут удерживаться подолгу, а почти сразу будут закрыты по отправке в очередь.
Все, что шлется в API для добавления в очередь, можно возвращать ответ 202 (Accepted).
Как только воркер выполнит задачу, он обновит результат парсинга в БД. А тем временем, при обращении по API информация будет считана с БД без каких-либо блокирующих операций.

То есть небольшой апгрейд состоит в схеме:
APIs (write) -> MQ -> Worker(s) -> DB
APIs (read) <-> DB
Так легко добавить любой компонент в случае большой нагрузки.

Ну и, необходимо замерять нагрузку, чтобы знать где узкое горлышко.

Какая инфраструктура должна быть для 24/7 парсера обновляющего БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт