Как сохранить результат 200+ потоков в БД?

Question

inquis @inquis

Как сохранить результат 200+ потоков в БД?

Есть приложение, задача которого - сделать поиск по запросу пользователя. Порядок действий примерно следующий: запрос пользователя -> запрос к различным API -> получение результатов от API -> сохранение в БД -> обработка данных -> ответ пользователю. Работать такой поиск должен быстро (в пределах 15-20 сек).
На один запрос пользователя предполагается сделать 200+ запросов к API с различными параметрами.
Сейчас для поиска создаются 200 потоков, которые выполняют запросы к API и пишут в базу. Проблема в том, что такое решение выглядит очень ограниченно - если прийдет еще один пользователь и сделает поиск, будет создано еще 200+ потоков и время ответа существенно снизится.
Смотрю в сторону использования Sidekiq, RabbitMQ, чтобы была возможность добавлять поисковые сервера и распараллеливания поиска (например, каждый сервер выполняет запросы с разными параметрами), но терзают сомнения - как быть с MySQL? Не будет ли проблемы с max_connections, если несколько серверов будут писать в одну базу? Какие еще решения можно рассмотреть, чтобы была возможность распараллеливания поиска, и по окончанию работы всех получить событие "поиск закончен", чтобы обработать данные?
Приложение - Rails, БД - MySQL.

Вопрос задан более трёх лет назад
2404 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее
Merion Academy

Базы данных с нуля

2 месяца

Далее

Решения вопроса 1

5 комментариев

inquis @inquis Автор вопроса

Задача - запрос наличия жилья у разных партнеров по разным параметрам. Например, есть 5 партнеров и 40 параметров (объединить в 1 запрос не представляется возможным). Т.е. на данный момент - 1 параметр к 1 партнеру = 1 поток (он же 1 коннект к базе). После сбора всех данных производится обработка (фильтрация, поиск лучших вариантов). Собственно, для обработки все результаты и пишутся в базу.
С выборкой данных проблем нет, только с записью.

Написано более трёх лет назад
Сергей @begemot_sun

а что нельзя сделать выборку из 200 потоков .. а записать в одном уже после отработки 200

Написано более трёх лет назад
inquis @inquis Автор вопроса

Идея интересная.. но результаты 200 потоков тоже надо где-то сохранять временно, пока последний не запишет все в базу. В моем случае каждый поток может вернуть что-то вроде сериализованного массива.

Написано более трёх лет назад
Сергей @begemot_sun

ну вы же для пользователя создаете поток, который отдает какой то результ пользователю после отработки 200 запросов ... почему не собирать результаты в нем, и в нем же записывать что и куда надо .. а еще лучше все класть в очередь заданий, и воркерами записывать.

Написано более трёх лет назад
inquis @inquis Автор вопроса

черт.. а решение-то было близко :) спасибо за наводку - действительно, перекладывать результат выполнения 200 потоков в очередь, чтобы только воркер писал в базу выглядит наиболее красивым решением.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 188 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 212 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 610 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 618 просмотров
1

ответ
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 337 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 128 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как исправить ошибку «No connection could be made because the target machine actively refused it»?
- 2 подписчика
- 02 сент.
- 380 просмотров
1

ответ
MySQL

Простой
Почему у некоторых таблиц Update_time равен null?
- 1 подписчик
- 20 авг.
- 127 просмотров
2

ответа
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 250 просмотров
2

ответа
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- 1 подписчик
- 16 авг.
- 180 просмотров
2

ответа
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2014-08-07 14:17:34

Самое универсальное решение - это конечно очередь заданий. Не увлекайтесь созданием коннектов к БД. Лучше иметь немного коннектов, но которые работают быстро, чем кучу - но которые работают медленно.

На крайняк, всегда можно написать решение (аля на Erlang), которое будет брать работу по распараллеливанию на себя, вам нужно лишь будет вызвать нужный http-api такого сервера и получить ответ.

Чтобы БД работала быстро, можно поставить кучу mysql slave серверов, и обращаться также к ним. Писать конечно получится только на один. А вообще все зависит от вашей задачи. У вас скупое описание того, что вы хотите делать и для чего.

Answer 2 · 2014-08-14 06:59:13

RabbitMQ:
1. воркер-менеджер для генерации/контроля выполнения заданий
2. постоянные воркеры для внешних запросов
3. воркер для записи данных в БД

Как сохранить результат 200+ потоков в БД?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт