Как записать 200 тыс строк за секунду?

Question

un1t @un1t

Как записать 200 тыс строк за секунду?

Нужно единоразово записать 200 тыс заспросов за одну секунду, на этом все, дальше ничего записывать не нужно. Т.е. это единоразовая операция, но очень критичная к скорости. У нас кластер. Важно чтобы при смерти любой из машин данные не потерялись.
Bulk insert не подходит, данные придут с разных клиентов.
Монга 3 заявляет что держит 300k инсертов в секунду, но не факт что на нашем железе будут такие же показатели, и ребята которые с ней плотно работали сказали, что не стали бы расчитывать на такую цифру у монги. И это вероятно цифра запись локально а не в кластере.
Есть дргуая идея, например записать в rabbitmq. Но опять же вопрос выдержит ли он такую цифру, и все ли там будет нормально если сделать кластер из рэбитов в разных ДЦ с точки зрения надежности и скорости.
Была еще идея записывать в файлы, но тут проблема как не потерять файлы при смерти машины и как их синхронизировать.

Можно рассмотреть какие-то другие технологии, если данные не подойдут.

Вопрос задан более трёх лет назад
1542 просмотра

2 комментария

Подписаться 5 Оценить 2 комментария

Пригласить эксперта

Ответы на вопрос 4

Комментировать

11 комментариев

un1t @un1t Автор вопроса

Я упомянул что bulk insert не подходит, т.к. запросы с разных клиентов. А без этого 200к за секунду я вставить уже не легко. Мускул и постргес такое врядли потянут. Записать в текстовик не проблема, проблема в том, что у нас кластер, и как потом эти текстовики обьединять и синкать уже проблема. Плюс если в момент записи свалистся одна машинка, текстовый файл умрет данные потеряются. В случае с базами там есть репликация и в монге например есть write concern, что гарантирует сохранность данных.

Написано более трёх лет назад
un1t @un1t Автор вопроса

А что ты имел ввиду "запихнть в очередь СУБД" ?

Написано более трёх лет назад
sim3x @sim3x

un1t:
при правильной настройке постгрез потянет
текстовик = лог файл => логи можно пушить в несколько мест
текстовики синкаються (внимание!) rsync, а потом запихиваются в бд
Про монгу. Поищи видео мучений яндекса с монгой.
Мое личное мнение - монга специфический продукт, под хипстеров. Про репликацию и всякие "write concern" на бд без транзакция не хочется говорить

Написано более трёх лет назад
sim3x @sim3x

un1t: про "очередь"
В вырожденном случае субд представляет собой машинку по дописыванию файла на диске

Написано более трёх лет назад
un1t @un1t Автор вопроса

rsync не гарантирует сохранность данных, машина может умерать до того как rsync выполнится, плюс сложно завязать ожидание и отдачу клиенту ответа на rsync. Не подскажешь что там надо в постгресе потюнить чтобы столько потянул?

Написано более трёх лет назад
sim3x @sim3x

un1t:
Можно много напридумать проблем для рсинка, так же как и путей их решения.

Постгрес - тут лучше обратиться к руководству postgresql.leopard.in.ua и подстроиться под свои данные

И лучше до того как начать тесты на реальных данных, связаться с товарищами, которые в реальности поднимали такие вещи, как тебе нужно

Написано более трёх лет назад
un1t @un1t Автор вопроса

А что за видео яндекса, вот тут что-то про монгу нашел, не оно? https://events.yandex.ru/lib/talks/1709/

Написано более трёх лет назад
sim3x @sim3x

un1t: https://events.yandex.ru/lib/talks/2325/ яндекс диск на ней делали

Написано более трёх лет назад
un1t @un1t Автор вопроса

sim3x: спасибо гляну.

Написано более трёх лет назад
sim3x @sim3x

un1t: на монгомитапах монгу ругать не будут :)

Написано более трёх лет назад
sim3x @sim3x

un1t: видос про постгрес https://events.yandex.ru/lib/talks/2324/ до кучи

Написано более трёх лет назад

8 комментариев

un1t @un1t Автор вопроса

> отправить в очередь 200к сообщений не проблема?
Вы у меня справшиваете? я не знаю выдержит ли rabbitmq 200к записей за секунду или нет, особенно с учетом того что нужна репликация. Поэтому и спрашиваю, может кто-то тестил что-то подобное. Сгруппировать объекты нельзя.

Написано более трёх лет назад
epolyak @epolyak

un1t: там должен Был быть восклицательный знак ))) опечатка.

Написано более трёх лет назад
epolyak @epolyak

В чем соль того что при отправки в очередь данные нельзя будет группировать ? Да и вообще не понятна задача - можете детальнее расписать.?

Написано более трёх лет назад
un1t @un1t Автор вопроса

epolyak: Данные придут с 200 тыс клиентов с каждого по одному сообщению один раз и одновременно. Подскажи пожалуйста, в rabbitmq есть что-то вроде write concern в монге? Т.е. нода в которую я отправил данные ответит мне до того как произодет репликация или после? Меня интересует сценарий, если я отправил данные, нода ответила, что приняла данные, реплицировать данные на другие не успела и сдохла.

Написано более трёх лет назад
lega @lega

un1t: Расскажите как вы собираетесь принимать сообщения от клиентов, самые легкие web фреймворки под питон, могут вытянуть до 10к запросов.

Написано более трёх лет назад
un1t @un1t Автор вопроса

lega: это пока открытый вопрос, но в кластере несколько многопроцессорных машинок. Если питона не хватит можем использовать что-то другое.

Написано более трёх лет назад
lega @lega

я сегодня для интереса тестировал libuv (pyuv), питон выдал 25к/сек на одно ядро под доккером на своем буке
т.е. на мощном сервере может вытянуть 50к на ядро (х 4 ядра), может быть норм
но там ещё сохранение и т.п.
так же нужно балансер тестировать если одна входная точка, nginx вытянет 200к?
ещё вместо балансера можно попробовать зафоркать питон, что-б один порт на все pyuv процессы.

ещё, т.к. задача маленькая, то можно взять golang - будет быстрее чем nginx+python.

Написано более трёх лет назад
un1t @un1t Автор вопроса

lega: спасибо, интересно про pyuv. Про nginx у меня сомнений нет, тем более их несколько.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Средний
Не работает код, что делать?
- 1 подписчик
- 4 часа назад
- 69 просмотров
2

ответа
Python

Простой
Почему консольная программа перестает работать спустя время?
- 1 подписчик
- вчера
- 461 просмотр
1

ответ
Python

Простой
Как делать удаленную печать на python?
- 1 подписчик
- вчера
- 91 просмотр
2

ответа
Python

Простой
Как импортировать модуль из git?
- 1 подписчик
- 07 авг.
- 129 просмотров
0

ответов
Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- 04 авг.
- 144 просмотра
0

ответов
Python

+2 ещё

Простой
Как в группе Telegram ответить скриптом на сообщение пользователя, на которое я отвечал сообщением, которое как раз таки запустило скрипт (telethon)?
- 1 подписчик
- 04 авг.
- 163 просмотра
1

ответ
Python

Простой
Почему у меня программа вообще не реагирует на свойства в python?
- 1 подписчик
- 02 авг.
- 219 просмотров
3

ответа
Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- 01 авг.
- 192 просмотра
1

ответ
RabbitMQ

Средний
Как в RabbitMQ обрабатывать долгую генерацию LLMкой сообщений?
- 1 подписчик
- 31 июл.
- 92 просмотра
2

ответа
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 137 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2015-12-16 20:14:47

Игорь Алякимов @kaiten

Архитектор ИС

Посмотрите в сторону Apache Kafka
Сверх производительная очередь

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2015-12-16 20:16:43

Чувствуется недосказанность в вопросе

Ведь 200к за раз запихнть в очередь СУБД и потом вставить в БД - легко
Принять по гигабиту 200мб и записать в текстовик на RAID10 - не проблема

Answer 3 · 2015-12-18 07:50:22

я бы на вашем месте использовал очереди - например RabbitMQ или ActiveMQ. отправить в очередь 200к сообщений не проблема? а если в одно сообщение например уложить 100 объектов то вообще получится 1000 сообщений. Так как очередь персистентна то при падении нечего не потеряется.

На другом конце очереди стоит слушатель который спокойно в фоне уже раскладывает данные в БД

Answer 4 · 2015-12-16 23:48:26

Можно быстро записать в redis, на несколько машин, 2 или более (т.е. копии), а потом потихоньку слить куда надо, например в монгу. Либо реплику там настроить.

Можно задублировать запросы клиентов на второй сервер, и пусть оба пишут в файл.
Хотя объем маленький, 60Мб, можно и в памяти подержать пока в базу не запишется.

http запросы? питон дольше http будет разгребать...

Как записать 200 тыс строк за секунду?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт