Какой оптимальный вариант переливки миллионов строк из одной БД в другую, используя Pandas?

Question

kukarekuu @kukarekuu

Какой оптимальный вариант переливки миллионов строк из одной БД в другую, используя Pandas?

Есть задача - перелив нескольких таблиц (~10 млн. строк каждая / ~ 20 столбцов) из MSSQL в Postgres. Сейчас я переливаю их с помощью python+pandas.
Переливаю стандартно: читаю из MSSQL (pd.read_sql()), и получившийся DataFrame лью в другую базу(pd.to_sql()). Способ рабочий, но работает, на мой взгляд, довольно долго - около полутора часов на перелив 10 млн. записей (сервера MSSQL и Postgres находятся на разных машинах, но в одной сети).
Думал в сторону многопоточности, и даже реализовал многопоточность в том случае, если требуется перелив из нескольких CSV в базу.
Но в случае перелива из БД в БД никак не выходит применить многопоточность.
Есть какие-нибудь библиотеки или методы в pandas, с помощью которых можно было бы ускорить это дело?
Либо, быть может, кто-то успешно реализовал многопоточность в такой задаче?

Вопрос задан более трёх лет назад
352 просмотра

1 комментарий

Подписаться 1 Средний 1 комментарий

Решения вопроса 1

11 комментариев

kukarekuu @kukarekuu Автор вопроса

Хочется пользоваться всеми возможностями pandas + python.

Написано более трёх лет назад
sim3x @sim3x

kukarekuu, Зачем?

Написано более трёх лет назад
kukarekuu @kukarekuu Автор вопроса

sim3x, pandas+python - штука универсальная, не хочется сильно уходить в сторону от этой экосистемы, много наработок сделано уже именно в этой связке
Если она позволит быстро грузить данные в этой задаче, то хотелось бы не тратить время на изучение ещё одного стека технологий

Написано более трёх лет назад
sim3x @sim3x

kukarekuu,

Нет, данная связка не позволит грузить данные быстрее, чем спец решения для СУБД

Написано более трёх лет назад
bl @vl12

pandas - в общем, это надстройка-обёртка над некоторыми стандартными модулями (в данном случае - коннекторами к базам данных, транслирующим запросы на чистый SQL-код), которая при этом конвертирует все данные в свой pandas-формат.
Поэтому все расходы - это именно промежуточное создание объектов в pandas. Уберите pandas и пишите на обычном питоне с коннекторами к базам данных. - скорость возрастёт в разы. Или уберите питон и делайте дампы из командной строки, вся операция может сократится до минуты.
Если задача одноразовая - проще подождать.

Написано более трёх лет назад
kukarekuu @kukarekuu Автор вопроса

bl, не согласен
pandas, как и используемый им numpy, написан на С, то бишь работает он быстрее
а на чистом питоне будет медленнее, потому как это интерпретируемый язык высокого уровня
вопрос в том, может ли библиотека, написанная на С, быть быстрее, чем стандартные модули СУБД?

Написано более трёх лет назад
bl @vl12

kukarekuu, pandas и numpy далеко не полностью написаны на Си. Посмотрите модуль pandas, объекты создаются как обычно в питоне. Замерьте, сравните.

Написано более трёх лет назад
bl @vl12
kukarekuu, вот обычное подключение БД к pandas, используется стандартный модуль sqlite3. Разве нет?
import pandas as pd import sqlite3 con = sqlite3.connect("data/weather_2012.sqlite") df = pd.read_sql("SELECT * from weather_2012 LIMIT 3", con)
Написано более трёх лет назад
bl @vl12

kukarekuu, кстати, ядро Питона и стандартные модули тоже скомпилированы. Например, посмотрите что в `import sqlite3`.

Написано более трёх лет назад
kukarekuu @kukarekuu Автор вопроса

bl, да, многое в pandas - это чисто питон, но ключевые вещи (в первую очередь векторная обработка массивов данных) написана на С, что и дает возможности по быстрой обработке данных.
"вот обычное подключение БД к pandas, используется стандартный модуль sqlite3. Разве нет?"

sqlite - в том числе, так же можно пользовать sqlalchemy
Я думаю, что pandas по скорости примерно равен SQL-механизмам (что и подтверждают тесты), но в нем лично мне намного удобнее делать in-memory вычисления , и, что немаловажно, есть питоновские методы распараллеливания процессов, которыми, насколько я знаю, нельзя пользоваться средствами СУБД. А распараллеливание может принести неплохой выигрыш на мощных ПК
В общем, вопрос опять сводится к multiprocessing при SQL коннектах в pandas :)

Написано более трёх лет назад
d-stream @d-stream

kukarekuu,
pandas+python - штука универсальная, не хочется сильно уходить в сторону от этой экосистемы, много наработок сделано уже именно в этой связке
при варианте MS SQL->Postgre vs MS SQL->нечто->Postgre - второй вариант по-любому проигрывает в силу появления еще одной сущности...

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 15 минут назад
- 2 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Как подключить кошелёк к web3 сайту?
- 1 подписчик
- час назад
- 14 просмотров
0

ответов
Python

Простой
Выполнение парсинга странцы?
- 1 подписчик
- час назад
- 24 просмотра
1

ответ
PostgreSQL

Простой
Как обьединить одинаковые поля из 2х таблиц?
- 2 подписчика
- 2 часа назад
- 9 просмотров
0

ответов
Python

+1 ещё

Средний
Как правильно написать многоуровневое меню для телеграмм бота в библиотеке telebot?
- 1 подписчик
- 3 часа назад
- 23 просмотра
2

ответа
Python

+1 ещё

Простой
Как SQL запрос переделать для sqlalchemy?
- 1 подписчик
- 8 часов назад
- 61 просмотр
1

ответ
Python

+1 ещё

Простой
Как применить функцию для всего датафрейма pandas?
- 1 подписчик
- 9 часов назад
- 41 просмотр
1

ответ
Python

+3 ещё

Простой
Можно ли сменить аватарку бота telegram без botfather?
- 2 подписчика
- 10 часов назад
- 151 просмотр
2

ответа
Python

Простой
Как исправить ошибку?
- 1 подписчик
- 14 часов назад
- 84 просмотра
1

ответ
Python

Простой
Что не так с кодом Python?
- 1 подписчик
- вчера
- 144 просмотра
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 до 200 000 ₽

Сделать небольшой веб-сервис

16 апр. 2024, в 23:47

20000 руб./за проект

Установить Windows на Dedicated Server

16 апр. 2024, в 22:49

2500 руб./за проект

YOLO для распознания количества человек в очереди на кассу по видео ряду

16 апр. 2024, в 22:48

5000 руб./за проект

У вас как мне кажется плохо с понимаем где находится узкое место вашей задачи: многопоточность вам никак не поможет потому что у вас основное время это операции ввода/вывода.

Answer 1 · 2019-10-10 21:17:03

Константин Цветков @tsklab Куратор тега SQL Server

Здесь отвечаю на вопросы.

Оптимально использовать "Импорт и экспорт данных SQL Server". Документация.

Ответ написан более трёх лет назад

11 комментариев

Какой оптимальный вариант переливки миллионов строк из одной БД в другую, используя Pandas?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт