bl, да, многое в pandas - это чисто питон, но ключевые вещи (в первую очередь векторная обработка массивов данных) написана на С, что и дает возможности по быстрой обработке данных.
"вот обычное подключение БД к pandas, используется стандартный модуль sqlite3. Разве нет?"
sqlite - в том числе, так же можно пользовать sqlalchemy
Я думаю, что pandas по скорости примерно равен SQL-механизмам (что и подтверждают тесты), но в нем лично мне намного удобнее делать in-memory вычисления , и, что немаловажно, есть питоновские методы распараллеливания процессов, которыми, насколько я знаю, нельзя пользоваться средствами СУБД. А распараллеливание может принести неплохой выигрыш на мощных ПК
В общем, вопрос опять сводится к multiprocessing при SQL коннектах в pandas :)
bl, не согласен
pandas, как и используемый им numpy, написан на С, то бишь работает он быстрее
а на чистом питоне будет медленнее, потому как это интерпретируемый язык высокого уровня
вопрос в том, может ли библиотека, написанная на С, быть быстрее, чем стандартные модули СУБД?
sim3x, pandas+python - штука универсальная, не хочется сильно уходить в сторону от этой экосистемы, много наработок сделано уже именно в этой связке
Если она позволит быстро грузить данные в этой задаче, то хотелось бы не тратить время на изучение ещё одного стека технологий
sqlite - в том числе, так же можно пользовать sqlalchemy
Я думаю, что pandas по скорости примерно равен SQL-механизмам (что и подтверждают тесты), но в нем лично мне намного удобнее делать in-memory вычисления , и, что немаловажно, есть питоновские методы распараллеливания процессов, которыми, насколько я знаю, нельзя пользоваться средствами СУБД. А распараллеливание может принести неплохой выигрыш на мощных ПК
В общем, вопрос опять сводится к multiprocessing при SQL коннектах в pandas :)