При построении ML-модели возникла необходимость делать проверку данных на стационарность (500к наблюдений).
Вызвал в Python:
from statsmodels.tsa.stattools import adfuller
adfuller(data)
Отожрал 25 Гб памяти и код очень долго отрабатывал (более 10 минут)
Вызвал в R:
library(tseries)
adf.test(data)
Отработал за пару секунд и выдал результат.
У меня ещё нет большого опыта в DS, но меня порой удивляет, что так сложно найти по запросу подходящий метод в Python (например: проверка стационарности, анализ структурных сдвигов), но при этом в R есть как подробная документация с математическими выкладками, так и обилие методов.
При этом, когда я стоял на распутье при выборе между Python и R, то все в окружении поголовно топили за Python, аргументируя, что Python в плане анализа данных уже догнал и перегнал R.
Возможно, конечно, я не там ищу, или применяю устаревшие и никому не нужные методы для работы, что часто возникает проблема как в самом нахождении подходящего готового метода в Python, так и в его эффективном (с точки зрении производительности и качества получаемого результата).