Весь датасаенс основан на тервере и статистике. В особо извращённой форме.
Теория информации нужна для хоть какого-то понимания работы нейросетей и прочего deep learning. Копать тут надо начиная от information bottleneck theory by Naftali Tishbi et al. Но это не точно :-)
Линейная алгебра и матан используются исключительно утилитарно, на уровне умножения матриц/тензоров и вычисления производных/градиентов. А также для понимания вообще принципов параметрической оптимизации ("нелинейного программирования").
Ну и, разумеется, основы алгоритмов и структур данных, и их асимптотический анализ.
На всяких образовательных платформах типа edx, coursera, udacity нынче есть "специализации" (micromasters, nanodegree) по теме датасаенс, которые какраз включают всё необходимое, и именно в минимально необходимом объёме. Иногда даже сильно меньше, но задают направлениe.