Нужно изучать базис мат-анализа и высшей алгебры. Книжки содержат слишком много практики и микро-рецептов, которую легко наработать на реальных проектах. А вот теории а них мало. Приведу пример: Купил книжечку "
Python и анализ данных". Не могу сказать, что сильно помогла, но кое в чем действительно полезна. Всякие составные индексы, обработка Excel-файлов, визуализация, манимуляции с массивами... Но вот почему в одном случае надо брать один метод, а другом иной. или где нужно отбрасывать крайние значения а где нет -- загадка.
Позже случайно попался краудфандинговый проект "
Статистика и Котики" и купил эту книжку. После прочтения появилось понимание приемлемости тех или иных методов анализа данных. Даже получается самому эти методики придумывать (какие характеристики объектов анализа и как измерять, где применять систему весов и балов...). Бумажную книжку, полагаю, уже не купить. А вот
электронную можно найти. Очень рекомендую.
P.S. Есть еще один аспект в котором надо разбираться для успешного анализа данных. Так сказать, предметная область, понимание как получаются цифровые характеристики объектов анализа. Без этого, методики анализа приходится подбирать на ощупь и не всегда правильно. К сожалению, не всегда понимаешь как что измеряют. Например, при оцифровке характеристик текстов или изображений. Есть куча примеров в интернете, в них используют готовые библиотеки, которые выдают из текста или картинок матрицы и вектора... Дальше эти матрицы сворачивают и разворачивают, вектора перемножают и т.п. Но вот зачем и почему в таком порядке? Чтобы ко всему этому применять машинное обучение, ИМХО, очень полезно понимать как получают эти матрицы и вектора. Без этого ощущаешь себя обезьяной, которая знает какие надо сделать манипуляции, чтобы получить банан (найти похожие тексты или картинки), можно даже понимать как и почему банан движется по конвейеру к клетке, но откуда появляется банан не понимаешь. :)