Что надо знать, чтобы стать стажером в Data Science?
Я закончил 11 класс и я понял, что мне интересно направление связанное с Data Science. Я прекрасно понимаю, что мне необходимо: знать английский, как минимум на уровне просмотра видео уроков и чтения книг, иметь хорошую математическую базу в таких дисциплинах, как матанализ, статистика, линейная алгебра. Так же я немного владею алгоритмами машинного обучения, такие как обучение без учителя, с учителем, алгоритм нейронных сетей, сверточных нейронных сетей. Но на этом мои знания заканчиваются... Я прекрасно понимаю, что этого мало даже для того, чтобы стать стажером.
Можете подсказать, как библиотеки используются в python кроме pandas, keras, tenserflow, matplotlib и numpy? Какие алгоритмы мне еще нужны?
возможно не стоит бросаться изучать все библиотеки и алгоритмы, а выполнить какую-то практическую работу с одним инструментом. Познакомиться с ним на деле - решить парочку реальных исследовательских задач.
Хорошо владея одним инструментом, ты будешь интуитивно понимать что в других библиотеках тоже должен быть какой-то аналогичный функционал, останется только справочник посмотреть. Но важно, что ты будешь знать что именно ты хочешь получить, и даже представлять как выглядит правильный результат, что полезно для оценки работы.
Scipy, scikit-learn, statsmodels..... главное понимать, что Data Science - это не знание методов fit() и predict(). И для того, что-бы стать настоящим специалистом в этой области надо от "хорошей математической базы в таких дисциплинах, как....." перейти к их настоящему и углубленному изучению.
Того что ты перечислил достаточно для мидла. Разве что SQL и баз данных не хватает.
Важно понимать, что задача «сайнтиста» находить и объяснять природу связей в данных. А как ты это будешь делать - при помощи ml-моделей или просто выгружая данные в Эксель - это дело десятое.
А вот для того, чтобы объяснять связи в данных, в первую очередь тебе нужна математика. А именно статистика и теория вероятностей. Причём довольно хорошая база.