Задать вопрос

lPolar

data scientist

38

вклад
15

вопросов
57

ответов
28%

решений

Ответы пользователя по тегу Машинное обучение

Как нормализовать малые значения предикторов?

lPolar @lPolar
data scientist

Варианты -
1. Нормализация - x=(x-mean(x))/std(x)
2. Разворот на главные компоненты (PCA).
3. Разворот на нелинейные главные компоненты - KPCA.
Это будет как шаг предобработки данных.
Нормализация сделает влияние переменной независимым от количественного измерения.

Ответ написан более трёх лет назад

3 комментария

3 комментария
Существуют ли заочные курсы или стажировка по анализу данных на русском языке?

lPolar @lPolar
data scientist

ИМХО, тут есть несколько аспектов:
1. Как написал brainick , математический бэкграунд и английский в data science практически обязателен.
Причин этому несколько: отсутствие хорошей литературы на русском языке (как по теории, так и по программированию), обилие английских терминов (lift/top/cross-validation и прочие), значение которых в переводной литературе порой объяснятся весьма туманно.
2. Если говорить о конкретной литературе, которую стоит почитать, я бы выделил несколько уровней:
Уровень 0
1. Бизнес-аналитика - Паклин, Орешков (самое базовое и обзорное введение)
2. Статистика/Тервер ( по мне, хороши книги Айвазяна/Мхитаряна)
3. SQL - в обязательном порядке. Мне в свое время помогла книга "SQL для простых смертных"
4. Изучаем Python - М. Лутц (наиболее полная книга по языку, все что нужно для data science здесь точно есть)
5. Программируем коллективный разум (к слову сказать, вот в этой книге отличный перевод)
Уровень 1
1. Математические основы машинного обучения и прогнозирования - Вьюгин (книга сложная, без подготовки по учебникам НМУ на тему анализа и линейной алгебры лучше не подходить)
2. Python for Data Analysis (pandas во всей красе, тут нечего добавить)
3. Примеры и статьи по построению моделей в sklearn - на хабре в последнее время часто мелькают статьи на эту тему, там все достаточно хорошо расписано.
Уровень 2
1. Hadoop и иже с ним ("Hadoop в действии", "Programming Pig")
2. Apache Spark - достаточно почитать описание Python API.
Тут есть еще один момент - не стоит слишком привязываться к одному языку и фреймворку.
Одна из неприятных проблем python+pandas+sklearn заключается в том, что эта связка слабо масштабируется - при 2-3-4 гб данных становится сложно разместить их в оперативной памяти. Я знаю про chunk-reading+partial_fit, но точность таких моделей оставляет желать лучшего.
С другой стороны, если обрабатывать эти данные в pyspark, то теряется все удобство pandas.DataFrame и так далее. Отрасль data science быстро развивается и обрастает новыми технологиями, так что нужно все время держать руку на пульсе.
UPD: в spark 1.3 появились DataFrame.

Ответ написан более трёх лет назад

4 комментария

4 комментария

Самые активные сегодня

DenisYahnovec
- 5 ответов
- 0 вопросов
Drno
- 4 ответа
- 0 вопросов
Mistigri_Red
- 0 ответов
- 2 вопроса
Zerg89
- 2 ответа
- 0 вопросов
Простой Человек
- 1 ответ
- 1 вопрос
serg361
- 1 ответ
- 1 вопрос

Как нормализовать малые значения предикторов?

Существуют ли заочные курсы или стажировка по анализу данных на русском языке?

Войдите на сайт