Задать вопрос
Занимаюсь Data Science с 2014 года.
Работаю экспертом по аналитике в телекоме.

Достижения

Все достижения (7)

Наибольший вклад в теги

Все теги (40)

Лучшие ответы пользователя

Все ответы (57)
  • Существуют ли заочные курсы или стажировка по анализу данных на русском языке?

    @lPolar
    data scientist
    ИМХО, тут есть несколько аспектов:
    1. Как написал brainick , математический бэкграунд и английский в data science практически обязателен.
    Причин этому несколько: отсутствие хорошей литературы на русском языке (как по теории, так и по программированию), обилие английских терминов (lift/top/cross-validation и прочие), значение которых в переводной литературе порой объяснятся весьма туманно.
    2. Если говорить о конкретной литературе, которую стоит почитать, я бы выделил несколько уровней:
    Уровень 0
    1. Бизнес-аналитика - Паклин, Орешков (самое базовое и обзорное введение)
    2. Статистика/Тервер ( по мне, хороши книги Айвазяна/Мхитаряна)
    3. SQL - в обязательном порядке. Мне в свое время помогла книга "SQL для простых смертных"
    4. Изучаем Python - М. Лутц (наиболее полная книга по языку, все что нужно для data science здесь точно есть)
    5. Программируем коллективный разум (к слову сказать, вот в этой книге отличный перевод)
    Уровень 1
    1. Математические основы машинного обучения и прогнозирования - Вьюгин (книга сложная, без подготовки по учебникам НМУ на тему анализа и линейной алгебры лучше не подходить)
    2. Python for Data Analysis (pandas во всей красе, тут нечего добавить)
    3. Примеры и статьи по построению моделей в sklearn - на хабре в последнее время часто мелькают статьи на эту тему, там все достаточно хорошо расписано.
    Уровень 2
    1. Hadoop и иже с ним ("Hadoop в действии", "Programming Pig")
    2. Apache Spark - достаточно почитать описание Python API.
    Тут есть еще один момент - не стоит слишком привязываться к одному языку и фреймворку.
    Одна из неприятных проблем python+pandas+sklearn заключается в том, что эта связка слабо масштабируется - при 2-3-4 гб данных становится сложно разместить их в оперативной памяти. Я знаю про chunk-reading+partial_fit, но точность таких моделей оставляет желать лучшего.
    С другой стороны, если обрабатывать эти данные в pyspark, то теряется все удобство pandas.DataFrame и так далее. Отрасль data science быстро развивается и обрастает новыми технологиями, так что нужно все время держать руку на пульсе.
    UPD: в spark 1.3 появились DataFrame.
    Ответ написан
    4 комментария
  • Читаю с CSV файла кириллицу, вывожу в файлы и получаю xd0x94xd0xbexd0xb1xd0xb0xd0xb2xd0xb8xd1x82xd1x8, как читать и выводить кириллицу?

    @lPolar
    data scientist
    А можно сделать совсем элегантно (Py3):
    import pandas as pd
    fname = r'C:\folder\myfile.csv'
    data = pd.read_csv(fname,sep='\t',encoding='cp1251')
    print(data)
    Ответ написан
    4 комментария
  • Как объеденить кучу Excel файлов в один?

    @lPolar
    data scientist
    Как насчет pandas?
    Допустим, все файлы лежат в одной папке, и необходимые данные лежат на первом листе, тогда это можно сделать вот так:
    import pandas as pd
    import os
    folder = r'D:\Files\excel' #папка с файлами
    files = [os.path.join(folder,f) for f in folder] #формируем список путей к файлам
    all_file_frames = [] #сюда будем добавлять прочитанную таблицу 
    for f in files:
        print('Reading %s'%f)
        tab = pd.read_excel(f)
        all_file_frames.append(tab)
    all_frame = pd.concat(all_file_frames,axis=0) #  axis=0 если нужно добавить таблицу снизу и axis=1 если нужно слева
    all_frame.to_excel('final_file.xlsx') #получим файл final_file.xlsx в os.getcwd()
    Ответ написан
    5 комментариев
  • По ошибке удалил python в ubuntu, как вернуть его обратно?

    @lPolar
    data scientist
    sudo apt-get install python-dev
    Ответ написан
    Комментировать
  • Какой язык программирования выбрать для изучения?

    @lPolar
    data scientist
    О языках для аналитики замолвлю словечко.
    Python - классный, удобный. Большой набор библиотек для работы с данными, мало специфичных функций для статистики (легко реализуются самостоятельно).
    Минусы - все в памяти (pandas Memory Error), 2to3 не для всех библиотек
    Плюсы - есть API практически ко всему на свете (а к чему нету, легко прикрутить). По поводу памяти тоже слукавил, есть например pyspark в spark 1.3 в котором классный API именно для аналитиков.
    R - если есть время врубаться в несколько нелогичные названия функций и желание получить доступ к огромному количеству удобных пакетов для глубокого анализа - отличный.
    Масштабируемость - Oracle R Enterprise/DistributedR/RevolutionR - но это не для опенсорса.
    Еще можно попробовать для аналитики - Scala,Lua, Julia (кстати очень быстрый язык).
    Ответ написан
    2 комментария

Лучшие вопросы пользователя

Все вопросы (15)