lPolar

Question

Python
+2 ещё

Так ли хорош Python в сравнении с R для data mining?

23 подписчика
более трёх лет назад
7984 просмотра

Answer 1 · 2015-02-24 11:43:32

ИМХО, тут есть несколько аспектов:
1. Как написал brainick , математический бэкграунд и английский в data science практически обязателен.
Причин этому несколько: отсутствие хорошей литературы на русском языке (как по теории, так и по программированию), обилие английских терминов (lift/top/cross-validation и прочие), значение которых в переводной литературе порой объяснятся весьма туманно.
2. Если говорить о конкретной литературе, которую стоит почитать, я бы выделил несколько уровней:
Уровень 0
1. Бизнес-аналитика - Паклин, Орешков (самое базовое и обзорное введение)
2. Статистика/Тервер ( по мне, хороши книги Айвазяна/Мхитаряна)
3. SQL - в обязательном порядке. Мне в свое время помогла книга "SQL для простых смертных"
4. Изучаем Python - М. Лутц (наиболее полная книга по языку, все что нужно для data science здесь точно есть)
5. Программируем коллективный разум (к слову сказать, вот в этой книге отличный перевод)
Уровень 1
1. Математические основы машинного обучения и прогнозирования - Вьюгин (книга сложная, без подготовки по учебникам НМУ на тему анализа и линейной алгебры лучше не подходить)
2. Python for Data Analysis (pandas во всей красе, тут нечего добавить)
3. Примеры и статьи по построению моделей в sklearn - на хабре в последнее время часто мелькают статьи на эту тему, там все достаточно хорошо расписано.
Уровень 2
1. Hadoop и иже с ним ("Hadoop в действии", "Programming Pig")
2. Apache Spark - достаточно почитать описание Python API.
Тут есть еще один момент - не стоит слишком привязываться к одному языку и фреймворку.
Одна из неприятных проблем python+pandas+sklearn заключается в том, что эта связка слабо масштабируется - при 2-3-4 гб данных становится сложно разместить их в оперативной памяти. Я знаю про chunk-reading+partial_fit, но точность таких моделей оставляет желать лучшего.
С другой стороны, если обрабатывать эти данные в pyspark, то теряется все удобство pandas.DataFrame и так далее. Отрасль data science быстро развивается и обрастает новыми технологиями, так что нужно все время держать руку на пульсе.
UPD: в spark 1.3 появились DataFrame.

Answer 2 · 2015-05-26 17:23:57

lPolar @lPolar

data scientist

А можно сделать совсем элегантно (Py3):

import pandas as pd
fname = r'C:\folder\myfile.csv'
data = pd.read_csv(fname,sep='\t',encoding='cp1251')
print(data)

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2015-03-05 08:20:38

Как насчет pandas?
Допустим, все файлы лежат в одной папке, и необходимые данные лежат на первом листе, тогда это можно сделать вот так:

import pandas as pd
import os
folder = r'D:\Files\excel' #папка с файлами
files = [os.path.join(folder,f) for f in folder] #формируем список путей к файлам
all_file_frames = [] #сюда будем добавлять прочитанную таблицу 
for f in files:
    print('Reading %s'%f)
    tab = pd.read_excel(f)
    all_file_frames.append(tab)
all_frame = pd.concat(all_file_frames,axis=0) #  axis=0 если нужно добавить таблицу снизу и axis=1 если нужно слева
all_frame.to_excel('final_file.xlsx') #получим файл final_file.xlsx в os.getcwd()

Answer 4 · 2015-05-28 08:56:17

lPolar @lPolar

data scientist

sudo apt-get install python-dev

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-03-06 00:32:00

О языках для аналитики замолвлю словечко.
Python - классный, удобный. Большой набор библиотек для работы с данными, мало специфичных функций для статистики (легко реализуются самостоятельно).
Минусы - все в памяти (pandas Memory Error), 2to3 не для всех библиотек
Плюсы - есть API практически ко всему на свете (а к чему нету, легко прикрутить). По поводу памяти тоже слукавил, есть например pyspark в spark 1.3 в котором классный API именно для аналитиков.
R - если есть время врубаться в несколько нелогичные названия функций и желание получить доступ к огромному количеству удобных пакетов для глубокого анализа - отличный.
Масштабируемость - Oracle R Enterprise/DistributedR/RevolutionR - но это не для опенсорса.
Еще можно попробовать для аналитики - Scala,Lua, Julia (кстати очень быстрый язык).

lPolar

Достижения

Наибольший вклад в теги

Python

Data Mining

Машинное обучение

Карьера в IT

CSV

Java

Лучшие ответы пользователя

Существуют ли заочные курсы или стажировка по анализу данных на русском языке?

Читаю с CSV файла кириллицу, вывожу в файлы и получаю xd0x94xd0xbexd0xb1xd0xb0xd0xb2xd0xb8xd1x82xd1x8, как читать и выводить кириллицу?

Как объеденить кучу Excel файлов в один?

По ошибке удалил python в ubuntu, как вернуть его обратно?

Какой язык программирования выбрать для изучения?

Лучшие вопросы пользователя

Так ли хорош Python в сравнении с R для data mining?

Подборка книг по data science на python?

Язык программирования после Python?

Как настроить oracle odbc на vagrant машине?

Можно ли использовать PyPy в связке с Pandas?

Войдите на сайт