Так ли хорош Python в сравнении с R для data mining?

Question

lPolar @lPolar

data scientist

Так ли хорош Python в сравнении с R для data mining?

Всем привет!
Python использую на протяжении года. Основной стак задач - сбор (читай - парсинг), анализ, визуализация и моделирование.
Поначалу меня все устраивало в языке, до тех пор пока не начались задачи out-of-core (объем данных строго больше RAM).
Я знаю про chunk-reading данных и partial_fit в sklearn, но этот подход заметно замедляет процессы построения моделей и снижает их качество.
Плюс ко всему есть некоторые тотально надоевшие проблемы языка:
1. Юникод. Да, с py3 стало лучше, но не везде. Характерный пример:

import pandas as pd
rdf = pd.DataFrame(['привет','юникод'])
rdf.to_clipboard() # допустим, хочу перекинуть таблицу в excel

2. Отсутствие нормального репозитория пакетов.
Конечно, инструменты вроде pip,easy_install,conda облегчают жизнь, но часто нужные пакеты приходится вручную компилировать (cxOracle как пример).
3. Отсутствие многих методов data mining.
Например, deep learning для python'а найти не так просто, а использовать - так совсем сложно.
Теперь со стороны R.
Что понравилось:
1. Репозиторий пакетов и в целом система их установки
2. Пакеты есть буквально для всего, особенно порадовали возможности обработки out-of-core, такие как ff/bit.
3. Многовариантность решения задачи (а в data mining это просто отлично).
Что не понравилось:
1. Синтаксис для решения некоторых задач не совсем очевиден. Наличие магических %in% и т.д.
2. Некоторые очевидные вещи реализованы плохо, например импорт/экспорт в Excel.
Собственно, вопрос к тем кто имел опыт использования и одного, и второго языка - на чем сосредоточится? Осваивать Python дальше, учить API для pyspark и graphlab?
Какой из языков в обозримом будущем будет более востребован в data science?

Вопрос задан более трёх лет назад
7972 просмотра

3 комментария

Подписаться 23 Оценить 3 комментария

B@rmaley.e><e @barmaley_exe

Последний вопрос глупый. Очевидно, что востребованы будут оба, поскольку у обоих уже давно сформировано большое сообщество. Более или менее — вопрос сложный. но Python ближе к продакшену, а R привычней для статистиков.

Написано более трёх лет назад
lPolar @lPolar Автор вопроса

B@rmaley.e><e: Вот у меня лично разрыв шаблона. Потому что по факту, к продакшен аналитике как раз таки ближе R, тут у него и RevolutionR, и DistributedR от HP, и Shiny-сервер для dashboarding'га. В сравнении с этим Python нечем похвастать. При этом python считается стандартом для data mining.

Написано более трёх лет назад
tuccar @tuccar

lPolar: У меня к вам небольшой вопрос по data mining. Дайте, пожалуйста, ваш e-mail, я вам напишу. Или напишите мне на braveant@mail.ru

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- 23 часа назад
- 111 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 200 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 138 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 538 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 541 просмотр
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 131 просмотр
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 567 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Последний вопрос глупый. Очевидно, что востребованы будут оба, поскольку у обоих уже давно сформировано большое сообщество. Более или менее — вопрос сложный. но Python ближе к продакшену, а R привычней для статистиков.
B@rmaley.e><e: Вот у меня лично разрыв шаблона. Потому что по факту, к продакшен аналитике как раз таки ближе R, тут у него и RevolutionR, и DistributedR от HP, и Shiny-сервер для dashboarding'га. В сравнении с этим Python нечем похвастать. При этом python считается стандартом для data mining.
lPolar: У меня к вам небольшой вопрос по data mining. Дайте, пожалуйста, ваш e-mail, я вам напишу. Или напишите мне на braveant@mail.ru

Answer 1 · 2015-03-25 11:11:00

Я использую оба языка, и, признаться, R мне нравится больше. И вы правы, что там есть пакеты абсолютно для всего. Но Python обладает рядом преимуществ, главным из которых является развитая экосистема языка. Преимущества Python очень хорошо описаны тут. Вообще, в этом блоге есть много интересных статей как по Python, так и по R. Что касается deep learning, то для Python есть замечательная библиотека Theano.
Я бы порекомендовал сосредоточиться на Python, но R также не забывать на случай если понадобятся методы, не реализованные в Python, или будете работать с людьми, знающими только R.

Answer 2 · 2015-03-25 14:31:02

Любой специализированный инструмент (язык) или их связка хорош настолько, насколько хорош специалист, который их использует, ну и естественно насколько хороша его теоретическая подготовка по дата-мининиг, математике, статистике.
Иногда, даже извратившись, можно сложнейшую алгоритмически-статистическую задачу, которая влечет анализ данных, можно решить на совершенно не предназначенном для этого языке.
Что касаемо именно пайтона и языка R, оба хороши, серьезно - оба. Единственное для пайтона нужно доставлять дополнительные библиотеки и модули. НО! Каждая аналитическая и алгоритмически-статистическая задача тоже имеет свою специфику, привязку к той или иной технологии, теории - и тут уже в этом случае как раз приходится придумывать, какой именно язык применить - PYTHON или R, а может быть и оба их вместе, а может еще и подключить STATISTICA или еще чего, даже обычный MathLAB или Ecxel может оказать неоценимую помощь. Задачу, особенно сложную, всегда нужно решать комплексно! Тогда успех гарантирован с вероятности близкой к единице!

Answer 3 · 2015-04-02 12:41:08

Андрей Андрианов @aTwice

Программист C++, C#, Java, JavaScript, Python.

У меня от синтаксиса R глаза слезились.

Ответ написан более трёх лет назад

Комментировать

Так ли хорош Python в сравнении с R для data mining?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт