В чем преимущество Python перед Java для анализа больших данных / машинного обучения?

Question

Arbala @Arbala

В чем преимущество Python перед Java для анализа больших данных / машинного обучения?

Большинство обучающих материалов на тему Data Science используют Python или R, но мне хотелось бы для анализа больших данных / машинного обучения использовать Java, потому что для java много больше вакансий и возможность мобильной разработки. Есть желание выучить java и есть идея сделать аналитический сервис с обработкой большого количества сайтов(парсинг) и огромного количества числовых данных (данные будут классифицироваться и ранжироваться, а система будет предсказывать ранги на будущее). Конечно грубо объяснил свою задачу но все же в чем будет проблема, если я буду использовать java для этого? Скорость работы не критична.

Вопрос задан более трёх лет назад
11114 просмотров

1 комментарий

Подписаться 8 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 3

Комментировать

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Средний
Как реализовать использование Default и GostTLS SSLContext в одном приложении?
- 2 подписчика
- 18 часов назад
- 60 просмотров
0

ответов
Java

+1 ещё

Простой
Лучшие практики реализации Java Delegate в Camunda: Spring Bean vs прямое создание класса?
- 1 подписчик
- вчера
- 51 просмотр
0

ответов
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 123 просмотра
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 207 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 548 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 91 просмотр
1

ответ
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 119 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

когда перейдешь от обучения к практике, то кроме Python/Java стоит подучить R
Всеми тремя, будешь пользоваться, примерно, в одинаковом обьеме

Answer 1 · 2015-04-17 22:44:21

Если душа лежит к Java так и карты в руки, тем более, что она будет по-шустрее питона.
Преимущество питона в его простоте и лаконичности. Java же просто охренительно многословна.

Answer 2 · 2015-04-18 22:08:31

ИМХО, Python.
Причина - предельная простота языка + набор готовых библиотек.
Парсите сайты параллельно через grab, который оперирует C-библиотеками (lxml) в удобной питоновой обертке.
Далее, если у вас данных <10 GB после парсинга - берите машинку с большим объемом оперативки, и используйте pandas +sklearn+hdf5 storage для хранения.
Если данных >10 GB - берите распределенный кластер и pyspark + hive для хранения и моделей
Java вам при решении data science задач не поможет - все равно python оперирует библиотеками с C-модулями и функциями (pandas/sklearn) или pyspark, это та же производительность Java, но в удобной обертке.

Answer 3 · 2015-04-18 00:49:57

В целом Java ранее была практически стандартом для большого ПО, в тех же корпорациях, где датамайнинг был востребованной функцией, поэтому ее популярность обсуловленна инерцией.
Плюс один из самых популярных инструментов для mapreduce написан на java - Hadoop, хотя чтобы его использовать не обязательно писать на java.
В пайтоне есть хорошее и быстрая мат библиотека, плюс во многих университетах он почти стандарт в обучении и студенты/професура потом ип родолжает делать проекты на нем.
Ну а про R я думаю объяснять не нужно. Я бы именно его выбрал для ядра системы.

Answer 4 · 2015-04-18 15:23:54

Я бы обязательно посмотрел в сторону Scala - внутри тот же JVM, так же есть возможность писать для Hadoop (даже есть библиотеки - Scalding, например), но код гораздо лаконичнее, и часто даже выразительнее, чем на Python

Answer 5 · 2015-04-17 22:08:15

Python проще. Можно написать алгоритм быстрее чем на другом языке.
Можно и на Java. Многие программы для анализа данных написаны на Java - например софт от IBM.

Answer 6 · 2015-04-17 22:35:01

Сергей Протько @Fesor

Full-stack developer (Symfony, Angular)

Потому что под Python есть SciPy

Ответ написан более трёх лет назад

2 комментария

В чем преимущество Python перед Java для анализа больших данных / машинного обучения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт