Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Question

web_dev @web_dev

Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Здравствуйте. Не могу "нагуглить" сл информацию и хочется понимать...
В случае с Apachee Spark вычислений - нужно много оперативной памяти, кластер вычислительный и так д..
Но настаёт вопрос, который я немного не понимаю.

В случае с MapReduce как будет вычисляться быстрее. Если один сервер имеет такие же параметры как.. скажем 5 нодов в кластере?
Какова приблизительная производительность вычислений одного сервера и кластера с такими же параметрами?

Например сервер 10 ядер и 256 оперативки
5 нодов кластера по 2 ядра каждый и 51 гб оперативки.

Спасибо!

Вопрос задан более трёх лет назад
1175 просмотров

Комментировать

Подписаться 3 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

web_dev @web_dev Автор вопроса

Владимир Олохтонов Пасиб за ответ. Да, это я понимаю. Но разве для Спарка не пямать главное? Может глупости спрашиваю.. Почему он не может в памяти распараллелить или по ядрам? Тоисть кластер из 5 комп послабее может дать прирост вычислений в 2-3 раза?

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, ну вот представьте себе простейшее вычисление - просто подсчет числа элементов.
Нагрузка на память и процессор минимальна, скорее всего спарк уткнется в пропускную способность дисковой подсистемы.
Если вы разнесете обработку на 5, условно, машин, то и время обработки уменьшится кратно.

Это далеко не всегда так, но тем не менее, при не слишком тяжёлых вычислениях, большее число машин даст лучший результат, чем одна, но мощная.

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, Понимаю Вас, но тем не менее. Спарк же все вычисления в оперативной памяти делает. От этого и быстрый.. Почему Вы говорите, что нагрузка на память будет минимальная?
Дело в том, что данных должна быть немного, но алгоритмы сложные должны быть. Например 100мб данных, но вычисления реально требуют много времени. В данном случае всё-равно кластер будет в выиграше?
Спасибо!

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, в этом случае очевидно наоборот, поскольку время загрузки с диска около секунды.

А если данных у вас не 100 мегабайт, а несколько терабайт? Вы их в память не загрузите, а обрабатывать их как-то надо :)

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, Да я вас понимаю. Но в данном случае речь идёт действительно о вычислениях только данных много не будет. Математика серьезная и так д.. Больше сказать не могу, так как за это отвечает другой человек. Я пытаюсь найти оптимальное решение...
Получит ли в данном случае кластер выигрыш?

Написано более трёх лет назад
Владимир Олохтонов @sgjurano

web_dev, зависит от используемых алгоритмов, если они эффективно параллелятся, то можно получить преимущество. Если нет, то смысла в этом не будет и более быстрая машинка посчитает в 1 поток всё быстрее. Правда не понятно зачем вам в этом случае спарк.

Написано более трёх лет назад
web_dev @web_dev Автор вопроса

Владимир Олохтонов, - пасиб. это скорее всего экспериментально. Учиться, пробовать, тестировать. При этом хочется понимать, что где когда и как. )) Думаю Вы помогли утрясти небольшую кашу в голове.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

Простой
Почему не запускается Flyway?
- 1 подписчик
- 12 мая
- 189 просмотров
2

ответа
Java

Простой
Можно ли сделать «псевдоним» для пакета?
- 3 подписчика
- 06 мая
- 241 просмотр
1

ответ
Java

Простой
Возможно ли добавлять методы в пакет чужой библиотеки?
- 1 подписчик
- 05 мая
- 192 просмотра
2

ответа
Java

+2 ещё

Сложный
Как гарантировано закрыть сокет через ServerSocket?
- 2 подписчика
- 30 апр.
- 181 просмотр
1

ответ
Java

Средний
Как получать ввод с конкретной клавиатуры и мышки, если их несколько?
- 2 подписчика
- 29 апр.
- 162 просмотра
1

ответ
Java

Простой
Как переделать этот SQL запрос на java?
- 1 подписчик
- 13 мар.
- 345 просмотров
1

ответ
Java

+1 ещё

Простой
Почему не запускается собранный в .jar файл Java FX проект?
- 1 подписчик
- 26 февр.
- 225 просмотров
2

ответа
Android

+2 ещё

Простой
Как исправить ошибку при установке плагина AppMetrica в Android Studio?
- 1 подписчик
- 18 янв.
- 223 просмотра
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 224 просмотра
1

ответ
Java

Простой
Как восстановить свой профиль в Майнкрафт?
- 1 подписчик
- 15 дек. 2025
- 354 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-11-21 17:22:22

Зависит от ваших вычислений. В общем случае кластер будет быстрее за счет параллельной обработки блоков данных (чаще рассчеты упираются не в CPU и память, а в диски и сеть).

Answer 2 · 2017-12-19 19:38:34

Если все данные влазят на диски одного сервера, то, за счёт отсутствия передачи данных по сети, этот вариант может оказаться более производительным.

Answer 3 · 2018-04-17 20:15:45

памяти всегда чем больше тем лучше, но это не критично, тк в спарке любую большую задачу можно и нужно делить на серию маленьких которые выполняются в памяти.
По поводу разницы между кластером и одним мощным сервером, мощный сервер будет быстрее, из-за более высокой скорости в выполнении "синхронизации" между "воркерами".
Но при грамотно составленных задачах расходы на синхронизацию будут чрезвычайно малы и могут выполнятся параллельно выполнению самой задачи, что вобщем особо не будет влиять на производительность.
В любом случае масштабировать свой сервис через повышение мощности одного сервера - это тупиковый путь. Так что я бы даже не замарачивался по поводу одного очень очень мощного и супер дорогого сервера.

Вычисления с помощью Apachee Spark. Мощный сервер или такой же по мощности — кластер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт