Организация Map Reduce?

Question

btd @btd

Организация Map Reduce?

Здруствуйте.

У нас в стартапе появилось несколько задач, которые сводятся к класической парадигме Map Reduce. Мы хотим раскидывать задачи на несколько серверов. На какие решения стоит смотреть? На что стоит обратить внимание?

Сейчас я думаю о двух решениях: 1. знаменитый Hadoop — про него много говорят и он везде на слуху, но нужен ли он нам — задачи вроде не сложные. 2. это просто написать map reduce руками с помощью akka раскидать по серверам и не париться.

Надо сказать, что с akka у нас у всех в команде есть опыт, а с Hadoop ни у кого — но у тимлида «чешется» попробовать Hadoop. Мне бы хотелось знать стоит ли и отговорить с аргументами и альтернативами.

PS: Забыл добавить мы используем java + scala.

Вопрос задан более трёх лет назад
4475 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
Яндекс Практикум

Аналитик данных расширенный

12 месяцев

Далее
Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 24 просмотра
0

ответов
DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 91 просмотр
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 124 просмотра
2

ответа
Видеокарты

+3 ещё

Простой
Как получить бесплатные вычислительные мощности для исследований?
- 4 подписчика
- более года назад
- 862 просмотра
4

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 267 просмотров
1

ответ
Параллельные вычисления

Средний
Что выбрать для параллельных вычислений на GPU с большой точностью?
- 4 подписчика
- более года назад
- 328 просмотров
2

ответа
Искусственный интеллект

+1 ещё

Средний
Как можно максимально уменьшить размер данных?
- 3 подписчика
- более года назад
- 521 просмотр
1

ответ
Python

+1 ещё

Простой
Почему зависает дочерний процесс созданный с помощью Pool?
- 1 подписчик
- более года назад
- 109 просмотров
0

ответов
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
Книги

+1 ещё

Простой
Какую книгу про параллельное программирование стоит почитать программисту-теоретику?
- 1 подписчик
- более года назад
- 360 просмотров
2

ответа
Показать ещё Загружается…

Data Scientist

Strikt

До 100 000 ₽

Тестировщик

Точка Банк

До 330 000 ₽

Инженер-программист в МТС

Changellenge >> • Москва

от 100 000 до 100 000 ₽

Answer 1 · 2013-01-03 16:34:18

Hadoop заточен под большие кластера из средних и слабых машин. Если у вас несколько мощных серверов, то с Хадупом вас ожидает много бессмысленных телодвижений (кода), несколько неприятных ограничений и, возможно, 1-2 лишних копирования данных на задачу. Насчет Akka и других решений ничего не знаю, но по-моему в данном случае Hadoop подходит не очень хорошо.

Answer 2 · 2013-01-03 18:26:46

Можно еще посмотреть на MongoDB Map-Reduce, тут kost_bebix делился опытом Опыт использования mongodb для подсчета статистики, но с тех пор наверное многое поменялось.

Организация Map Reduce?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт