• Можете посоветовать распределенное сетевое хранилище?

    @realfreeman
    Как вариант можно обратить внимание на Oracle NoSql Database. Если нет предубеждений - есть community версия, но там есть durability, consistensy, version - придется через них как то выкручиваться, блокировок на уровне записи нет, можете только потребовать применение изменений значения на всех нодах, но это видимо не то, что вам нужно. Ну и плюс к этому максимальные consistency и durability (ALL) - это гарантированные ошибки если хотя одна нода упала или недоступна.
    Ответ написан
    Комментировать
  • С чего начать изучение Hadoop?

    @realfreeman
    Добрый день
    Почти на все вопросы ответил тут:
    Как проникнуться Hadoop'ом в домашних условиях?
    Относительно изучения Java - лучше все таки начать изучать. Ибо инфраструктура hadoop это не только hdfs & mapreduce, но и всякого рода spark, storm и много других страшный слов :)
    Изучать java можно по ходу, на первых порах можно посмотреть на hadoop streaming.
    Дорогу осилит идущий, так что не пугайтесь и смело беритесь за слона.
    Удачи!
    Ответ написан
    Комментировать
  • Как/чем аггрегировать большие объемы данных (а в реалтайме?)?

    @realfreeman
    Привет.
    Ну как вариант можно действительно использовать hadoop. Только вот ничего даже близкого к realtime вы не получите. Ну по крайней мере просто и быстро по времени реализации (можно конечно попробовать hive over spark).
    Как вариант рассмотрите cassandra.
    Ответ написан
    Комментировать
  • Как проникнуться Hadoop'ом в домашних условиях?

    @realfreeman
    Привет.
    Если что-то из литературы на русском языке - то это исключительно Hadoop. Подробное руководство.
    Указанная вами книга с плохим переводом и кучей ошибок.
    Что касаемо дистрибутива - то на мой взгляд для первого знакомства проще всего посмотреть на дистрибутив от cloudera. Тем более там можно сразу потыкать в hbase, solr, hive и pig.
    Более того, они выкладывают преднастроенные виртуальные машины.
    Что касаемо задач - в книге, что я написал, есть кейсы и ссылки для скачивания данных "на поиграться". Да и найти наборы данных довольно просто.
    Более менее ощутить дыхание мощи технологии можно на кластере из 3-4 машин, на одной виртуалке оценить это проблемно.
    Ответ написан
    1 комментарий