Николай Бараненко,
я не слышал что бы у хадупа были какие-то слейвы. есть роли NameNode/SecondaryNameNode, есть datanode. у тебя похоже настроена единственная datanode на hadoop01 with replication factor 1
т.е. hadoop02, hadoop03 никак не задействованы.
mzG2Gzm,
пусть пишут, у продажников работа такая, писать о том чего не видели.
map-reduce или spark запущенный локально не превратится в тыкву, хоть и отработает без всяких yarn, hdfs и во многом без параллельности. impala код на one node cluster тоже не превращается в тыкву, хотя очень вероятно будет на one node cluster отрабатывать по сильно другому плану, чем на полновесном кластере. но это по прежнему бигдата и потому я и пишу тесты локально, что локально оно работает во многом так же. хотя конечно реальные данные и регрешен тесты на полновесном кластере выявляют то, что в юнит тестах не заметишь.
Eldar01,
от юнит теста никто и не просит масштабирования. у юнит теста своя цель и соответственно своя целесообразность. при этом снова обращаю внимание на то что запуск юнит теста локально, а не на кластере, не отменит "бигдатовость" тестируемого кода.
Eldar01,
что за железка и как делается проще никак не влияют на алгоритм. хоть машина тюринга под алгоритмом. юнит тест это тоже бигдата, не важно где он запускается, на реальном кластере или моем десктопе.
что там филологи и маркетологи выделяют совершенно не важно, важно, что большая часть миграций на хадуп происходи по экономическим причинам (экономия на лицензиях), а не каких либо сложностях оракла жувать их объемы данных.
Eldar01,
наверно в 12 лет где-то так и кажется, тем не менее бигдата это про подход к массивно-параллельной обработки данных, а не про размер. не важно 3кб у меня файлик из юнит теста и шуршит на десктопе или этот-же код 3 тб жует на кластере, важны алгоритмы.
юнит тесты локально хоть и медленно, но это удобно.
neu3y,
Интересно, судя по коментам в хабре таких как вы большинство, если не подавляющее большинство. Сколько же вам лет и каков опыт в ит, что название может сбить с толку ?
neu3y,
Я уже писал что опус писал филолог, далекий от ит. Похоже у вас те же пробелы в понимании. Не важно сколько там емайл адресов, важен подход в обработке. Хоть три адреса. У меня на ноутбуке заглушка к хадуп и паркет файлики на пару гб и это бигдата, а вот на нашем оракловом сервере 15 тб данных, включая предикшен модели, но это не бигдата. Потому как суть в подходе, а не кол-ве, как думают филологи глядя на приставку биг
neu3y,
по любому у меня знаний в трое больше, чем у всех тут присутствующих вместе взятыми, а опыт в реальном бигдата/хадуп проекте так думаю и вовсе лишь только у меня. хотя признаю, понятия не имею, что маркетологи в понятие бигдаты накрутили.
в ИТ РФ все с отставанием хорошим происходит, но спрос как и везде скоро будет тоже огромным, а хорошо оплачиваются уже сейчас. в РФ главным драйвером роста будет замена ораклов на бигдату. причем не ради больших данных, а ради безопасности на тему санкций и экономии на лицензиях. банки, страховщики, крупные ритейлеры уже плотно сидят на бигдате, а теперь любой крупной канторе нет особого смысла запускать какой-нибудь DWH на оракле. на Hadoop оно и дешевле выйдет и возможности роста почти безграничны. плюс много меньше приключений на тему санкций и Крыма.
статья полная глупость, человека не в теме. подавляющее большинство разворачивает бигдату без всяких map-reduce и не ради объема данных, а ради экономии на лицензиях.
анализ логов, предикшен модели, DWH на бигдате уже практически во всех российских банках и крупных фин канторах, все соц сети используют бигдату, даже пхп скриптики типа битрикс теперь с бигдатой.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
hadoop02, hadoop03 никак не задействованы. выглядит что кластер об их существовании не подозревает