@Parseltongue_developer

Что лучше всего использовать при работе с данными?

Какие инструменты командной строки вы чаще всего используете при работе с большими данными? В чем их плюсы?
  • Вопрос задан
  • 114 просмотров
Пригласить эксперта
Ответы на вопрос 4
saboteur_kiev
@saboteur_kiev
software engineer
Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

rar, tar+gzip, zip

В чем их плюсы?

Уменьшают размер больших данных
Ответ написан
Комментировать
fox_12
@fox_12
Расставляю биты, управляю заряженными частицами
Какие инструменты командной строки вы чаще всего используете при работе с большими данными?


Python

В чем их плюсы?


Большое количество библиотек для работы с данными
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
от вас определенных знаний Java. По крайней мере в части памяти.

Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
- sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
слабее чем например spark.

Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
предлагает свой aws-cli + UI. Microsoft - az.

И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.
Ответ написан
Комментировать
Что понимается под "работой с данными"?
Ну и + термин "большие данные" предполагает, что ты физически не можешь обработать всё на одном компьютере, а значит и просто волшебного "инструмента командной строки" не достаточно.

Любой инструмент в итоге будет упираться в какую-то систему распределённой обработки, типа Hadoop или Spark.
А значит и любой инструмент командной строки по сути будет клиентом для этой системы.

Например, если ты используешь какой-нибудь Azure, то твоим инструментом будет az.
Если aws, то aws cli.
И так далее.

Ещё, вероятно, твоим инструментом будет какой-нибудь язык программирования с библиотекой для работы с этой системой.
Это не обязательно Python. Знаю много людей, которые для этой задачи используют Scala или Kotlin, например.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы