Задать вопрос
@Parseltongue_developer

Что лучше всего использовать при работе с данными?

Какие инструменты командной строки вы чаще всего используете при работе с большими данными? В чем их плюсы?
  • Вопрос задан
  • 117 просмотров
Подписаться 2 Средний 1 комментарий
Помогут разобраться в теме Все курсы
  • Учебный центр IBS
    SQA-I-007 Сопровождение автотестов и написание отчетов
    1 неделя
    Далее
  • ProductStar
    DevOps инструменты: сформируйте навык автоматизации инфраструктуры
    1 месяц
    Далее
  • ProductStar
    Основы DevOps
    2 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 4
saboteur_kiev
@saboteur_kiev
software engineer
Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

rar, tar+gzip, zip

В чем их плюсы?

Уменьшают размер больших данных
Ответ написан
Комментировать
fox_12
@fox_12
Расставляю биты, управляю заряженными частицами
Какие инструменты командной строки вы чаще всего используете при работе с большими данными?


Python

В чем их плюсы?


Большое количество библиотек для работы с данными
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
от вас определенных знаний Java. По крайней мере в части памяти.

Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
- sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
слабее чем например spark.

Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
предлагает свой aws-cli + UI. Microsoft - az.

И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.
Ответ написан
Комментировать
Что понимается под "работой с данными"?
Ну и + термин "большие данные" предполагает, что ты физически не можешь обработать всё на одном компьютере, а значит и просто волшебного "инструмента командной строки" не достаточно.

Любой инструмент в итоге будет упираться в какую-то систему распределённой обработки, типа Hadoop или Spark.
А значит и любой инструмент командной строки по сути будет клиентом для этой системы.

Например, если ты используешь какой-нибудь Azure, то твоим инструментом будет az.
Если aws, то aws cli.
И так далее.

Ещё, вероятно, твоим инструментом будет какой-нибудь язык программирования с библиотекой для работы с этой системой.
Это не обязательно Python. Знаю много людей, которые для этой задачи используют Scala или Kotlin, например.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы