Что лучше всего использовать при работе с данными?

Question

Parseltongue_developer @Parseltongue_developer

Что лучше всего использовать при работе с данными?

Какие инструменты командной строки вы чаще всего используете при работе с большими данными? В чем их плюсы?

Вопрос задан более трёх лет назад
117 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Учебный центр IBS

SQA-I-007 Сопровождение автотестов и написание отчетов

1 неделя

Далее
ProductStar

DevOps инструменты: сформируйте навык автоматизации инфраструктуры

1 месяц

Далее
ProductStar

Основы DevOps

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

Простой
Сервер (хранит) для хранения файлов и получение по ссылке?
- 1 подписчик
- вчера
- 140 просмотров
4

ответа
Хранение данных

+1 ещё

Средний
Масштабируемое хранилище. На основе чего?
- 1 подписчик
- 06 нояб.
- 77 просмотров
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 28 просмотров
0

ответов
Командная строка

+1 ещё

Простой
Как сохранить файл в nano в VNC в браузере?
- 1 подписчик
- 04 нояб.
- 92 просмотра
2

ответа
Linux

+1 ещё

Простой
Как избавится от остатков альтернативного экрана в TTY?
- 1 подписчик
- 31 окт.
- 221 просмотр
1

ответ
VPN

+1 ещё

Средний
Как получить ключ пользователя через CLI в marzban?
- 2 подписчика
- 24 окт.
- 183 просмотра
1

ответ
Windows

+1 ещё

Простой
Что за страный файл F, как удалить?
- 5 подписчиков
- 17 сент.
- 9771 просмотр
1

ответ
Хранение данных

+3 ещё

Сложный
Как разделить хранилище на временно использование?
- 1 подписчик
- 16 сент.
- 122 просмотра
0

ответов
Linux

+3 ещё

Простой
Как лучше реализовать ФС — фото- и видеохранилище?
- 5 подписчиков
- 09 сент.
- 1131 просмотр
2

ответа
Python

+1 ещё

Простой
Почему у Python проблемы с форматированием?
- 1 подписчик
- 08 сент.
- 252 просмотра
1

ответ
Показать ещё Загружается…

Инженер по безопасности ИТ-инфраструктуры

SMALL

от 2 800 до 3 800 $

Инженер по средствам защиты информации

SMALL

от 4 200 до 5 700 $

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Плохой вопрос. Его нужно конкретизировать. О каких данных речь? В каком виде? В каком формате? Какой структуры? Какая именно работа с данными имеется в виду? У этого вопроса нет критерия достаточности ответа.
Какие плюсы относительно чего?

Answer 1 · 2022-09-16 12:09:22

Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

rar, tar+gzip, zip

В чем их плюсы?

Уменьшают размер больших данных

Answer 2 · 2022-09-16 09:51:48

Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

Python

В чем их плюсы?

Большое количество библиотек для работы с данными

Answer 3 · 2022-09-16 11:25:38

Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
от вас определенных знаний Java. По крайней мере в части памяти.

Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
- sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
слабее чем например spark.

Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
предлагает свой aws-cli + UI. Microsoft - az.

И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.

Answer 4 · 2022-09-16 11:39:38

Что понимается под "работой с данными"?
Ну и + термин "большие данные" предполагает, что ты физически не можешь обработать всё на одном компьютере, а значит и просто волшебного "инструмента командной строки" не достаточно.

Любой инструмент в итоге будет упираться в какую-то систему распределённой обработки, типа Hadoop или Spark.
А значит и любой инструмент командной строки по сути будет клиентом для этой системы.

Например, если ты используешь какой-нибудь Azure, то твоим инструментом будет az.
Если aws, то aws cli.
И так далее.

Ещё, вероятно, твоим инструментом будет какой-нибудь язык программирования с библиотекой для работы с этой системой.
Это не обязательно Python. Знаю много людей, которые для этой задачи используют Scala или Kotlin, например.

Что лучше всего использовать при работе с данными?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт