Что лучше всего использовать при работе с данными?

Question

Parseltongue_developer @Parseltongue_developer

Что лучше всего использовать при работе с данными?

Какие инструменты командной строки вы чаще всего используете при работе с большими данными? В чем их плюсы?

Вопрос задан более трёх лет назад
126 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

Командная строка Linux

1 неделя

Далее
Хекслет

Python-разработчик

10 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 215 просмотров
6

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 154 просмотра
2

ответа
SSH

+1 ещё

Средний
Как исправить невозможность подключиться к серверу по ssh?
- 1 подписчик
- 07 июл.
- 195 просмотров
3

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 288 просмотров
3

ответа
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 342 просмотра
5

ответов
Хранение данных

Простой
Как открыть образ диска VHD?
- 1 подписчик
- 29 апр.
- 156 просмотров
1

ответ
Резервное копирование

+1 ещё

Простой
Как лучше подключать СХД к Proxmox Backup?
- 3 подписчика
- 22 апр.
- 371 просмотр
2

ответа
Компьютеры

+2 ещё

Простой
Что делать если не очищается место на диске C ssd?
- 1 подписчик
- 19 апр.
- 356 просмотров
3

ответа
Сетевое оборудование

+2 ещё

Простой
Как настроить дедупликацию btrfs в Asustor (AS6804T)?
- 1 подписчик
- 17 февр.
- 141 просмотр
1

ответ
Хранение данных

Средний
StorWize V7000 — Alert: 1630 — run FIX?
- 1 подписчик
- 16 февр.
- 92 просмотра
0

ответов
Показать ещё Загружается…

Плохой вопрос. Его нужно конкретизировать. О каких данных речь? В каком виде? В каком формате? Какой структуры? Какая именно работа с данными имеется в виду? У этого вопроса нет критерия достаточности ответа.
Какие плюсы относительно чего?

Answer 1 · 2022-09-16 12:09:22

Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

rar, tar+gzip, zip

В чем их плюсы?

Уменьшают размер больших данных

Answer 2 · 2022-09-16 09:51:48

Какие инструменты командной строки вы чаще всего используете при работе с большими данными?

Python

В чем их плюсы?

Большое количество библиотек для работы с данными

Answer 3 · 2022-09-16 11:25:38

Сразу ремарка. Большие данные предполагают такой кейс что они не влезают в ваш ноутбук.
Это некая стартовая точка от которой вопрос интересно изучать. Если влезли - значит данные не большие.
Обычная БД. Я рекомендую установить вам локально Postgres или MySQL и загружать туда все что надо
и там делать любые анализы. Если данные полу-структурированы - то попробуйте использвать spark-shell.
Это позволяет обработать логи, текстовые файлы, json-lines e.t.c. Настройка spark-shell потребует
от вас определенных знаний Java. По крайней мере в части памяти.

Есть явно легаси инструменты которые были созданы во времена Hadoop. Их много.
- sqoop, hadoop, hdfs. Ими тоже можно пользоваться но по перформансу они уже
слабее чем например spark.

Если ваши данные уже в облаке - то вы будете сильно ограничены в инструментах. Обычно амазон
предлагает свой aws-cli + UI. Microsoft - az.

И отдельно DataBricks предлагает консольные тулы dbfs/databricks. Но пользоваться ими не очень удобно.
По крайней мере в том виде как они есть сегодня. Я пользуюсь их web-версией UI.

Answer 4 · 2022-09-16 11:39:38

Что понимается под "работой с данными"?
Ну и + термин "большие данные" предполагает, что ты физически не можешь обработать всё на одном компьютере, а значит и просто волшебного "инструмента командной строки" не достаточно.

Любой инструмент в итоге будет упираться в какую-то систему распределённой обработки, типа Hadoop или Spark.
А значит и любой инструмент командной строки по сути будет клиентом для этой системы.

Например, если ты используешь какой-нибудь Azure, то твоим инструментом будет az.
Если aws, то aws cli.
И так далее.

Ещё, вероятно, твоим инструментом будет какой-нибудь язык программирования с библиотекой для работы с этой системой.
Это не обязательно Python. Знаю много людей, которые для этой задачи используют Scala или Kotlin, например.

Что лучше всего использовать при работе с данными?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт