Как много технических задач решают senior (Big) Data engineers?

Question

Semen @semen3910

Big data

Как много технических задач решают senior (Big) Data engineers?

Добрый день.

Коллеги, которые давно занимаются (Big) Data, и доросли до уровня Senior (или выше), скажите, как много задач по инженирии/программирования/архитектуры вы делаете?

Я пришел в (Big) Data из Software Engineers год назад, потому что мне начали нравиться задачи с обработкой данных, а не проектирование API (никого не хочу обидеть). Для справки: есть хороший опыт в Python/DevOps.

Но сейчас я начинаю наблюдать, что все меньше техничных топиков мне нужно, что бы расти по «лестницу», а больше SQL/Cloud services/BI и так далее. Например, на одном из курсов, спикер который работал в Microsoft и Amazon несколько лет, на позиции Data engineer, недавно скинул статью, где на пальцах рассказывают как работает concurrency and parallel processing, со словами «Никогда этого не понимал». Я думал это база для Data engineer.

Далее, я закончил чтение книги «High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark» и мне очень понравилось как работает Spark «внутри», но написание на нем типичных задач — не особо вызывает энтузиазм.

Вообще, заметил, что в почти каждой тулзе которую использовал, я лезу во внутрь и смотрю, как она устроена. И это мне иногда намного интересней, чем ее использовать.

С одной стороны мне интересна техническая сторона обработки (больших) данных, но я все больше вижу, что большинство задач обработки можно решить зная базовый Python и использую разные SaaS Cloud решения.

Может я работаю не на «тех» проектах.

Поделитесь мыслями коллеги.

Вопрос задан более трёх лет назад
97 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
Яндекс Практикум

Аналитик данных расширенный

12 месяцев

Далее
Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 92 просмотра
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 124 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 268 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Средний
Как можно максимально уменьшить размер данных?
- 3 подписчика
- более года назад
- 521 просмотр
1

ответ
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- более года назад
- 151 просмотр
1

ответ
Нейронные сети

+3 ещё

Средний
Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?
- 1 подписчик
- более двух лет назад
- 117 просмотров
2

ответа
PostgreSQL

+3 ещё

Средний
Какую БД выбрать для хранения и обработки большого кол-ва сообщений?
- 1 подписчик
- более двух лет назад
- 272 просмотра
1

ответ
Big data

Простой
Какой процент распознавания точности артикула штучного товара на витрине по его внешнему виду считается «хорошим» а какой — «отличным»?
- 1 подписчик
- более двух лет назад
- 111 просмотров
1

ответ
Big data

Средний
Как эффективно составить гистограмму слов (big data)?
- 1 подписчик
- более двух лет назад
- 127 просмотров
4

ответа
Python

+2 ещё

Средний
Как оптимизировать алгоритм SlopeOne в python?
- 1 подписчик
- более двух лет назад
- 134 просмотра
1

ответ
Показать ещё Загружается…

Data Scientist

Strikt

До 100 000 ₽

Инженер-программист в МТС

Changellenge >> • Москва

от 100 000 до 100 000 ₽

Ведущий разработчик Java

М Тех • Москва

от 250 000 до 300 000 ₽

Answer 1 · 2022-05-10 23:35:14

Большинство проектов Big data сводятся к тому, что нужно подключиться к различным источникам и сделать витрину. Мы работаем в MS Azure и могу сказать, что техническиие навыки в языке програмирования отходят на второй план, так как в MS Azure есть инструмент оркерстрации (data factory) и он делает большое количество работы за нас. Самоя большая часть работы с данными строится на sql (в моем случае pyspark sql), так как sql наиболее удобен для работы с данными. Иногда, когда нужно сделать что-то не совсем тривиальное используем pyspark dataframe, и в самых редких случаях, когда нужно сделать что-нибудь "низкоуровневое" используем pyspark rdd.
НО!!! знание sql это мастхев для работы с данными. И думаю, что это самый важный инструмент для Big data

Как много технических задач решают senior (Big) Data engineers?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт