• BI аналитика: с чего начать?

    x67
    @x67
    Курсы все разные, надо смотреть под себя, чтобы было понятно и интересно.

    Не буду советовать курсы, опишу лишь технологии в порядке значимости, а также BI инструменты, с которых стоит начать работу.
    1 и самое важное - SQL. Без него никуда. Конкретных СУБД со своими диалектами много, но начинать лучше с какой-нибудь уже взрослой, имеющей развитой диалект и хорошую совместимость со стандартом SQL, например postgresql. Но если на работе уже используется какая-либо БД, она и будет ответом. В аналитике более популярны другие БД типа Clickhouse, но они ограничены с точки зрения возможностей языка и это лучше понимать, чем не понимать. При больших объемах данных естественно работать придется с заточенными под аналитику субд
    2 и не менее важное - статистика. Как минимум надо понимать что есть А/Б тестирование, как его проводить, как правильно выдвигать гипотезы и проверять их. Значимость
    3 - то, без чего можно обойтись, но то, что все равно придется учить, если не хочется уметь больше и продвигаться дальше - python (+pandas +jupyter и мб некоторые другие библиотеки и фреймворки)
    4 - то, что не является чем-то таким сложным, как питон или матстат, но понадобится в работе - Bi платформы. Мейнстримом являются tableau, power bi и qlik. Tableau - наиболее универсальный вариант с хорошими тарифами и возможностью полноценно изучать инструмент бесплатно. С него и советую начать. Power bi - близкий конкурент от майкрософт (что немного накладывает ограничения на стек технологий, но в целом все ок). C qlik не работал, но по ощущениям - очень старая платформа, используемая не самыми "айтишными" и гибкими с точки зрения технологий компаниями. Тоже очень мощная, но она скорее аутсайдер.
    Также внимания заслуживают опенсорсные (и бесплатные) Apache superset, metabase и redash. Если в компании данных не очень много и они не слишком сложные, могу посоветовать начать внедрение BI с metabase - удобная система, которая активно развивается. При грамотно спроектированной БД позволяет многие вещи смотреть без SQL вообще, а так же хорошо прокачать SQL на более сложных задачах. Из минусов - не очень большое число визуализаций (впрочем все самое важное есть) и не очень понятная система привилегий и прав доступа. Впрочем уже очень хорошо, что в опен-сорсной БИ есть столь развитая система прав доступа. Redash похож на мету. Суперсет в перспективе их переплюнет, но зачем он нужен, если нельзя построить обычный график, на котором на оси Х нет ничего кроме дат.. впрочем мб эту проблему уже доделали
    Еще есть Google Data Studio, который имеет отличную интеграцию с сервисами гугла, но показался сыроватым, впрочем это продукт гугла и это знак качества
    Ответ написан
    1 комментарий