Ответы пользователя по тегу Аналитика
  • С чего начать изучение анализа данных python?

    @dmshar
    Давайте с конца в начало.
    "Если самостоятельно, то с чего начать изучение?" - тут все понятно и однозначно. Если хотите учиться самостоятельно, то начинать надо, естественно с обучения самостоятельному поиску нужной информации в сети. Хотя-бы с помощью Гуугла. А затем - самостоятельному принятию решений.

    "стоит ли тратить такие большие деньги, или же лучше начать изучение самостоятельно" - вообще-то что бы стать специалистом, надо потратить очень много времени. Правило 1000 часов никто не отменял. Особенно в таком "мозгоёмком" направлении как Data Science. Вон люди ведут дискуссии на тему - необходим-ли уровень phD, что-бы считать себя специалистом по анализу данных, или достаточно магистерского уровня по профильной специальности. Поэтому обязательно включите в список рассматриваемых альтернатив "получение высшего образования". И возможно это должен быть первым вариантом. А уж если по каким-то причинам не получиться - то переходить к следующим.

    "цены начинаются от 60 тысяч рублей." - вообще-то весьма гуманно. Вы же, когда станите специалистом, за бесплатно работать не захотите. Вот и люди тоже хотят. Тут надо смотреть не на ценник, а на то, кто и что вам будет рассказывать. Если вчерашний студент или человкек без опыта (кстати, как профессионального, так и методического) - то я бы не платил. А если это люди с известными именами, известные лекторы, известные разработчики (действительно известные и авторитетные, а не те, кто себя такими считает) - то цена за возможность лично задать вопрос, лично у него чему-нибудь научиться - весьма адекватна. Так что тут надо смотреть внимательно.

    Ну и еще одно - хотите специализироваться в Аналитике данных (и в программировании, кстати, тоже) - не забудьте об английском.
    Ответ написан
  • Автоматизация подбора тегов к статье, как?

    @dmshar
    Существуют.
    Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
    Ну вот, на вскидку, просто как пример:
    https://towardsdatascience.com/applying-machine-le...
    Elaslic тут очень далеко - только как хранилище информации.
    Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.
    Ответ написан
  • Как подсчитать общий тренд?

    @dmshar
    Построить линию линейной регрессии. По знаку коэффициента a ( в некоторых книгах он называется коэффициентом b1, в общем - это коэффициент при Х ) определяется возрастающий или ниспадающий тренд у набора.
    В Python, в библиотеке sklearn для этих целей есть функция LinearRegression.
    На самом деле, самое трудное - определить то, что вы очевидно назвали "flat" - т.е. отсутствие тренда. Для этого мало определить сам указанный коэффициент, но надо посчитать его доверительный интервал и понять, захватывает-ли он 0.
    Ответ написан
  • Где найти историю отношений между двумя странами?

    @dmshar
    Хорошая идея для стартапа, кстати. Ибо подобных ресурсов, похоже, в сети нет.
    Ответ написан
  • Как вычислить изменчивость показателя прибора (индекс направленности)?

    @dmshar
    У вас данные измерены в шкале порядка, а значит, в лоб сравнивать среднее и пр. нельзя.
    Для таких данных используются свои способы оценки. Например, можно ваш ряд разбить на несколько последовательных окон ( предельный случай 45:45, т.е. два окна, но я бы начал с 4 или 5 окон), а затем сравнение проводить между каждыми двумя последовательными подвыборками используя любой непараметрический метод сравнения, например самый простой - Вилкоксона-Манна- Уитни. (https://ru.wikipedia.org/wiki/U-критерий_Манна_—_Уитни) Критерий покажет, есть ли статистически значимое "улучшение".
    Ответ написан
  • Анализ целочисленого массива данных?

    @dmshar
    Изобретать ничего не надо. Конкретно по вопросам:
    1. Строите разность (последующее число - предыдущее число). Затем строите гистограмму полученного ряда разностей.
    2. Строите гистограмму исходного ряда.
    3. Делите диапазон возможных значений на необходимые вам фрагменты. Строите двумерный массив, в котором каждый элемент представляет собой пару (номер фрагмента предыдущего числа, номер фрагмента следующего числа). Строите тепловую карту полученного массива.
    Итого - надо два сервиса.
    1. Построение гистограмм - присутствует в ЛЮБОМ инструменте - от EXCEL до SPSS, от MatLab до SAS, от R до Tableau.
    2. Построение тепловой карты (heatmap) - аналогично предыдущему. Сокращенный список возможного инструментария, например, вот здесь:
    https://ru.wikipedia.org/wiki/Тепловая_карта
    Ответ написан
  • Путь data science. Как будет правильнее?

    @dmshar
    1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
    2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
    3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
    4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
    5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
    6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
    7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
    8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
    9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
    Удачи.
    Ответ написан
  • Статистика для data science. С чего начать?

    @dmshar
    Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
    Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

    Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?
    Ответ написан
  • Построить блок схему (логическую или алгоритмическую)? Или из текста - википедию?

    @dmshar
    а так загрузил текст книги и получил хоть аналог википедии и хоть какую-то блок схему..
    . - и желательно, конечно, на шару.
    А так, мечтать, конечно, не вредно. Но все-таки надо бы в начала освоить терминологию. Иначе даже читать смешно.
    "видел как в ворде рисуют блок схемы..." - никто в MS Word блок-схемы не рисует и никогда не рисовал. Для этого есть как минимум MS Visio.
    а лучше софт для анализа текста по указанным терминам - а можно для начала попросить описать, что вы понимаете под словосочетанием "анализ текста"? И в добавок - "анализ по указанным (кем) терминам"? Ну, пример хотя-бы привести.
    схема для автоматизации алгоритма - это вообще непереводимый набор слов.
    например есть книга с высказываниями .. - любую книгу можно представить как "книгу с высказываниями". Или вы определенную книгу/тип книги имеете ввиду. Переведите, пожалуйста эту вашу мысль в общедоступную форму.
    текст раскладывают на основные термины и потом выстраивают схему со стрелками например основного смысла книги.. - как стрелки между терминами могут представить основной смысл книги? Загадка. Опять хочется попросить пример. Начать можно не с "Война и мир", а с "Колобка" - итак: список терминов, "стрелки", "основной смысл" (в графическом представлении??). Ждем.
    Причем к этому всему БД - абсолютно не понятно (если термин БД трактовать как "база данных", конечно).
    "Софт для визуализации (а лучше формирования БД)" - это как бы вообще две совершенно разные задачи.
    и конечно бд... отдаленно как википедия.. - БД и Википедия, через запятую, ну-ну.
    алгоритма например выхода из критической ситуации - просто :-(
    блок схему (логическую или алгоритмическую) - а можно определить, что понимается под "логической блок-схемой", а что под "алгоритмической блок-схемой"?

    Еще раз прочитал вопрос - не могу понять, то-ли шестиклассник писал, то-ли на нас тестируют систему, составляющую предложения из заданного набора слов.
    Ответ написан
  • Лучшие системы AutoML на основе табличных данных?

    @dmshar
    Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
    Поясню.
    1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
    2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
    3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
    И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
    4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
    https://www.datasciencecentral.com/profiles/blogs/...
    и неплохие ссылки для дальнейшего чтения.

    P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
    Ответ написан
  • Какие курсы выбрать для обучения на Data analyst/Data scientist с нуля?

    @dmshar
    Господи, слава Богу, что никому на ум не приходит написать "Попала вожжа под xвост. Xочу за год стать трушным хирургом/кардиологом (больше всего операции по пересадке сердца интересуют). С нуля, базового медицинского образования нет. "
    А че там мелочиться.
    А ниче, что для того что-бы стать специалистом в ЛЮБОЙ области надо потратить 10000 часов. Ладно, пусть вы суперталант и вам надо не 10К, пусть в два раз меньше - 5K. Из расчета 8 часов каждый день пять дней в неделю - это уже 120 недель, т.е. почти два с половиной года. Вы готовы столько тратить помимо "работы для оплаты курсов и пропитания"?
    Впрочем, конечно, сейчас вам тут насоветуют супер-пупер книжек, видеороликов и курсов. Ну, вперед, к мечте. Только когда поймете, что жизнь - это не рекламный ролик, а время и деньги - потрачены почти в холостую - не говорите, что вас не предупреждали.
    Ответ написан
  • С помощью каких критериев проверяются статистические гипотезы относительно доли признака и относительно математического ожидания?

    @dmshar
    Не могу понять, это праздный вопрос - т.е. шли по улице, вдруг осенило - "а как это сделать"? Дай-ка спрошу у сообщества. Или этот вопрос - результат попыток глубоко изучения соответствующих книг и сайтов и непонимания каких-то вычитанных там сложнейших выкладок? Вот что заставляет задать вопрос даже не Гууглу, а на сайте? Вопрос, ответы на который есть на первых страницах ЛЮБОЙ книги для начинающих изучать статистику.
    Ну, если вдруг вас уже отключили от Гуугла и интернет у вас отказался работать подсказываю, что гипотезы относительно математического ожидания двух нормальнораспределенных выборок проверяются с помощью T-критерия Стьюдента.
    Проверка нулевой гипотезы о равенстве долей выполняется т.н. Z-критерием, являющимся модификацией предыдущего.
    Рекомендую вот такую книгу для начального ознакомления:
    С. Гланц Медико-Биологическая Статистика.
    Вообще-то она есть в свободном доступе в сети, но если у вас проблемы с интернет - тогда точно, в библиотеку.
    Ответ написан
  • Как определить математическую функцию для графика?

    @dmshar
    Хочется разработать на Python такой алгоритм для применения в прогнозировании, сроки очень сжатые а у меня в этой области пока никакого опыта.
    Блин, люди с 20-ых годов XX столетия разрабатывали такие алгоритмы, за последние 20 лет напрограммировали горы программ и библиотек. Но нет, не то что учить - просто бегло ознакомиться влом. А зачем? Что-бы тут кто-то в одном сообщение пересказал всю теорию с практикой? Хочется "разработать алгоритм" - ну так разработай, в чем проблема. Сроки поджимают - ну, договаривайся с заказчиком. Или сообщение надо рассматривать как предложение работы - тогда в другой раздел.
    Ладно, если нужно только правильное направление мысли - копай в сторону "временнЫх рядов" (в первом слове ударение на последнем слоге). Там и раздел соответствующий есть - "прогнозирование на основе временных рядов" называется. Да хотя-бы введи в поиск Гуугла и пройди по первым-же ссылкам.
    Удачи.
    Ответ написан
  • Что нужно знать, чтобы заниматься анализом данных?

    @dmshar
    Что-бы заниматься анализом данных надо, в первую очередь:
    1. Уметь САМОСТОЯТЕЛЬНО искать и находить информацию в интернете.
    2. Уметь САМОСТОЯТЕЛЬНО анализировать найденную информацию.
    3. Уметь САМОСТОЯТЕЛЬНО делать выводы из анализа.
    Пока у ТС с этим, очевидно, никак. Данный вопрос даже на Тостере задается по три раза в неделю, а в интернете - ежедневно куча статей на тему. Открывем теги "Машинное обучение", "Data science", "Data mining", да "IT-ОБРАЗОВАНИЕ" наконец. и вперед! "А вот нет, искать - не хочется, найти - не получается, пусть кто-то мне другой найдет и расскажет.

    И еще. Если даже "джун в программировании" вам не нравится, потому как "очень много учить надо", то хочу вас разочаровать, в анализе данных учить надо во много раз больше.
    Ответ написан
  • Как решаются подобные задачи и каким инструментом лучше?

    @dmshar
    Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

    А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
    Но конечно, обучающих элементов чем больше - тем лучше.
    Ответ написан
  • Как классифицировать новость с помощью машинного обучения?

    @dmshar
    Меня всегда интересовало - люди начинают заниматься такими вопросами из соображений простого любопытства или им дают такое задание по работе? Если первое - то почему сразу за советами в форум, а не элементарный поиск в интернет или чтение учебника. Если второе - то почему не объяснить работодателю, что вы не специалист в теме?
    А информации не самом деле уйма - книги, веб ресурсы, курсов, любой учебник по машинному обучению содержит соответствующий раздел или как минимум пример.

    https://www.slideshare.net/compscicenter/-32801202
    https://www.youtube.com/watch?v=hULD4jS5DEc
    https://towardsdatascience.com/text-classification...
    xplordat.com/2018/12/14/want-to-cluster-text-try-c...
    https://www.analyticsvidhya.com/blog/2018/11/tutor...
    https://habr.com/post/346206/
    https://nlpub.ru/
    Ответ написан
  • Какой минимальный уровень знаний для работы в анализе данных/ML?

    @dmshar
    Вариантов ответов на ваш вопрос - огромное множество. Но если информация аж трехлетней давности для вас - устарела (хотя я не понимаю, как могут устаревать базовые, фундаментальные знания . Да и более свежих версий на Тостере - навалом. Ну да ладно) , то вот вам новейшее изыскание на заданную тему
    https://dev.by/news/kak-izuchit-data-science
    Ответ написан
  • Какие виды анализа аналоговых рядов бывают?

    @dmshar
    Уже даже не смешно.
    В предыдущем вашем вопросе уже сказали, что эти данные называются "временнЫе ряды". По английски - Time Series. По немецки - Zeitreihe. По украински - "часові ряди". По польски - Szereg czasowy. По французски - série temporelle.
    Вам даже дали кучу ссылок, на сайты и книги, где тема раскрывается с разных сторон. Теперь вы хотите это назвать "аналоговыми рядами"??? Ну называйте, если вам этот термин нравиться больше. Только объясните, чем вам не угодил тот термин, которым уже лет 150 пользуется все (статистически) образованное человечество.
    Ответ написан
  • Какие эффективные методы для обработки больших массивов данных?

    @dmshar
    1. 500 тыс. чего? Записей? Какой объем записи? Но вообще-то говоря, данные такого объема "большими" считать не приходится - это вполне умеренные объемы для практически любых современных задач и соответственно - современных инструментов работы с данными.
    2. Данные указанного типа - относятся к т.н. временнЫм рядам. Классика жанра, если временнЫе метки задают равные интервалы, но и в противном случае - можно работать с такими данными относительно легко - главное, понимать, что же с этой информацией вы хотите сделать.
    3. Форма визуализации времаннЫх рядов - различного рода графики. Ось Х - время, ось Y - значения ряда. Впрочем, могут быть и другие представления, в зависимости от цели такой визуализации.
    4. С такими данными обычно решают два класса задач. Либо по набору значений ряда в прошлом выполняют предсказание значений, которые ряд будет принимать в будущие моменты времени. Либо обнаружение в прошлых значениях ряда некоторых аномалий. Тут может быть два варианта - либо выявление выбросов, т.е. единичных точек, чье поведение противоречит модели поведения ряда, либо выявление момента смены собственно самой модели поведения ряда.
    5. Да, "специалисты по статистике" тут - наверное, к вашему удивлению - тут есть.
    6. "не могу сформулировать задачу, т.к. не владею предметной областью статистики -- а вы сформулируйте свою задачу в своей предметной области, а специалисты по статистике вам потом помогут.
    Ответ написан