• Путь data science. Как будет правильнее?

    @dmshar
    1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
    2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
    3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
    4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
    5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
    6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
    7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
    8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
    9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
    Удачи.
    Ответ написан
    3 комментария
  • Теоретическая часть по программированию?

    @dmshar
    Одно могу сказать точно: если человек, после полутора лет штудирования С++ (кстати, не самое простое, но - по моему мнению - самое верное начало) пишет по сути - "хочу не только кодить, ни и уметь действительно разрабатывать программные системы" - это отлично. Потому как многие - а сегодня, увы, можно сказать и большинство - останавливаються именно не кодинге, и мнят себя при этом курутыми разработчиками.
    Если обратить внимание на то, что автору всего 17 лет - то тем более - респект, так держать!
    Теперь по сути. Вы абсолютно правы, кодирование на любом языке, даже виртуозное, это еще не программирование. Что-бы стать хорошим программистом надо основательно изучить основы Теории Алгоритмов и Структур данных, теорию и практику работы с базами данных, особенности построения распределенных, мобильных и веб-приложений (даже если завтра вы не собираетесь писать под веб или Андроид), понять хотя-бы в общих чертах, как работают сети, и "полирнуться" основами архитектуры современных информационных систем и паттернами проектирования. Ну и надо понимать, для квалифицированного программиста знание одного языка - этого абсолютно недостаточно.
    В каком порядке и по каким источникам двигаться к цели - тут мнений много и разных. Вот несколько ссылок - только не воспринимайте их буквально, подходите творчески. Смотрите, что лучше вам ложиться на душу, что легче "заходит". И не комплексуйте, не бейтесь головой об стену если чего не поймете сразу - потом, через определенное время вернетесь и с высоты приобретенных знаний разберетесь. Главное - не отступать от цели, как в спорте - хоть по часу-два, но каждый день.
    Итак, для начала:
    https://proglib.io/p/cs-learning/
    https://teachyourselfcs.com/
    https://tproger.ru/curriculum/computer-science-ste...
    Удачи!
    P.S. И еще забыл - главное :-). English!!!! Без него в этой профессии сегодня - никак!
    P.P.S. И да - умение самостоятельно Гууглить, искать нужную информацию, отсекать информационный шлак. Ключевое слово - "самостоятельно"! Но это, как бы, вообще на "нулевом" месте.
    Ответ написан
    1 комментарий
  • Визуализатор строения программы/скрипта?

    @dmshar
    Да сколько угодно.
    https://code2flow.com/
    www.cocodex.com/code-to-flowchart
    https://viktor-zin.github.io/afce/
    https://sourceforge.net/directory/os:windows/?q=co...
    https://code-to-flowchart.smartcode.com/
    И далее по ссылкам.
    Только вот зачем это может понадобиться в реальной жизни?
    Ответ написан
    Комментировать
  • Где найти людей которые занимаются разметкой данных для искусственного интеллекта?

    @dmshar
    Есть такие сервисы, где исполняют любое желание по сбору данных?)
    Вот, не группа, но целая фирма:
    https://vc.ru/tribuna/63360-handl-servis-razmetki-...
    Ну, а если знаете китайский :-) - то:
    https://neurohive.io/ru/novosti/fabriki-razmetri-d...
    А тут небольшой обзор:
    https://habr.com/ru/company/newprolab/blog/352572/
    Так что, как говориться, "за ваши деньги - любой каприз" :-)
    Ответ написан
    Комментировать
  • Статистика для data science. С чего начать?

    @dmshar
    Повторял и повторяю. Первое, чему должен научиться любой школьник, желающий стать специалистом по Data Seince - это умению САМОСТОЯТЕЛЬНО искать в сети хотя-бы элементарную, первичную информацию.
    Не понимаю, неужели проще писать вопрос на форуме, часами ждать ответов, потом разбираться в них, отсеивать ложные, препираться с ответившими и пр. и тратить на это несколько дней, чем за 20 секунд набрать в Гуугле "статистика и анализ данных", через пять секунд на первой-же странице получить исчерпывающий список и книг, и сайтов, и блогов, и видео по теме и ровно через минуту начать заниматься тем, что тебя интересует? А на форум идти тогда, когда что-тот конкретное станет непонятным?

    Подсказка - если Гуугл отключен, то на этом-же форуме туча аналогичных вопросов. Просто слово в слово. Вы их смотрели, анализировали? Они вам чем-то не подошли или вы засомневались в компетентности ответов?
    Ответ написан
  • Построить блок схему (логическую или алгоритмическую)? Или из текста - википедию?

    @dmshar
    а так загрузил текст книги и получил хоть аналог википедии и хоть какую-то блок схему..
    . - и желательно, конечно, на шару.
    А так, мечтать, конечно, не вредно. Но все-таки надо бы в начала освоить терминологию. Иначе даже читать смешно.
    "видел как в ворде рисуют блок схемы..." - никто в MS Word блок-схемы не рисует и никогда не рисовал. Для этого есть как минимум MS Visio.
    а лучше софт для анализа текста по указанным терминам - а можно для начала попросить описать, что вы понимаете под словосочетанием "анализ текста"? И в добавок - "анализ по указанным (кем) терминам"? Ну, пример хотя-бы привести.
    схема для автоматизации алгоритма - это вообще непереводимый набор слов.
    например есть книга с высказываниями .. - любую книгу можно представить как "книгу с высказываниями". Или вы определенную книгу/тип книги имеете ввиду. Переведите, пожалуйста эту вашу мысль в общедоступную форму.
    текст раскладывают на основные термины и потом выстраивают схему со стрелками например основного смысла книги.. - как стрелки между терминами могут представить основной смысл книги? Загадка. Опять хочется попросить пример. Начать можно не с "Война и мир", а с "Колобка" - итак: список терминов, "стрелки", "основной смысл" (в графическом представлении??). Ждем.
    Причем к этому всему БД - абсолютно не понятно (если термин БД трактовать как "база данных", конечно).
    "Софт для визуализации (а лучше формирования БД)" - это как бы вообще две совершенно разные задачи.
    и конечно бд... отдаленно как википедия.. - БД и Википедия, через запятую, ну-ну.
    алгоритма например выхода из критической ситуации - просто :-(
    блок схему (логическую или алгоритмическую) - а можно определить, что понимается под "логической блок-схемой", а что под "алгоритмической блок-схемой"?

    Еще раз прочитал вопрос - не могу понять, то-ли шестиклассник писал, то-ли на нас тестируют систему, составляющую предложения из заданного набора слов.
    Ответ написан
    Комментировать
  • Machine Learning и Big Data за три дня?

    @dmshar
    Все зависит от цели, для чего вам нужно за три дня "освоить" Machine Learning и Big Data.
    Если для того, что-бы выйти перед школьниками или домохозяйками и прочитать им получасовую лекцию на тему, что это такое и как это круто - то вот
    ai-news.ru/2018/11/kak_stat_ekspertom_po_mashinnom...
    и вот
    https://vas3k.ru/blog/machine_learning/
    И при этом молиться, что-бы слушатели не начали задавать вам вопросов.

    Если через три дня вы уезжаете на курорт и желаете оставшееся время потратить на самообразование, то, например, вот -
    https://datascientia.blog/page/1/ - (там целая серия, кажется 11 статей цикла Data Science Simplified) - по четыре статьи на день, в общем-то не много.
    И вообще-то такого научно-популярного добра в сети - полно. Ищите.

    Если это - не приведи Господи - какой-то вступительный экзамен, или собеседование - то лучше сразу сушить весла - сил, нервных клеток и времени (своего и собеседующего) хоть сэкономите.
    Ответ написан
    Комментировать
  • Как осилить эту статью по компьютерной графике?

    @dmshar
    Возможно для этого цикла статей нужно что-то ещё кроме базового знания языка + базового знания алгоритмов?
    - да все элементарно. Надо получить образование в области ИТ, изучить алгоритмы работы с видоеизображениями, набить руку (получить опыт) в написании хоть каких-то программ - и ву-а-ля, такие статьи будут пониматься на раз.
    А вы думали, что программирование - это почти сантехника? Для понимания откуда течет достаточно четырех классов образования? Пришел с гаечным ключем, устранил протечку, получил кучу денег?
    Ответ написан
    2 комментария
  • С чего начать изучение блокчейна?

    @dmshar
    Ответ написан
    Комментировать
  • Где найти инструмент для создания диаграмм из множества данных?

    @dmshar
    1. "большое количество данных" - это сколько? Тем более, что вводить вы их собираетесь вручную. 1000? 100К?
    2. Инструменты - на выбор TABLEAU, EXCEL, D3, Python-Matplotlіb, Power BI, Dashboard Design и далее - по списку:
    https://m.seonews.ru/analytics/35-luchshikh-instru...
    czrt.by/notes/dataviz-tools.html
    Инструменты для интерактивной визуализации:
    infographer.ru/top-5-bibliotek-dlya-interaktivnoj-...

    3. И кстати - почему не хотелось EXCEL? Может в школе плохо учили? Потому как в нем инструментов и для вашей задачи в том числе - уйма и весьма удобных.
    Ответ написан
    2 комментария
  • Лучшие системы AutoML на основе табличных данных?

    @dmshar
    Как-то весьма сумбурно. И как мне кажется - заход не с той стороны.
    Поясню.
    1. ML - это не PHP, Python или С++. Это в первую очередь знание и опыт применения методов - как вы пишете - "предугадывания" (в том числе, конечно). Поэтому опыт ваших программистов - это последнее, о чем следует заботится, если вас интересует "Ещё раз подчеркну — исследование"
    2. Ну предположим, найдете вы что-то вроде self-hosted AutoML Tables. Теперь читаем "AutoML Tables enables your entire team of data scientists, analysts, and developers to automatically build and deploy state-of-the-art machine learning models on structured data at massively increased speed and scale." Т.е. в первую очередь - специалисты по DS и аналитики! Они у вас есть? Если есть - то спросите их, с какими инструментами они хотят работать. Если нет, то.... чудес не бывает.
    3. Вот когда вы подберете DS-специалистов, когда они продумают, каким образом надо анализировать ваши данные, выполнят Feature engineering, подберут (выберут) хотя-бы класс методов, которые имеет смысл применять, проведут пилотное исследование данных, приблизительно оценят их перспективность - и вполне может ( и скорее всего так оно и будет) оказаться, что именно для вашей задачи возможностей AutoML не хватает, - вот тогда и надо будет говорить и о фермах видеокарт и об опыте конкретных девелоперов.
    И рекомендую в самом начале пути осознать, что AutoML - это вовсе не мясорубка - на вход кусок мяса, на выходе - фарш.
    4. А так, AutoML систем на рынке достаточно. Ну, на вскидку - H2O AutoML,Auto-WEKA, TransmogrifAI, Firefly и т.д. Вот тут последний (по времени) обзор
    https://www.datasciencecentral.com/profiles/blogs/...
    и неплохие ссылки для дальнейшего чтения.

    P.S. И, кстати, 5 ГБ логов - это весьма скромный объем, тем более для всякого типа AutoML.
    Ответ написан
    Комментировать
  • Какие курсы выбрать для обучения на Data analyst/Data scientist с нуля?

    @dmshar
    Господи, слава Богу, что никому на ум не приходит написать "Попала вожжа под xвост. Xочу за год стать трушным хирургом/кардиологом (больше всего операции по пересадке сердца интересуют). С нуля, базового медицинского образования нет. "
    А че там мелочиться.
    А ниче, что для того что-бы стать специалистом в ЛЮБОЙ области надо потратить 10000 часов. Ладно, пусть вы суперталант и вам надо не 10К, пусть в два раз меньше - 5K. Из расчета 8 часов каждый день пять дней в неделю - это уже 120 недель, т.е. почти два с половиной года. Вы готовы столько тратить помимо "работы для оплаты курсов и пропитания"?
    Впрочем, конечно, сейчас вам тут насоветуют супер-пупер книжек, видеороликов и курсов. Ну, вперед, к мечте. Только когда поймете, что жизнь - это не рекламный ролик, а время и деньги - потрачены почти в холостую - не говорите, что вас не предупреждали.
    Ответ написан
    4 комментария
  • Как построить модель, когда обучающая выборка состоит из ежеминутных показаний?

    @dmshar
    В вашей задачи скорее всего показатель качества каким-то образом зависит от изменений параметров процесса в течении предыдущего часа (а может - не только одного, но и нескольких предыдущих часов - т.н. системы с задержкой. А может - и еще замысловатее - зависимость есть и от значения показателя качества в некоторые предыдущие периоды). Например - не было-ли выбросов, не происходили ли циклические изменения и пр. Таких показателей процесса - много. От тривиальных - среднего, среднеквадратичного отклонения, до более сложных - формы функции распределения значений, энтропии, наличия тренда и его характеристик и пр. И скорее всего именно от каких-то из этих показателей и/или их сочетаний, а так-же от взаимных изменений показателей наблюдаемых вами временных рядов между собой каким-то образом зависит то значение показателя качества, которое вы получаете ежечасно. Вот собственно это вам и надо выяснить. Т.е. анализируем процесс за час (это ваши входные данные) - делаем предсказание качества (это выходной результат вашей модели). Ну, можно, конечно, тупа попытаться запихнуть в какую нибудь сетку все своим сырые данные (N*60 точек за час, где N-количество ваших датчиков), но думаю толку от этого будет мало. Поэтому, очевидно, первый этап, который вам придется пройти - Feature engineering, т.е. конструирования параметров, по которым потом вы и будете обучать свою модель.
    Вот как-то так.
    Ответ написан
    Комментировать
  • Какие статистические методы применимы к неслучайным величинам?

    @dmshar
    Если вы хотите "Научно" подойти к вопросу, то начните, хотя-бы с изучения терминологии.
    Y=sin(X) - тут Y неслучайная величина.
    Y~sin(X) - а тут Y - уже случайная.
    Курс валюты будет неслучайной величиной только в случае, если его насильно устанавливает Центробанк. Вот в СССР курс USD/RUR был точно неслучаен.
    А сегодняшние курсы (котировки) валют - величины абсолютно случайные (в терминах мат.статистики, разумеется).
    И это раз.
    Все перечисленные вами стат.характеристики - а так-же неперечисленые - вполне себе применимы к вашим примерам. Хотите подходить научно - изучайте науку, которая называется "математическая статистика" для начала.
    Это два.
    Для изучения "зависимостей неслучайных величин" (или неслучайных зависимостей любых величин) используются представление таких зависимостей в виде функций, изучаемых начиная с пятого класса средней школы. Ну, например Закон Ома - это неслучайная (да и то в определенных пределах) зависимость трех величин. Только вот все это к случайным величинам, коими являются котировки валют - отношения не имеет от слова совсем.
    Это три.
    То что вы хотите подойти "научно" к задаче Форекса - похвально с точки зрения поощрения научной любознательности, но абсолютно вредно - с точки зрения житейской целесообразности. Полезно - потому как "по дороге", если хватит усердия и не проиграетесь, будет шанс изучить абсолютно все статистические методы - вплоть до искусственных нейросетей, генетических алгоритмов и фрактального анализа - которые в этой области уже применяются лет семьдесят. Вредно - потому как практически никто это задачу не решил и похоже в ближайшие - и не только будущее - решению она не поддастся. Почему - это уже более глубокий вопрос.
    Это четыре.
    Ответ написан
    2 комментария
  • Как называется эффект схожих данных абсолютно разных типов выборок?

    @dmshar
    Ложная корреляция. (spurious correlation)
    tylervigen.com/spurious-correlations?imm_mid=0f155...
    https://www.finam.ru/analysis/newsitem718AB/
    P..S. Корреляция - это когда связь между данными все-же существует. А ложная корреляция - это когда формальными методы показывают как бы наличие такой связи, а вот логика и семантика говорит, что ее нет. Кроссовки и урожайность - неплохой пример второго, но никак ни первого.
    Ответ написан
    Комментировать
  • Как вывести на экран список ребер, считанных из файла?

    @dmshar
    То-ли я чего-то недопонимаю, то-ли вопрос - почти детский.
    В вашей постановке любой элемент матрицы, отличный от нуля соответствует ребру, индексы этого элемента - узлы связанные данным ребром, а значение - вес. Все!
    Вопрос-то в чем? Как перебрать все элементы матрицы?
    Ответ написан
  • Где найти типовое ТЗ на дизайн и на разработку мобильного приложения?

    @dmshar
    Я неверно вас сильно удивлю, если на вопрос "где найти типовое ТЗ " - отвечу: "в Гуугле"?
    Это конечно вовсе не очевидно и сегодня не все школьники пятого класса умеют им пользоваться, но вот задав в поисковой строке "пример тз на разработку мобильного приложения" с первой же страницы поиска имеем:
    https://wellsoft.pro/blog/shkola-zakazchika-tz-na-...
    https://content.freelancehunt.com/projectsnippet/c...
    ios-lab.ru/razrabotka_tz
    https://www.hse.ru/mirror/pubs/share/190980326
    https://businessarchitecture.ru/техническое-задани...
    https://docplayer.ru/56037954-Tehnicheskoe-zadanie...
    https://loftblog.ru/material/4-sozdaem-texnichesko...
    и т.д.
    P.S. И, кстати, что такое "вAйна и мир"?
    Ответ написан
    2 комментария
  • Какие бывают методы оценки чего либо, кроме метода попарного сравнения СААТИ?

    @dmshar
    Надеюсь, диплом никак не связан ни с информационными и компьютерными технологиями, ни с техническими науками вообще. Иначе я не понимаю, как технический специалист с дипломом не может произвести элементарный информационный поиск и легко, с одного клика найти нужную информацию.
    Ну, например:
    window.edu.ru/resource/707/59707/files/stup418.pdf
    https://moluch.ru/conf/tech/archive/126/8359/ - это, кстати, по поводу сравнительного анализа средств защиты информации от несанкционированного доступа
    https://nootron.net.ua/Help.htm?p=chapter2.html
    https://studfiles.net/preview/1979727/page:10/
    www.levvu.narod.ru/Papers/Multicrit.pdf
    Про отсутствие информации о методах оценки угроз или уязвимостей информационной системы слышать даже не странно, а дико - кажется сегодня уже даже школьникам об этом рассказывают, а уж различных методов, подходов и систем - просто не счесть. Ну например, просто для начала, так сказать - введение в тему:
    https://studfiles.net/preview/4518611/page:2/
    https://rus.neicon.ru/xmlui/bitstream/handle/12345...
    https://www.safe-surf.ru/specialists/article/5193/...
    https://www.ixbt.com/cm/informationsystem-risks012...
    https://cyberleninka.ru/article/v/analiz-podhodov-...
    https://studopedia.org/9-49562.html
    www.globaltrust.ru/ru/uslugi/audit-informacionnoi-...
    https://www.anti-malware.ru/security/security-check - тут, например, список "систем" для анализа.
    P.S. И, кстати, Саати - это фамилия (Thomas L. Saaty, если что), и пишется с одной заглавной буквой, но никак не аббревиатура.
    Ответ написан
    1 комментарий