• Как правильно построить усреднённые оценки по выборке?

    @dmshar
    Все зависит от того, что вы в итоге хотите получить, и главное - зачем.
    Что вы называете "корректным результатом"?
    Если вас интересует время, которое затрачивает "усредненный" человек на ответ на конкретный вопрос - то чем вас смущает то, что один отвечает за 1 секунду, а другой - за 10? Вы же хотите учесть всех? Ну значит считаем среднюю (или медиану) со своим доверительным интервалом и среднеквадратичное отклонение.
    По таким данным вы потом вполне корректно можете оценить, на сколько любой новый тестируемый отличается от "среднего" тестируемого. Или даже при желании проранжировать своих тестируемых. Если у вас две группы тестируемых, то можете корректно ответить на вопрос, отличаются ли статистически значимо результаты в первой и во второй группах.
    То, что кто-тот будет нажимать не задумываясь, вы этим тестом не выясните никак. Вот лично я (правда, не нажимая кнопки, просто - читая ваш вопрос) ответил на каждый меньше, чем за секунду. (Причем, я уверен, что ответил правильно :-) )И что? Я задумывался или нет?
    А если человек "завис" на каком-то вопросе, то это вовсе не говорит о том, что он не знает ответа. Может его в ступор загнало сомнение "что за дурь, неужели это серьезный вопрос, где подвох, ибо ответ-же очевиден". Особенно при чтении нескольких первых нескольких вопросов.
    Кроме того, методически ваш тест весьма сомнителен. Что на самом деле выясняется - скорость ответа на вопросы или умение быстро читать? А может быть скорость моторики и координация движений испытуемого (умение быстро нажимать кнопки тоже требует определенных навыков).
    Ответ написан
  • Может ли язык R выполнять несколько скриптов одновременно?

    @dmshar
    https://habr.com/ru/post/168399/ - если разберетесь, можете попробовать.

    Но вообще-то говоря, основная задача для R - это научные исследования и эксперименты. А многопоточность и пр. - это ухищрения для эффективности промышленной эксплуатации.
    Ответ написан
  • Winrar алгоритм?

    @dmshar
    Ну, во-первых. Что делает Winrar:
    "Распаковка архивов RAR, а также ARJ, bz2, CAB, GZ, ISO, JAR, LZH, TAR, UUE, XZ, Z, ZIP, ZIPX, 7z,"
    Таким образом, сама программа умеет работать со множеством разных форматов, т.е при распаковке используется множество разных алгоритмов.
    Во-вторых:
    Хотя архивирование в формат RAR — проприетарное, на официальном сайте RarLab доступен защищённый авторскими правами бесплатный исходный код распаковщика UnRAR, лицензия на который разрешает использовать его в любом ПО. Таким образом, сторонние авторы могут создавать программы, способные распаковывать (но не создавать) RAR-архивы - таким образом, если вам задали такую тему работы, то неплохо бы начать с ознакомлением с этим материалом.
    В-третьих: Начиная с версии 5 в WinRAR добавлена поддержка нового архивного формата RAR5,. Отлично. Лезим сюда: https://www.rarlab.com/technote.htm и изучаем внимательно.
    Затем - углубляем наше понимание:
    saanvi.ru/fac.php?filename=txt/soft/rar5.txt
    Наконец, от тех, кто требуем от вас сам алгоритм просим денег на покупку лицензии у авторов. В противном случае обвиняем их в попытке нарушения авторских прав :-)
    Ответ написан
    1 комментарий
  • Как вычислить изменчивость показателя прибора (индекс направленности)?

    @dmshar
    У вас данные измерены в шкале порядка, а значит, в лоб сравнивать среднее и пр. нельзя.
    Для таких данных используются свои способы оценки. Например, можно ваш ряд разбить на несколько последовательных окон ( предельный случай 45:45, т.е. два окна, но я бы начал с 4 или 5 окон), а затем сравнение проводить между каждыми двумя последовательными подвыборками используя любой непараметрический метод сравнения, например самый простой - Вилкоксона-Манна- Уитни. (https://ru.wikipedia.org/wiki/U-критерий_Манна_—_Уитни) Критерий покажет, есть ли статистически значимое "улучшение".
    Ответ написан
  • Актуально ли Десктоп Программирование?

    @dmshar
    Так вопрос-то в чем?
    Актуально-ли Десктоп Программирование - Ответ: да, актуально.
    Вопрос: Можно-ли в Десктоп-программировании заработать кучу денег - Ответ: как повезет.
    Вопрос: Где можно заработать кучу денег. Ответ: в любой области программирования, причем, чем меньше вакансий, тем - как правило - дороже специалист.
    Вопрос: Требуется ли вышка? Ответ: если хотите быть разработчиком, а не кодером - то да, Если удовлетворитесь ролью кодера - то нет. Кстати, в верстке практически нет разработки, вот и не надо там вышки. В дескоп, а тем более в разработке этерпрайз-систем, тем более в их проектировании - вышка практически обязательна.
    Вопрос: не окажется-ли, что выучив С# потом придется переучиваться /учить другие языки программирования. Ответ: да придется. Программирование как профессия - это постоянное, до пенсии, освоение новых технологий и инструментов. В том числе новых языков. Но зная один язык (причем - чем сложнее, комплекснее и "низкоуровневее") - тем проще учить второй, третий и пр. После С+ - С#, Java, Python, PHP, JavaScript, GO..... идут легко и непринужденно. А вот попробуйте после JS освоить тот-же С++.
    И, кстати, Python - это не только (и даже не столько) web-разработка.
    Ответ написан
  • Достаточно ли материалов KhanAcademy по математике чтоб было возможно учить MachineLearning?

    @dmshar
    Ну, задаем вопрос в Гуугл, получаем кучу исчерпывающих ответов, ознакамливаемся, принимаем к действию, начинаем изучать.
    https://habr.com/ru/company/plarium/blog/442772/
    https://habr.com/ru/post/432670/
    ai-news.ru/2018/12/vazhnye_aspekty_matematiki_v_na...
    https://www.datasciencecentral.com/profiles/blogs/...

    За одно решаем, достаточно-ли того что преподают на Khana, что-бы покрыть список рекомендованных разделов и тем.
    Удачи.
    Ответ написан
    Комментировать
  • AI для карточной игры?

    @dmshar
    Если и вправду "Но в ML я полный null или nil. " то ответ на вопрос " с чего начать" самоочевиден. Начните с начала, с изучения ML. С азов.

    Что почитать, что выбрать? - этот вопрос задавался 284 раза даже на Тостере. Я понимаю, самому искать, читать, анализировать - лень. Хочется, что-бы кто-то это сделал за нас. Ну ладно, - вот тут:
    https://tproger.ru/curriculum/data-scientist-curri...
    www.cyberforum.ru/ai/thread2010374.html#post10584290
    https://proglib.io/p/data-science-faq/
    ai-news.ru/2018/10/podborka_resursov_po_mashinnomu...
    есть УЙМА информации про то и как начать, и в каком порядке изучать, и какие книги-сайты-видео смотреть. Выбирайте в зависимости от уровня своей подготовки, вкусов и настроения.

    Наверняка у них есть что-то ML. - у них, это у кого? И что именно "есть"? Да на Azure есть "Azure Machine Learning service". Но что вы хотите там найти? И как собираетесь этим пользоваться, не понимая даже, что вам надо?

    Возможно, кто-то уже этим пользовался - Чем, "Azure"? Да, пользовались. Думаю, десятки тысяч людей. И что? Как эта информация поможет вам в решении вашей задачи?

    В общем, непонятно, что конкретно вы ожидаете услышать в рамках ответе на ваш вопрос.
    Ответ написан
    1 комментарий
  • Есть ли сервисы/программы для прогнозирования следующего числа/диапазона чисел?

    @dmshar
    Есть ли что-то такое?

    Есть

    В нейросетях не разбираюсь, на фриланс денег нет.

    А в чем разбираетесь?
    Изучением
    прогнозирования следующего числа/диапазона чисел
    занимается раздел науки, который называется "анализ временнЫх рядов". Что-бы его изучить, не надо знать нейросети и не надо иметь деньги (хотя они, конечно, никогда не бывают лишними) . Иметь надо одно - мозги. Ну и скилзы по математике не помешают, конечно.
    Ответ написан
    3 комментария
  • Как уменьшить количество уровней в факторе?

    @dmshar
    А остальные куда деть?
    Т.е.
    Вариант 1 - вы просто выкидываете все фильмы, отнесенные к 10 неинтересных вам категорий.
    Вариант 2 - вы "раскидываете" фильмы "неинтересных" категорий по 5 интересным категориям. Алгоритм раскидывания - это ваша забота.
    Чего-то другого не вижу.
    Ответ написан
    Комментировать
  • Анализ целочисленого массива данных?

    @dmshar
    Изобретать ничего не надо. Конкретно по вопросам:
    1. Строите разность (последующее число - предыдущее число). Затем строите гистограмму полученного ряда разностей.
    2. Строите гистограмму исходного ряда.
    3. Делите диапазон возможных значений на необходимые вам фрагменты. Строите двумерный массив, в котором каждый элемент представляет собой пару (номер фрагмента предыдущего числа, номер фрагмента следующего числа). Строите тепловую карту полученного массива.
    Итого - надо два сервиса.
    1. Построение гистограмм - присутствует в ЛЮБОМ инструменте - от EXCEL до SPSS, от MatLab до SAS, от R до Tableau.
    2. Построение тепловой карты (heatmap) - аналогично предыдущему. Сокращенный список возможного инструментария, например, вот здесь:
    https://ru.wikipedia.org/wiki/Тепловая_карта
    Ответ написан
    1 комментарий
  • Собеседник на нейросети или как собрать велосипед?

    @dmshar
    А может, если пока не умеете самостоятельно произвести Google-поиск, создавать чат бота рановато? Ведь даже имея какие-то подсказки, возникнут десятки вопросы, ответы на которые придется спрашивать у Гуугла? Или опять придете сюда?
    Ну ладно, вот первая десятка ответов, который дал поиск. Для пользователей с разным уровнем исходной подготовки. Он вам по каким-то причинам не подходит?
    https://serpstat.com/ru/blog/kak-sozdat-chat-bota/
    https://shcherbakovs.com/stepbystep-plan-to-create...
    https://habr.com/ru/post/311008/
    https://vc.ru/services/57488-14-servisov-dlya-sozd...
    https://ain.ua/2017/03/23/5-servisov-kotorye-pozvo...
    https://ru.wix.com/russianhtml/leader-ru?utm_sourc...
    https://neurohive.io/ru/tutorial/kak-sozdat-chat-b...
    https://proglib.io/p/chat-bots-intro/
    https://habr.com/ru/post/317732/
    https://habr.com/ru/post/340190/
    Ответ написан
  • Какие русскоязычные аналоги Хабр существуют?

    @dmshar
    Для себя вопрос решил так. Создал аккаунт на feedly, занес (и продолжаю заносить) туда интересующие меня сайты и блоги (кстати - там у меня есть три или четыре темы из Хабра), просматриваю раз в день. Т.е. по сути ежедневно получаю самый "свежак". Если что заинтересовало по названию - читаю дальше.
    Это, конечно, не решает вопрос личного блога. Но это два совершенно разных формата. Если хочется что-то написать умное - блог можно вести где угодно. Хоть на Блогере, хоть на Medium, хоть где понравиться. Будет качественный контекст - люди подтянуться. А нет - то площадка тут ни при чем.
    Ответ написан
    Комментировать
  • Machine learning / Data science / Data analytics?

    @dmshar
    Если и вправду "В этом я полный ноль," - то путь у вас один единственный. Нанять специалиста (специалистов!!!) заплатить денег и поручить им решить вашу задачу.
    Потому что путь "Хочу всё свободное время потратить на изучение данной предметной области" - он похвальный. Но тупиковый. Через примерно 500 часов изучения (в реалии, думаю, что в несколько раз больше, т.к. судя по стилю вопросу, вы не только в ML полный ноль, но и в разработке ПО, анализе систем и еще в паре-тройке направлений, который придется задействовать - не даром я написал "специалистов" во множественном числе) - так вот, после того, как вы найдете это количество "свободного времени" и полностью потратите его на получение соответствующих знаний, думаю, и ваша задача потеряет актуальность и вы потеряете к ней интерес.

    И да, ваша задача к ML имеет очень касательное отношение, реально потребуются во многом другие знания и подходы.

    P.S. Ну почему все вдруг решили, что изучение ML самостоятельно, в свободное время и на дому это проще, чем такое-же изучение, например, геофизики или хирургии???
    Ответ написан
    Комментировать
  • Есть ли где-нибудь в доступе информация о частоте использования отдельных символов unicode в разных стилях текста и на разных языках?

    @dmshar
    1. Какое отношение Unicode имеет к кодировке ср1251? (Подсказка ср1251 - 8-битная кодировка, Unicode - как минимум 16-битная)
    2. Какое отношение к "разным языкам" имеет ср1251(Подсказка ср1251 - кирилическая, а по сути - русскоязычная кодировка)
    3. Что означает "мертвость" символа? Ну например, символ "~" почти мертвый. И это не зависит ни от стиля текста, ни от языка.
    4. Современный вариант Unicode (по состоянию на май 2019) содержит 137 994 символов. Как ві себе представляете таблицу с частотой их использования?
    Ответ написан
  • Что узнать, за счет чего растет качество модели?

    @dmshar
    Сначала надо определиться, а что-же вы понимаете под термином "сложность модели"?
    Потому что "сложности" , действительно, бывают разные - как минимум "структурная" и "вычислительная". Но походе, вы их малость перепутали.
    Возьмем ваш пример с Random Forest - увеличение количества сплитов не есть увеличение структурной сложности модели. Точно так-же, как и добавление новой переменной к нелинейной регрессионной модели заданного порядка не ведет к увеличению структурной сложности модели. А вот изменение - например - квадратичной модели на кубическую - ведет к изменению и структурной сложности и - как следствие - вычислительной.

    Eсли это себе ясно представить, то становиться понятным, что введение нового признака в рамках одной модели - есть действие, результат которого влияет на "качество модели" (кстати, тоже требует определения, но предположим, что вы имеете ввиду "точность"). И структура тут вообще ни при чем. А изменение структуры модели с квадратичной на кубическую может привести к аналогичному увеличению точности модели даже без добавления новых переменных.
    Ответ написан
    Комментировать
  • Как организовать клиент-серверное приложение по обработке видео?

    @dmshar
    Цель-то какая? Вот после того, как мы узнаем, что-же такое должно делать ваше приложение можно будет более-менее конкретно ответить на ваш вопрос.
    И уточните, что вы подразумеваете под загадочным словом "лагать"?
    Ответ написан
  • Поиск всех элементов, как?

    @dmshar
    Вопрос к Senior Pomidor developer - а синьор хоть понимает, что это будут разные алгоритмы в зависимости от того, что у вас в основе - дерево, направленный граф, или вообще - ненаправленный граф? Если понимает, то почему не указал явно? Если нет - тогда зачем ему этот алгоритм? Да и алгоритм вообще?
    Ответ написан
  • Путь data science. Как будет правильнее?

    @dmshar
    1."опыт написания фронта, опыт it рекрутера." - накакого отношения в Data Science. От слова "совсем".
    2. "Учился в техническом вузе по инженерной специальности, но спустя год осознал, что сама эта специальность не для меня." - т.е. недоучился? Кстати, если нет склонности к инженерным специальностям, откуда уверенность, что есть склонность к "Data Science"? Замечу, "хотелось бы стать" и "имею склонность к" - это очень разные вещи.
    3. "Математику знаю и понимаю хорошо" - откуда эта уверенность? Из школы? Или из универа в котором недоучились? Какие курсы математики все-таки "дослушали", какие успехи?
    4. "невнимательность при вычислениях." - Вообще-то говоря, DS - это не вычисления. Вернее, вычисление сегодня выполняют хорошо известные реализации методов в разных пакетах. DS - это прежде всего умение разобраться в методах, понять их суть, ограничения, особенности и пр. , умение отобразить данные предметной области на абстрактные математические методы а потом проинтерпретировать полученные результаты в терминах предметной области.
    5. "Хочу попробовать развиваться в нем. " - хочется - развивайся. В чем проблема? Получить благословение сообщества? Зачем? Если человеку что-то действительно чего-то хочется, то он берет и делает это. Иначе это выглядит как поиск оправдания того, почему "мне хочется, но я этим заниматься не буду".
    6. "Не помешает ли отсутствие профильного образования?" - помешает. Ну и ? Если хочется развиваться в этом направлении, то "профильное образование" все равно придется получать. Любым способом - в универе, на курсах, самостоятельно. Но получать придется. А как без него? Не обижайтесь, но DS - это не рекрутинг. Это гораздо серьезнее.
    7. "Не помешает ли особенности моего импульсивного порой мышления?" - Знаю спецов в DS с очень разным типом мышления. Еще раз вынужден повторить - не ищите отмазки "почему не надо этого делать".
    8. "Английский на неплохом уровне, но тяжко будет воспринимать англо-техническую речь" - на первом - а возможно и на всех последующих - этапах говорить на английском вам не придется, это точно. Воспринимать - ну разве что решите заниматься через запись на англоязычные обучающие курсы. Тут уж как захотите - в инете полно материалов - курсов, книг, блогов, форумов - и на русском, а в университете вряд-ли придется учится на английском. А вот чтение и понимание написанного английского - это таки обязательное условия вхождения в эту специальность. Иначе перспективы ваши в ней будут не интересней перспектив в рекрутинге.
    9. "А с чего, собственно, начать? Есть ли какие-то рекомендации по книгам/курсам. " - вот этого - навалом, даже на этом форуме. Настолько навалом, что даже не хочется в 254 раз повторять одно и то-же. Так что ищите, найдете. Надеюсь, Гууглом пользоваться умеете. Или хотя-бы просто пройтись по "Похожим вопросам" внизу. Но вот пользуясь случаем хочу еще раз подчеркнуть - основное умение специалиста по Data Science - это умение и навыки самостоятельного поиска, анализа и инетрпретации информации. Благо источники ее сегодня доступны для любого, у кого есть доступ к интернет.
    Удачи.
    Ответ написан
    3 комментария
  • Теоретическая часть по программированию?

    @dmshar
    Одно могу сказать точно: если человек, после полутора лет штудирования С++ (кстати, не самое простое, но - по моему мнению - самое верное начало) пишет по сути - "хочу не только кодить, ни и уметь действительно разрабатывать программные системы" - это отлично. Потому как многие - а сегодня, увы, можно сказать и большинство - останавливаються именно не кодинге, и мнят себя при этом курутыми разработчиками.
    Если обратить внимание на то, что автору всего 17 лет - то тем более - респект, так держать!
    Теперь по сути. Вы абсолютно правы, кодирование на любом языке, даже виртуозное, это еще не программирование. Что-бы стать хорошим программистом надо основательно изучить основы Теории Алгоритмов и Структур данных, теорию и практику работы с базами данных, особенности построения распределенных, мобильных и веб-приложений (даже если завтра вы не собираетесь писать под веб или Андроид), понять хотя-бы в общих чертах, как работают сети, и "полирнуться" основами архитектуры современных информационных систем и паттернами проектирования. Ну и надо понимать, для квалифицированного программиста знание одного языка - этого абсолютно недостаточно.
    В каком порядке и по каким источникам двигаться к цели - тут мнений много и разных. Вот несколько ссылок - только не воспринимайте их буквально, подходите творчески. Смотрите, что лучше вам ложиться на душу, что легче "заходит". И не комплексуйте, не бейтесь головой об стену если чего не поймете сразу - потом, через определенное время вернетесь и с высоты приобретенных знаний разберетесь. Главное - не отступать от цели, как в спорте - хоть по часу-два, но каждый день.
    Итак, для начала:
    https://proglib.io/p/cs-learning/
    https://teachyourselfcs.com/
    https://tproger.ru/curriculum/computer-science-ste...
    Удачи!
    P.S. И еще забыл - главное :-). English!!!! Без него в этой профессии сегодня - никак!
    P.P.S. И да - умение самостоятельно Гууглить, искать нужную информацию, отсекать информационный шлак. Ключевое слово - "самостоятельно"! Но это, как бы, вообще на "нулевом" месте.
    Ответ написан
    1 комментарий