HellWalk, Не будет, но многие уверены, что это не так. Отсюда и "вайти-вайти".
Курсы программирования, которых сегодня кажется уже больше, чем открытых вакансий, активно подогревают это заблуждение. Так давайте хоть в DC избежим нашествия недоучек.
И что самое главное - честный. Я тоже довольно частно на аналогичный вопрос привожу в ответ эту картинку, не забывая при этом упомянуть, что картинке-то уже года четыре, и за прошедшее время количество "станций" увеличилось процентов на 10-20.
Потому как у многих представление о датасайнс почти как о кодинге - вот сейчас выучу сто страниц учебника по языку Х и начну загребать деньги лопатой. Так вот, в DS так не будет. Ни после 100 страниц, ни после 1000. И чем чаще опытные посетители сайта будут это повторять, тем больше шансов, что недостаточно мотивированные новички не будут терять драгоценное время там, где им явно ничего не светит.
P.S. Человека, который желая стать специалистом по Анализу данных не умеет самостоятельно осуществлять поиск необходимых ему данных, а вместо этого ждет, что ответы на самые первичные, элементарные вопросы ему преподнесут в готовом, разжеванном виде - я считаю недостаточно мотивированным. Другой причины, почему не попытаться поискать ответы на такие вопросы самостоятельно в сети - я не вижу.
Нет. Думаю, имеется ввиду, что
Гигабайт GB = 1000000000 байт
Гибибайт GiB = 1073741824 байт
Это согласно спецификации IEC.
В реальности «би»-варианты практически не применяются, и в повседневном общении килобайт, мегабайт и гигабайт означают чаще всего (но не всегда) именно 1024, 1024² и 1024³ байт. Хотя с точки зрения спецификации IEC это не есть правильно и создаёт путаницу, наподобие той, на которую вы столкнулись. Но термины наподобие «кибибайт» или «Гибибайт» настолько неблагозвучны, что с этой путаницей приходится мириться.
В какой промышленности? Машиностроительной? Горнодобывающей? Сельскохозяйственной? Энергетической? Топливной? Космической? Деревообрабатывающей? Химической? Полиграфической?......
Или во всех сразу?
Я дал наводку - и ссылку на самое элементарное описание самого элементарного варианта метода. Есть специальные модификации метода, учитывающие повторяющиеся значения в выборках.
А есть другие непараметрические методы сравнения выборок, которые используются в задачах типа вашей. Надо экспериментировать, что в вашем случае лучше подойдет.
Искать надо по ключевым словам "непараметрические критерии проверки однородности выборок".
Да, с количеством минут с сутках я просчитался :-). Точность 2 градуса да еще на сутки - с моей точки зрения вполне адекватна. Тогда на 1-2 часа должна быть вообще в пределах пол градуса. В итоге повторю - при таких результатах- вопрос в чем?
Коллеги, вы упускаете из виду один момент. У автора за день имеется 144 измерения, т.е. одно измерение через каждые 25 минут, причем с ярко выраженной сезонностью "утро-день-вечер-ночь". По таким данным вполне по силам сделать предсказание на следующие 1-2 часа более менее точно и на 3-5 часов - допустимо точно. Даже без привлечения данных о погоде в Москве, Владивостоке и ближайшей деревне Ближний Зажопинск.
А вот предсказание погоды на ближайшие 10 дней и даже на ближайшие 10-15 часов по этим данным сделать скорее всего невозможно.
Но один-два-максимум три дня можно сделать более менее адекватное предсказание средней температура за день имея временной ряд среднедневных температур в данной местности за последние лет 20. Более точные прогнозы таки потребуют и пространственного анализа данных и специализированного (тепло-гидро-......) моделирования погоды.
Кроме того, известный факт, что на сегодняшний день предсказание даже с помощью самых точных моделей погоды на 7 дней дает точность предсказания хуже(!!!) чем просто предсказание по среднему значению температуры в этой точке в этот день. Так что все что дальше - точнее всего предсказывать по кофейной гуще.
вышка = "высшее образование"
Получение высшего образования = ПРОЦЕСС УСВОЕНИЯ ряда специальных дисциплин.
Диплом = бумажка, которая получается всеми, кто ПРОСЛУШАЛ ряд специальных дисциплин. В идеале предполагается прослушал И усвоил. Вариант, когда "тело" присутствовало на занятиях, но "мозг" в это время отсутствовал (к сожалению наша система образования и в этом случае награждает "тело" дипломом.,х отя полученных знаниях при этом может и не быть) или вариант когда диплом покупается за деньги - тоже возможны. Но мы же не о таких случаях ведем речь.
Отсюда вывод "вышка", т.е. высшее образование, это НЕ синоним наличия диплома, это синоним наличия определенного объема УСВОЕННЫХ знаний, умение их систематизировать, анализировать и - наверное самое главное! - получать на их основе новые знания.
После этого повторяю тезис. Для успешного разработчика вышка - есть обязаловка, для кодера - нет.
В чем противоречие?
Вообще-то разумный и фундаментальный путь - изучаем Mашинное обучение как таковое, а потом - его применение в нужной вам области. Тогда вас можно считать специалистом по ML.
Ну и путь для ленивых - берем библиотеку для решения задач в конкретной области (например в компьютерном зрении),изучаем как вызывать конкретные функции, принимаем, гордимся, что сумели повторить чей-то ранее описанный опыт. По итогам - может быть - становимся специалистом в конкретном фреймворке по вызову конкретных функций для решения конкретных задач, но специалистом в области Машинного обучения вас назвать можно с огромной натяжкой.
Выяснить кто вы на самом деле на любом собеседовании для любого настоящего специалиста в области МL - дело трех минут.
Вообще-то найти следующее число, генерируемое генератором (псевдо)случайных чисел - и не важно какими именно генератором, и найти следующее число последовательности, неизвестно как генерируемых ( от среднегодовой температуры на следующий год на озере Титикака, до завтрашней котировки курса Монгольского тугрика к Ангольской кванзе) - задачи совершенно разные и решаются различными методами. Правда, я не совсем понимаю, почему угадывание числа генератора надо решать методами статистического анализа - но это дело вкуса (или квалификации, а скорее - общей научной эрудиции) анализирующего. А вот задачи второго типа вполне себе решаются, если, конечно, под решением понимается вероятностные процессы, а не детерминированные ответы.
PROGRAMMIS, Понимая "устройство" несложно и самому повторить его. Впрочем - изучайте. В списке есть и "устройство", и как написать самому, и как использовать готовые сервисы. Все что надо. Надеюсь - поможет.
Не за что!
Вы не сказали самого главного - как описывается ситуация. Если вы внимательно изучаете МL, то наверняка обратили внимание, что для разных типов данных используется разные методы даже для решения одной и той-же (или подобной) целевой задачи.
Ну а оценка модели - смотрите в сторону темы "ROC-кривая" и производные от нее.
dollar, "Как вы настроите ленту?" - обратитесь в службу поддержки с просьбой ввести такой тег :-).
Кстати, вы же не только эти вопросы просматриваете и отвечаете. Значит, все-таки просматриваете несколько тегов.
Я ничего не имею против вашего решения, если оно вас устраивает. Тем более, если оно публично. Но понимаю, что любая фильтрация может приводить к большой доле ошибок второго рода. Впрочем как и первого. Кому что важнее.
Не очень понятно зачем и как программно фильтровать что-то на Тостере, когда достаточно выделить интересные теги и получать в ленту только вопросы только по темам которые для вас представляют интерес. При том, что у меня отмечено наверное несколько десятков тегов, в ленте в день приходит 3-5 вопросов, которые можно дальше либо проигнорировать по названию, либо заглянуть.
Аналогично поступил и с Хабром.
Ну а контекстный отсев - конечно так не сделаешь. Но и программно отсеивать по контексту , думаю, мягко говоря "не у всех" получиться.
Алексей Тен, Да вроде не соврали. Именно за один проход выбирается K наибольших элементов неупорядоченного массива. Другое дело, что при обработке каждого нового элемента проводится его сравнение с ранее найденными K наибольшими ранее просмотренными на данный момент времени элементами массива. Но это фиксированная по времени операция.
Вы вправду считаете, что это полный и профессиональный ответ?
Вы хотите это делать в он-лайн режиме?
Обработка видео тоже бывает разной - от покадровой, до пакетной.
Сколько времени занимает сам процесс обработки (на сервере?) ?
На каком языке написано приложение?
Отображение будет исключительно на том-же клиенте, который прислал данные или предполагается широковещательная рассылка результатов?
Задержка в линиях передачи критична?
Отсылка данных и прием обработанных - это параллельный процесс?
И т.д.
Да что я из вас вытягиваю информацию. Не хотите - не пишите. Тогда и ответ может быть только таким - Да, получайте, отправляйте, обрабатывайте, отсылайте назад. Так и делают. В чем проблема (вопрос)?
Удачи.
Курсы программирования, которых сегодня кажется уже больше, чем открытых вакансий, активно подогревают это заблуждение. Так давайте хоть в DC избежим нашествия недоучек.