Как вычислить регрессию на основе данных имеющих кореляцию?
У меня есть непрерывные данные изменяющегося воздействия на объект. И данные реакции объекта на воздействие замеренные в двух точках. Мне нужно построить линию регрессии реакции объекта.
При замере реакции в двух точках, это очевидно прямая проходящая через них. Но я хочу улучшить предсказания, пользуясь данными воздействия.
Пример ==========================================================
Как вычислить реакцию в остальных точках наиболее точно если я знаю что воздествие в 169,10% дает реакцию 0,37, а воздействие в 119% ~ 0,12 ?
Проблема в том, что данные по воздействию у я могу примерно рассчитать, а замер реакции очень и очень дорогая операция. Буквально.
UPD:
Некоторые уточнения:
1 На самом деле точки замера, не две, а три - третья гипотетическая - я знаю что при нулевом воздействии, реакция 0,05. В целом можно вычесть базовый уровень реакции и сказать, что 0 == 0; 169 == 0,32; 119 == 0,07, X == ?
2 Я конечно пробовал просто построить прямую, взяв за одну из осей воздействвие - в принципе такая кривая проходит через обе точки эксперимента и повторяет по форме кривую воздействия. Но для данных значений уходит в минус уже на уровне около 60% воздействия, что нонвсе. Реакция физически не может быть отрицательной.
longclaps, слушай, у меня уже рабочий день закончился. Я фигчу 10 час подряд. Не надо писать намеками и загадками. Если я где-то налажал - так и скажи.
Это не про регрессию вопрос, а про школьную математику.
Уравнение прямой через две заданные точки "1" и "4". Привести к виду y = f(x)
В полученное уравнение передать X воздействие и получить прогноз реакции Y.
Я в курсе про прямую через две точки. Вот только зависимость нихрена не линейная, это раз, воздействие изменяется тоже не линейно, это два. А я хочу получить как можно более близкую апроксимирующую кривую.
Если говорить геометрически на пальцах, то хочу распрямить кривую воздействия так, чтобы она проходила через точки реакции.
Александр Маджугин, номера экспериментов 1..7 имеют какой-то смысл, не указанный в вопросе?
Может, они идут через равные интервалы (чего?)
Сейчас вопрос описывает всего два параметра: воздействие X и реакцию Y. Причём Y известен только для двух точек. Через них можно провести только одну прямую и бесконечное множество кривых, о которых более нет вообще никаких данных.
Сергей Соколов, я думал это подразумевается - да, естественно номера эксперементов идут через равные промежутки времени - в данном случае сутки, но на самом деле у меня есть функция воздействия и я просто могу вычислить любую точку.
Красную линию можно игнорировать. Синяя - то о чем я говорю - это как раз сила воздействия по времени.
Эксперименты 1 и 4 - результаты отклика системы.
Для правильного вопроса надо знать половину ответа
Выбирайте любую кривую, они все проходят через ваши две точки.
Хотите больше - либо получайте дополнительные точки, либо стройте модель, определяющую уравнение зависимости отклика от воздействияю
Проапдейтил вопрос. На самом деле точек три и я знаю что есть кореляция между воздействие и реакцией, потому кривые на картинки точно не подходят, так как меньшее воздействие дает меньшую реакцию всегда. Форма кривой реакции должна повторять форму кривой воздействия.
Александр Маджугин, Так и по трём точкам можно провести произвольное количество кривых. Надо знать хотя-бы общую формулу зависимости отклика от воздействия.
А корреляция - это всего-навсего статистическая взаимосвязь случайных величин. Она не означает зависимости одной величины от другой. Например, ущерб от пожара имеет положительную корреляцию с количеством пожарных, выезжавших на его тушение. Но это не значит, что если не отправлять пожарных тушить пожар, то ущерб снизится или если отправить в несколько раз больше пожарных, то ущерб увеличится.
Rsa97, не, не - в данном случае мы знаем что есть причинно следственная связь.
Речь идет о протекании химической реакции.
Управляющее воздействие (предиктор) в данном случае это введение в среду химического соединения, которое катализирует процесс.
Реакция - выход полезного вещества.
Есть базовый уровень выхода, без использования катализатовров, и он ниже 0,05 (мы не знаем более точно), но предполагаем в районе 0,03~0,04
Мы точно знаем что при загрузке катализатора в 169% получаем выход 0,37
При загрузке 119% == 0,12
Хочу построить кривую хотя бы примерно показывающую зависимость выхода от
Александр Маджугин, Химия - дело тёмное. IMHO, там слишком много параметров, чтобы привязывать всё только к количеству катализатора. По хорошему, надо изучать формулу реакции, смотреть, как в ней задействуется катализатор. Может быть там получится асимптота, а может при дальнейшем увеличении количества катализатора выход начнёт уменьшаться. Но это всё, скорее, вопрос для химического форума.
Rsa97, да, да, я в курсе. Именно поэтому делаем замеры выхода и пытаемся построить график на основе экспериментальных данных, для начала хоть какой-то.
Мы знаем примерно время полураспаада катализатора в процессе.
Мы можем точно нормировать его поступление.
Хуже того - есть два ограничения - мы можем делать замеры только через 12 часов после ввода катализатора, при этом знаем что его действие развивается сразу.
Еще хуже - катализатора два.
Синия линия это К1, значения которого я приводил, а красная это К2.
Желтые метки - замеры выхода.
Сейчас я пытаюсь построить линию которую может поддерживать К1 на диапазоне от 1 до 110.
Александр Маджугин, Если я ещё не всё забыл из школьного курса химии, то катализатор по определению не может расходоваться в реакции.
У вас есть два пути. Первый - экспериментальный, надо получить много точек, по которым можно оценить зависимость. Второй - аналитический, надо получить общую формулу зависимости из теории/модели, потом по нескольким точкам определить значения коэффициентов в этой формуле.
Сейчас данных недостаточно для выбора какой-нибудь определённой формулы.
А при двух катализаторах возможен ещё и эффект синергии, когда их совместное действие отличается от простой суммы действий каждого из них.
P.S. Могу предположить, что график зависимости будет иметь две асимптоты - в районе нуля и на максимуме, - и линейный участок в середине. Но по двум точкам такой график не параметризуется.
P.P.S. Хотя, может быть и что-то наподобие вольт-амперной характеристики транзистора, с единственной верхней асимптотой.
Если я ещё не всё забыл из школьного курса химии, то катализатор по определению не может расходоваться в реакции.
Все правильно потому что это не совсем катализатор. Я пытаюсь объяснить процесс как можно короче. У меня нет возможности и задачи описать всю физику системы. Самое просто - представить что это катализатор который все-таки расходуется.
Первый - экспериментальный, надо получить много точек, по которым можно оценить зависимость.
Ну вот предположим у меня уже есть 3 точки. Это много или еще нет? Если я не могу решить задачу хотя бы для трех точек, хотя бы очень грубо, то 30 мне мало чем помогут.
Второй - аналитический, надо получить общую формулу зависимости из теории/модели, потом по нескольким точкам определить значения коэффициентов в этой формуле.
Ислкючено.
А при двух катализаторах возможен ещё и эффект синергии, когда их совместное действие отличается от простой суммы действий каждого из них.
Да. Более того нам известно, что такая синергия есть.
Сейчас задача установить зависимость для К1 и собрать данные для K1+K2 потом мы выведем K1 из процесса и получим данные только для K2.
Александр Маджугин, Если у вас нет вообще никакого представления о возможной формуле, то трёх точек явно мало. Учитывая, что здесь имеем дело с реальным процессом, то график может быть кусочно-непрерывным, например до определённой концентрации выход растёт линейно, затем, по мере насыщения, переходит в асимптоту или сначала логарифмически растёт до максимума, затем начинает падать по экспоненте.
Тридцати точек может быть достаточно для общей оценки, если они более-менее равномерно лягут на области определений и значений функции. Если же все эти точки будут ниже середины области определения, то ничего о поведении функции выше середины сказать нельзя без знания теории (механики, химии, физики) процесса.
график может быть кусочно-непрерывным, например до определённой концентрации выход растёт линейно, затем, по мере насыщения, переходит в асимптоту
Вероятно так и есть кстати. У нас есть данные других групп, однако в них была другая методика замера выхода (она нам не нравится, зато у них больше точек замера) и разумеется у них другой экземпляр системы, что тоже влияет.
И мы думаем над увеличением точек замера, и возможности смещения точек к экстремумам воздействия, но это будет возможно только летом или даже осенью.
А сейчас есть задач добиться наиболее гладкого выхода, используя те данные что уже есть и комбинацию катализаторов (смысл в том, что синий примерно в 6 раз дороже, а использовать красный на постоянку нельзя - иначе потребуется остановка, для мероприятий по удалению продуктов распада), для стабилизации системы.
Если бы наши (или какие-нибудь другие любые) химики могли все теоретически просчитать, это было бы просто счастье.
P.S.
Я на самом деле занимаюсь только сбором и визуализацией статистики, но хочу оказать посильную помощь так сказать.