Hi guys,
буду признательна за мнение по следующей теме. Для каждого клиента (Client ID) у меня есть набор данных:
- ID географической зоны
- Вероятность нахождения клиента в этой зоне
- Расстояние от этой зоны до ближайшего банкомата
- Среднемесячный остаток на счете
Итак, для каждого клиента у меня есть три зоны, где он\она может ошиваться с соответствующей вероятностью. Я также знаю расстояние от этой зоны до ближайшего банкомата, а также знаю среднемесячный остаток на счету. Мне нужно проверить, как остаток зависит от этого набора данных (Zone - Probability - Distance to ATM).
Гипотеза такова, что чем ближе банкомат к клиенту, тем больше среднемесячные остатки, но проверить хотелось бы вообще факт наличия корреляции, и если она есть, посмотреть на вид зависимости. Как лучше поступить?
Может, свернуть этот сет в одно число, вроде: p1s1 + p2s2 + p3*s3 (р - вероятность, s - расстояние до АТМ), ну и для этих двух численных переменных (это число и остаток) проверить корреляцию, потом регрессию? А может, знаете стандартные методы?