@alisichkin
Программист

Как использовать Data Mining для автоматической простановки цены реализации?

Добрый день!

Передо мной встала задача снизить временные издержки при проставлении цен, на пришедший товар в электронных накладных.
Имеется база статистики по проставленным ценам. Нужно, используя алгоритмы Data Mining, получить зависимость между "Ценой реализации" и набором параметров, от которых зависит цена – "Цена поставки", "Предыдущая Цена реализации" и еще 2-м параметрам. Тем самым обеспечив автоматическое проставление цены с возможностью корректировки алгоритма, при изменении условий бизнеса.

К сожалению, первая попытка создания такого алгоритма не удалась. Я попытался самостоятельно написать классификационные правила со слов специалиста, проставляющего цены, для всей товарной номенклатуры. Ошибка между рассчитанной ценой реализации и реальной порой достигала очень больших значений.

Результат первой попытки построения алгоритма, показал, что в товарном обороте присутствует несколько не однородных групп товаров, которые расцениваются по разным критериям.

Поскольку, я не являюсь специалистом в Data Mining, я только учусь, то хотелось бы узнать:
1. Нужно ли, используя кластерный анализ, разбить товарную номенклатуру на 8-9 групп и далее для каждой группы отдельно, используя аппарат регрессии найти зависимость между "Ценой реализации" и набором параметров. Или сами алгоритмы классификации (например, Деревья решений) при добавлении параметра код товара, сами на основании исходных данных, создадут нужные группы в дереве?
2. Какой алгоритм регрессии лучше использовать, при условии что большинство параметров - не категориальные переменные, а числовые?
3. Какой пакет Data Mining лучше использовать (исключая коммерческие продукты), при условии, что данные для анализа находятся в СУБД MS SQL?

4. Список не зависимых параметров:
4.1 Цена поставки;
4.2 Предыдущая цена реализации;
4.3 Признак ЖНВЛ (Жизненно необходимого и важного лекарства – перечень лекарств утвержден Правительством РФ. Для таких лекарств цена не может превышать определенного процента от максимально допустимой цены);
4.4 Цена по Государственному реестру для ЖНВЛ лекарств;
4.5 Код товара (Не уверен, что нужен, поскольку объем товарной номенклатуры – порядка 31 тысячи)
4.6 Код группы товара (Не уверен, поскольку групп не существует, а только планируются создание)

С Уважением,
Александр.
  • Вопрос задан
  • 536 просмотров
Пригласить эксперта
Ответы на вопрос 1
@alexnss
Если все лежит в MS SQL то прямо в нем для каждой товарной группы или товара надо построить регрессию
Описание здесь https://msdn.microsoft.com/en-us/library/cc645906.aspx
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы