Какие существуют алгоритмы поиска оптимальной выборки/среза?

Question

ifaceman @ifaceman

Какие существуют алгоритмы поиска оптимальной выборки/среза?

Приветствую всех!

Существует база данных на пользователей с n-ным кол-вом полей, содержащих информацию о них (пол, возраст, род занятий, и т.д.). Поля заполнены случайно для каждого пользователя или не заполнены вообще.

На каждого пользователя также имеется некая статистика (например - кол-во входов в систему в месяц).
Соответственно, по любым сочетаниям параметров можно составить среднюю статистику (например: пол+возраст, пол+возраст+семейное_положение, ...+...+*) - мужчины 30 лет входили в систему в среднем 32 раза в месяц. Таким образом формируется срез.

Какие есть алгоритмы для определения среза, наиболее четко соответствующего конкретному пользователю? То есть, зная определенные данные о нем, мы можем предположить о его статистике, смотря на среднюю по наиболее подходящему срезу.

Вопрос задан более трёх лет назад
3141 просмотр

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

ifaceman @ifaceman Автор вопроса

С помощью него можно выяснить степень влияния одних переменных на других. А причем здесь выборки?

Написано более трёх лет назад
Андрей Вершинин @WolfdalE

@ifaceman Если это не то, тогда я немного не понимаю, что вам нужно. Мы имеем данные о конкретном пользователе, набор срезов данных по разным критериям, и нужно подобрать тот срез, который будет больше всего "подходить"?

Написано более трёх лет назад
ifaceman @ifaceman Автор вопроса

@WolfdalE Срезы можно заранее сформировать, но смысла нету.
Зашел, например, человек, у которого заполнено мужчина+18 лет+менеджер+....
Начинаем перебор срезов:
-мужчина(220 человек в срезе, низший приоритет, т.к. всего один совпадающий параметр)
-18 лет(...)
-мужчина+18 лет(...)
...
Для каждого среза считаем определенный коэффициент, зависящий от числа человек в срезе и числа его параметров, совпадающих с нашим пользователем. По нему определяем, какой срез брать.

Существует что-то похожее?

Написано более трёх лет назад
Андрей Вершинин @WolfdalE

@ifaceman Я думаю, нет смысла что-то искать, т.к. всё просто: пусть каждый параметр будет иметь свой весовой коэффициент (если все равнозначны, то каждый параметр будет иметь вес 1 / K, где K - кол-во параметров). Количество человек в срезе будет влиять таким образом: в спорных ситуациях (когда у одного среза вес выше, чем у второго, а кол-во людей меньше) будем считать отношение меньшего кол-ва к большему (получим значение в (0; 1)). Затем возьмем отношение большего веса к меньшему, получим значение в пределах (1, +inf). Перемножив эти два числа, получим другое число, которое будем сравнивать с единицей: если больше либо равно, то берем тот срез, у которого больше вес, в другом случае - в который входит больше людей.

Написано более трёх лет назад
ifaceman @ifaceman Автор вопроса

@WolfdalE Идея понятна, спасибо!
А насколько это быстро будет работать при больших БД, множестве параметров и большой статистике?
Если пользователь делает запрос на загрузку страницы с товарами, а система выдаст ему наилучшие товары по его срезу. Сколько времени это займет?

Написано более трёх лет назад
Андрей Вершинин @WolfdalE

@ifaceman Это зависит от количества срезов. Для человека, загружающего страницу, это будет незаметно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1087 просмотров
6

ответов
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 325 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 420 просмотров
3

ответа
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 309 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 322 просмотра
0

ответов
Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 74 просмотра
1

ответ
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 387 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 297 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 220 просмотров
1

ответ
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-04-29 21:35:03

k-Nearest Neighbours (kNN)
Ваша задача в терминах этого алгоритма соответствует вопросам :
1) как настроить веса (значимость) влияния параметров на расстояние между соседями
2) какое ядро выбрать
3) как определить оптимальное k для этого ядра
На все три есть конкретные ответы в виде алгоритмов - литературы очень много.