ORDER BY `вероятность`?

Question

AntonioK @AntonioK

Случайные числа

ORDER BY `вероятность`?

Добрый день, Хабр!

Есть с десяток тысяч записей в таблице. Необходимо выбрать N записей рандомно, но так, чтобы вероятность попадания конкретной записи в выборку условно соответствовала формуле, где учитывается в качестве переменной одно из полей записи.

Например: записи — это адреса ресторанов. Надо, чтобы рестораны, у которых стоит флаг «в ресторане всегда длинные очереди в туалет», попадали в выборку в среднем вдвое реже всех остальных.

Если бы все записи были «равноценными», вероятность для каждой была бы равна частному единицы и количества записей в таблице. Но если по уловию вероятность умножается на коэффициент, перестает выполняться правило «сумма вероятностей для всех записей равна 100%», а это плохо — так нельзя использовать оценочную вероятность для прогноза количества выборок каждой записи в сутки, основываясь на статистике количества запросов за это время.

Куда копать? Модель-то сверхпопулярная — и в рекламных сетях (чаще показывать наиболее CTR-истые баннеры), и в играх (с монстров чаще дропается более дешёвый лут).

Впервые всерьез ощущаю нехватку математического образования, занимаясь программированием для веб =(

Вопрос задан более трёх лет назад
2811 просмотров

Комментировать

Подписаться 9 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 15

2 комментария

Комментировать

1 комментарий

Комментировать

4 комментария

DanielWolf @DanielWolf

кстати, можно сделать «рейтинг» у ресторана, по которому вы и будете делать order by
а вот, как вы его будите рассчитывать — дело ваше.

у того ресторана, у которого очереди в туалет — рейтинг ниже, кто вам заплатил чтобы быть в топе — рейтинг выше. итд

Написано более трёх лет назад
Анатолий @taliban

Рейтинг это хорошо, но человеку нужно выбирать случайные записи, и с плохим рейтингом тоже должны попадать в выборку, но реже.

Написано более трёх лет назад
AntonioK @AntonioK Автор вопроса

Рейтинг без рандомизации мне не подходит, taliban прав.

Написано более трёх лет назад
AntonioK @AntonioK Автор вопроса

bliznezz ещё и уникальность выбранных рандомом значений придётся проверять, если есть требование по отсутствию повторов в выборке (а в моей задаче оно есть). и, да, говнокод.

то есть на вариант рабочего решения не катит, но за очевидную идею — спасибо, я её упустил.

Написано более трёх лет назад

Комментировать

2 комментария

Qwertovsky @Qwertovsky
Нужна функция распределения вероятностей.
Если принять за x длину очереди в туалет, то большему х будет соответствовать меньшая вероятность.
Возьмите для примера распределение Пуассона с коэффициентом 1 (1^x * exp(-1)/factorial(x)). В этом случае меньшей длине очереди будет соответствовать большая вероятность.
Дальше генерируете случайное число от 0 до 1. Для каждой строки из таблицы высчитываете по своей формуле эту «длину очереди в туалет» (привязалось, сами виноваты). Высчитываете вероятность по Пуассону. Сравниваете с «рандомным» числом с нужной точностью. Если есть совпавшие строки, добавляете в выборку. Очевидно, что совпадений будет больше там, где кривая вероятности распределения выше (длина очереди в туалет около 0) (см. график).
Выражаясь языком SQL

select table1.* , power(1,your_x)*exp(-1)/factorial(your_x) from table1 where 1=1 and round(dbms_random.value, 5)=round(power(1,your_x)*exp(-1)/factorial(your_x),5)

Подзапрос для вычисления факториала опустил.
Такой запрос не сработает, так как количество генераций случайного числа равно количеству строк в таблице. Количество генераций должно быть больше, что бы увидеть нужное распределение. Одним запросом, как мне кажется, не обойтись. Получится долго выполняемая процедура.
Я бы пометил заранее нужный небольшой список, содержащий необходимые рестораны с нужным распределением (т.е. хороших ресторанов там будет больше). А из этого списка выводил «рандомно» необходимое число ресторанов.
Написано более трёх лет назад
Qwertovsky @Qwertovsky

Как подсказывают ниже запрос будет работать, если заменить знак = на знак <.

Написано более трёх лет назад

Комментировать

2 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

+1 ещё

Простой
Проблема с компиляцией кода почему выдает данные ошибки и как исправить?
- 1 подписчик
- более года назад
- 168 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как сгенерировать непрерывные случайные величины с заданным законом распределения?
- 1 подписчик
- более года назад
- 195 просмотров
2

ответа
Случайные числа

+1 ещё

Простой
Как сделать ввод числом значение слайдера в Elementor?
- 1 подписчик
- более года назад
- 35 просмотров
0

ответов
Машинное обучение

+3 ещё

Средний
Насколько полезен аппаратный генератор случайных чисел для вероятностного моделирования и экспериментов?
- 1 подписчик
- более двух лет назад
- 183 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как сузить диапазон генерации случайных чисел?
- 1 подписчик
- более двух лет назад
- 260 просмотров
2

ответа
Математика

+2 ещё

Средний
Как сгенерировать случайные величины с заданной функцией распределения и коэффициентом корреляции??
- 3 подписчика
- более двух лет назад
- 687 просмотров
1

ответ
Математика

+2 ещё

Средний
Как сгенерировать случайную величину с заданной многомерной функцией распределения?
- 2 подписчика
- более двух лет назад
- 131 просмотр
1

ответ
Юриспруденция в IT

+1 ещё

Простой
Есть ли отвественность за генерацию случайных данных?
- 1 подписчик
- более двух лет назад
- 227 просмотров
3

ответа
Python

+1 ещё

Простой
Как работают генераторы в Пайтон?
- 2 подписчика
- более двух лет назад
- 149 просмотров
2

ответа
Случайные числа

Простой
Перевести число в слово?
- 1 подписчик
- более двух лет назад
- 71 просмотр
2

ответа
Показать ещё Загружается…

Answer 1 · 2011-08-29 12:57:24

Я б сделал доп. поле в таблице, куда заносится вычисленный коэффициент (включая рандом), и сортировал по нему. Чтобы сортировка была случайной, пересчитывайте поле каждые n минут.

Answer 2 · 2011-08-29 12:51:12

Я не знаю как сделать это правильно, но вот что придумал:

Использовать стандартный рандом.
Как выше писали сделать рейтинг для каждого поля по любым вашим формулам.

Затем несколько раз подключать таблицу, что бы записи дублировались и для каждой следующей таблицы прописывать в условия все больший минимальный ранг. Таким образом, дублей с записями с большим рейтингом будет больше, соответсвенно и шанс их выбора рандомом выше.

Не знаю получилось ли у меня донести мысль, если что пишите, постараюсь подробнее с примерами описать.

Вообще, я вопросы по БД, обычно, задаю на sql.ru, там больше профильных специалистов.

Answer 3 · 2011-08-29 15:43:44

тупое решение, если записей немного и не пугает делать full scan на каждый селект:

в каждой записи хранить:
— собственный приоритет (любое положительное число)
— сумму приоритетов всех предыдущих элементов (в порядке добавления, например, по id)
и где-то хранить сумму всех приоритетов (на самом деле, можно получать из записи с максимальным id)
можно их нормализовать, но тогда не получится сделать быстрый insert.

select сводится к генерации нескольких рандомных чисел из диапазона [0, сумма_всех_приоритетов), и выборке элементов, где диапазон [сумма, сумма+свой_приоритет) включает хотя бы одно из выбранных чисел.
insert — простое дописывание в конец, обновление суммы приоритетов
delete — простое удаление
update (изменение приоритета) — удаление+вставка если приоритет увеличился, простой апдейт, если уменьшился.

есть неприятный спецэффект, что селект может вернуть меньше элементов чем надо, если несколько чисел попали в один диапазон или в «дырку» от удаленного элемента.
можно или выбирать сразу с небольшим запасом, или довыбирать по необходимости.
периодически (после большого числа удалений) есть смысл перестраивать приоритеты заново.

итого — все операции за амортизированную O(1), кроме селекта, с которым все печально.

для его оптимизации можно использовать spatial index (не в курсе насчет поддержки в современных БД), т.к. у нас запрос на принадлежность точки отрезку.

честное и быстрое, но сложное решение:

строить дерево, в листьях которого — id из таблицы и приоритеты, в промежуточных узлах — суммы приоритетов в поддеревьях.

select одного элемента (для простоты далее рассматривается бинарное дерево):
генерируем число от 0 до суммы приоритетов (хранится в корне), идем от корня:
— если число меньше суммы приоритетов в левом поддереве, то налево
— иначе — направо, и вычитаем из числа сумму приоритетов в левом поддереве
— когда дойдем до листа — вернуть его id

update/insert/delete — обычные операции с деревом с обновлением суммы приоритетов во всех промежуточных вершинах.

(надо быстро уметь искать лист по его id, для этого дерево можно делать сортированным по id, а можно не заморачиваться, и сделать через хэш, тогда порядок в дереве любой, что сильно все упрощает — не надо перебалансировать и вставлять можно на место любого удаленного).

производительность всех операций — O(logN), выборки — O(KlogN), где K — размер выборки.
тоже есть проблема, что один элемент может выбраться несколько раз, чтобы это побороть, можно выбранные элементы удалять сразу после выбора (ну или просто обнулять приоритет), а в самом конце вставлять обратно.

как все это хранить?
ну если все влезает в память — то отлично, вешаем отдельного демона, который при старте строит дерево по исходной табличке и поехали.
если нет — либо в базе (но эффективность работы с деревьями на реляционных базах это большой вопрос), либо в файлах, т.е., по сути, писать свой движок базы…
но это уже явный overkill =) наверняка существуют готовые решения, которые все это уже делают.

Answer 4 · 2011-08-29 15:11:19

Навскидку приходит на ум:
У вас 10 тысяч записей, нужно показать, например, рандомно десять.
Рестораны с длинной очередью должны показываться, например, в два раза реже.
Делаем выборку — вытаскиваем рандомно 20 ресторанов с длинной очередью и в два раза больше (40) без очереди.
Из них выбираем 10 рандомно.

Answer 5 · 2011-08-29 17:10:40

каждой записи добавляем поле с её весом (например поле ves). в дальнейшем выбираем записи схематично так:

select top 10 *

from [table]

where rand()<ves/sum(ves)

где sum(ves) — сумма весов по полю в таблице.

гарантированно запись с весм 1 будет попадать в выборку в 3 раза реже, чем запись с весом 3.

Answer 6 · 2011-08-30 00:11:49

10000 — очень мало, может брать все и уже считать на любимом языке.

Можно считать отчет заранее по крону и показывать только результат.

Answer 7 · 2011-08-29 12:20:24

Можно попробовать использовать sphinx, и настроить систему ранжирования под Ваши нужды.

http://habrahabr.ru/blogs/sphinx/62287/

Answer 8 · 2011-08-29 12:44:04

AntonioK @AntonioK Автор вопроса

На затравку: сейчас работает костыль вида

Ответ написан более трёх лет назад

Комментировать

Answer 9 · 2011-08-29 12:46:52

На затравку: сейчас работает костыль вида

SELECT

 *,

 (`flag` + RAND() * 0.33) as probability /* Powered by gypsy magic (bigger RAND() coefficient gives less effect) */

FROM

 `table`

ORDER BY

 `probability` DESC

Но он, во-первых, дико неизящен, и во-вторых, не позволяет посчитать вероятности для всех записей так, чтобы в сумме было 100%, и на основе этих вероятностей строить прогнозы.

Answer 10 · 2011-08-29 12:54:20

Еще один «быдло-вариант». Делаете выборку не в N записей, а в N*коэфф из таблицы. В Вашем примере — выборка из 2N. В выборке получите случайные записи с равновероятным попаданием для всех ресторанов. А далее из этой выборки (зная значение коэффициента) выдергиваете нужные Вам записи в нужной пропорции…

Answer 11 · 2011-08-29 13:21:27

любое такое действие лучше не в базе делать, а уже механизмами пост-сортировки
либо как сказали выше, включить пресловутые туалеты в рейтинг, присвоив им определенный «вес», чтобы выборка получалась такой, как вам нужно

Answer 12 · 2011-08-29 14:14:29

В общем случае неразрешимо=)
Рассмотрим вырожденный случай: в таблице всего N записей. Тогда вероятность для каждой записи быть выбранной будет равна 1.0, абсолютно независимо от заданных весов.

Answer 13 · 2011-08-29 16:16:54

Первое что приходит в голову при таком построении задачи — выбрать подходящую функцию распределения и ввести нумерацию ресторанов так, чтобы тем, которые надо показывать чаще, соответствовала бы большая вероятность появления.

Только вот не знаю как будет прикручиваться самописный рандом…

Answer 14 · 2011-08-29 18:32:04

1. Определить максимальный диапазон Rand, Пусть будет [0..M] (скорее всего M=1)
2. Количество записей N
2. Для каждой записи вводим понятие рейтинга R
3. Рассчитываем сумму всех рейтингов S=Sum®
4. Вводим для каждой строки два поля, начало и конец диапазона D1, D2
5. Начиная с первой записи и до последней разбиваем
D1(1) = 0; D2(1) = M*(R(1) / S)
D1(2) = D2(1); D2(2) = D1(2) + M*(R(2) / S);
D1(i) = D2(i-1); D2(i) = D1(i) + M*(R(i) / S);

6. И далее
select top 10 * from [table]
order by case when rand() between D1 and D2 then 0 else 1 end

Answer 15 · 2011-08-30 00:24:10

Еще одно индусское решение.
Пусть веса у записей x_1, x_2, ..., x_n.
У каждой записи добавляем поля «начало» и «конец». У i-й записи началом будет x_1+...+x_{i-1}, концом — x_1+...+{x_i}-1. Теперь генерируем случайное число R от 0 до x_1+...+x_n-1 и выбираем запись, у которой начало <= R <= конец. Выбираем столько раз, сколько нужно.
Придется проверять на дупликаты, но при отсутствии сильно перевешивающих записей они будут довольно редки.

ORDER BY `вероятность`?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт