Какую справедливую формулу можно использовать для вычисления истинной симпатии (лайки) к ответу на Тостере?

Question

dollar @dollar

Делай добро и бросай его в воду.

Какую справедливую формулу можно использовать для вычисления истинной симпатии (лайки) к ответу на Тостере?

Дело в том, что динамика оценивания ответов изначально не справедлива. Потому что ответы появляются с разницей во времени. Из-за этого первые ответы имеют больше шансов нахватать случайных лайков, хотя в них может быть не полная и не точная информация, а иногда и вовсе неверная. Таким образом, быстрый ответ (даже если не совсем по делу) притягивает больше лайков при прочих равных.

Ведь минусовать на Тостере нельзя. Так что время ответа связано с количеством лайков в любом случае.

Более поздним ответам приходится конкурировать с первыми, уже обросшими лайками, ответами. Конечно, годному ответу подняться можно, но только если разница во времени не велика. Для наглядности откройте вопрос годовалой давности без решения, можно даже с множеством подписок, и попробуйте дать реально хороший вдумчивый ответ по сравнению с имеющимися. У первого ответа, предположим, 3 лайка. У вашего ответа дай бог появится 1 - и всё.

Усугубляет ситуацию конформизм и лень. То есть даже если человек зашел в популярный вопрос, в котором уже есть все 10 всевозможных ответов (и больше не предвидится), то он прочитает первые два ответа, у которых соответственно 17 и 14 лайков, а другие ответы с 5 и ниже лайками читать не будет (вероятно). Причем, первые два может даже лайнуть, что формально означает то, что они лучше остальных, хотя пользователь даже не сравнил.

Вопрос в том, по какой формуле можно посчитать реальную симпатию к вопросу, учитывая вышеописанные факторы? То есть известно количество лайков для каждого ответа - это целые числа, а также известно точное время вопроса и каждого ответа (timestamp с точностью до секунды). Ну и текущее время тоже известно, конечно же. Короче, условия задачи - это Тостер. На основе этих данных нужно как-то более точно измерить симпатию. Она может выражаться вещественным числом.

Что за формула это может быть? Как её вывести?

Нюансы

- Пользователей мы не считаем абсолютно разумными. Всегда есть шанс, что лайк достанется чуть ли ни случайно. Но статистически всё же проявляется разумная симпатия. Т.е. люди не полностью рандомны, иначе формула достаточно простая будет.
- В симпатию входит не только оценка правильности ответа, а симпатия в широком смысле, то есть это и эмоции по стилю, оформлению и всякое такое. Нам не нужно знать, что туда входит, нам нужно лишь понять реальную (объективную) оценку по формуле, а не номинальную на основе счетчика нажатий на кнопку нравится, что бы сама кнопка ни значила.
- Самое важное: мы исключаем читерство. Ведь в теории накрутить лайки очень легко. Но это бред. Так что исходим из того, что никто в здравом уме этим заниматься не будет. Так что имеющиеся лайки принимаем за чистую монету.

Вопрос задан более трёх лет назад
313 просмотров

4 комментария

Подписаться 1 Простой 4 комментария

Максим Федоров @Maksclub

мне кажется тут нет трезвого решения и простого
те, кто пишет хорошие ответы на длинной дистанции станут качественными и богатыми на лайки

Написано более трёх лет назад
dollar @dollar Автор вопроса

Максим Федоров, не всё простое гениально, но всё гениальное просто. Так что периодически вижу простые и лаконичные ответы, которые лучше длинной простыни. Но в целом причина симпатии не важна. Проявление симпатии - это именно лайки. По ответу судить, это хз, нейронная сеть из будущего нужна.))

Написано более трёх лет назад
Рональд Макдональд @Zoominger

Ведь минусовать на Тостере нельзя.

И слава Б-гу, это самое порочное, что только можно ввести на сайте.

По теме - лайкодрочество тяжкий грех, забейте болт на циферки.
А под ответами всегда надо чекать комментарии.

Написано более трёх лет назад
longclaps @longclaps

Истинно глаголешь.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

3 комментария

dollar @dollar Автор вопроса

Спасибо за развернутый ответ.

Только вы немного искажаете суть вопроса. Попробую объяснить. Я в курсе, что оценка по формуле на основе имеющихся лайков имеет вероятностный характер. То есть если первый ответ имеет 70 очков симпатии, а второй - 30, то это не точная оценка, которая соответствует реальности. Лучше даже сказать так: первый ответ имеет 70 очков симпатии плюс-минус 10 с шансом 95% (доверительный интервал). И это не субъективное мнение, а результат расчетов на основе статистики (точнее пример расчета). Вы же не называете корреляцию 0.7 субъективным мнением? Корреляция не говорит, есть связь или нет, она является лишь цифрой. Просто для расчета корреляции есть известная формула, а для проблемы из моего вопроса я такой формулы не знаю пока что.

Насчет целей. Можно считать, что вопрос ради науки. :) Но если чуть точнее, то нужно более грамотно расставить "лайки", чтобы они соответствовали сути ответа, а не скорости написания ответа. Вопрос не про славу, почести, накрутку, первенство, и даже не про отметку "решение" (это вообще отдельная тема). Вопрос про, как понять, какой ответ лучше, с точки зрения обычного читателя, не читая сами ответы.

Насчет книги вообще не понятно, к чему это. Речь же про общую симпатию и ее измерение, а не про соответствие конкретным критериям. После прочтения книги читателю уже не нужно её оценивать. Оценить нужно как раз ДО прочтения, пусть даже и с какой-то вероятностью, лишь бы не 50/50. То есть вполне обычный сценарий - это выбор жанра, тематики, и затем уже сортировка по рейтингу, а после этого возможно ручной выбор из топ-N (для увеличения точности выбора). И даже в этом случае выбор будет не 100% точным.

И точная достоверная оценка со 100% шансом не требуется (да и невозможна). То есть, к примеру, шанс выпадения решки - 50%. Формула простая (состоит из константы =1/2). И эта формула не даёт ответ, что именно выпадет при броске монеты. Однако сама формула является тем, что я ищу для Тостера, т.е. формула будет ответом.

Написано более трёх лет назад
xmoonlight @xmoonlight

Как я понял, этот показатель недоступен юзерам на сайте.
Это для какой-то внутренней цели.

Написано более трёх лет назад
Alexej Simakov @lxsmkv

более грамотно расставить "лайки", чтобы они соответствовали сути ответа

Вопрос про, как понять, какой ответ лучше, с точки зрения обычного читателя, не читая сами ответы.

dollar, очевидно, что оценить качественное соответствие ответа вопросу может только человек. И эта оценка будет варьироваться от человека к человеку. Можно составить какую-то целевую функцию, рассчитать факторы этой функции на основании ответа и вопроса. Но это будет субъективной оценкой. Потому что формулу построили люди, руководствуясь субъективным выбором параметров. Т.е. для какого-то количества людей, рассчитаный таким образом оценочный ряд будет удовлетворять их субьективным представлениям, а для какого-то - нет.
Например для меня два фильма могут быть "родственными" по совсем непонятным другим пользователям причинам. Допустим из-за цветовой гаммы. Или из-за автомобиля который встречается в обоих картинах.

Оценочную функцию сделать можно, но она будет отражать только свою математическую суть. И открытым останется вопрос, насколько математическая суть функции будет ложиться на реальную проблему. Особенно страшно, что такие функции начинают потом считать источником какой-то "правды". Вобщем в итоге вы будете обманывать себя с помощью математической статистики. От этого я и пытаюсь Вас предостеречь.

Корелляционный коэффициент ведь, просто математическая конструкция. А есть зависимость в измеряемых величинах или нет, решает исследователь, на основании каких-то, допустим эмпирических доводов. Сначала устанавливается связь, а потом рассчитывается корелляция. Корелляция не обосновывает связь.
Сначала человек, потом математика. Вот о чем я хочу Вам сказать. Хоть и да, это не удовлетворяет Вашему вопросу.

Совсем другое дело если говорить о факторах которые люди считают признаками хорошего ответа. Вот в такой постановке вопроса я вижу резон.

Ну и конечно если Вам просто хочется составить какую-то оценочную функцию которая будет соответствовать Вашему представлению, то составляйте ее как хотите. Это будет Ваш инструмент, для решения Вашей задачи. Правильный или неправильный, решающий или нет - можно смело оставить за скобками.

Вот я как-то хотел по количеству оценок и их распределению на товары на Амазоне сделать оценочную функцию, которая бы мне говорила, что лучше выбрать. Есть товары где оценок мало, и они во основном хорошие, а есть где их много, но отличных только три четверти. Так вот поняв, что такая функция на самом деле не выберет для меня то, что действительно лучше, а просто произведет манипуляции с цифрами, я вернулся к чтению рецензий. Мы можем переложить принятие решения на автомат, но станет ли нам от этого лучше?

P.S. Прошу прощения, если мой ответ ушел в философское русло. Так и было задумано.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 6

Комментировать

3 комментария

dollar @dollar Автор вопроса

При чем здесь это?) В данном вопросе я позиционирую себя как читателя ответов Тостера. А лайки рассматриваю в качестве системы рейтинга, чтобы представлять, совпадает ли моё мнение (о том, что правильно и что не правильно) с мнением большинства. И тот факт, что первый ответ набирает больше лайков немного усложняет понимание этого рейтинга. И не важно, оформил ли я при этом свое мнение в виде ответа или нет. Если оформил, то мой ответ оценивается наравне с остальными.

Написано более трёх лет назад
Кот Абсолютный @CityCat4

dollar, Сто миллионов леммингов могут ошибаться. Лайки говорят только о том, что решение, которое предложил A, В считает правильным. Что на самом деле вовсе не говорит о реальной правильности решения. Вполне возможно, что и В, и С, и D и все прочие лайкнувшие находятся в плену заблуждения, особенно если речь заходит о "модно-стильно-молодежно". ИТ - все-таки не математика, в ней очень много от психологии, потому что она работает не только с компами, но и с людьми, и в вопросах "за людей" тут обычно больше всего обсуждений...

Написано более трёх лет назад
dollar @dollar Автор вопроса

CityCat4, о "правильности" речи тоже не было, я использовал термин "симпатия", и надеялся её измерить, что бы она ни означала.

Написано более трёх лет назад

2 комментария

dollar @dollar Автор вопроса

В принципе, статистику можно собрать парсером по крону. :) Правда, долго придется собирать. В общем, это не проблема.

Проблема в другом. Точнее две проблемы.
1) Обозначенные в вопросе конформизм и лень. Это какие-то общечеловеческие константы, но как их измерить и куда приткнуть в формулу?
2) Лайки могут меняться. Т.е. ответ может перестать нравится. Да и вообще человек может вернуться в вопрос, а может и не вернуться, а вот хз как это учитывать. То есть не только ответы в разное время появляются, но и зрители тоже.

Написано более трёх лет назад
orbit070 @orbit070

dollar,
Тут думаю можно оттолкнуться от склонности человека ставить лайки. Я вот например очень редко ставлю даже когда нравятся ответы, у меня это реально по настроению, поэтому для таких типов пользователей сложно понять контекст, почему я не лайкнул.
Но для пользователей склонных раздавать лайки мы можем значительно снизить вероятность того, что он не лайкнул из-за настроения, скорее всего любитель раздавать лайки не увидел годного ответа и настроение тут не при чем. То есть если юзер часто лайкает, вероятность отсутствия у него настроения как причины не поставить лайк невысокая. Также можно высчитать для пользователя как много он лайкает популярных ответов - если его лайки преимущественно липнут к залайканным ответам, то рассмотреть два случая: если его лайк был поставлен раньше, чем ответ стал массово залайканным то это хороший лайк, если лайк поставлен после залайканности то это "плохой"(но не обязательно) лайк.
Ответ может перестать нравиться - я думаю это достаточно редкий случай и им можно поначалу по крайней мере пренебречь, оставив его интеграцию в формулу на потом. Гораздо большей проблемой является то, что если кто-то открыл вопрос и лайкнул ответ слишком рано, то он редко вернётся в вопрос чтобы посмотреть новые другие ответы, которые потенциально могли удостоиться его лайка. Ну это уже опять идёт корреляция с временем ответов. То есть если ответ перестает нравиться это достаточно редкий случай, то второе это достаточно частый сценарий и получается многие ответы недополучают лайков от конкретного пользователя.

Написано более трёх лет назад

Комментировать

4 комментария

Ezhyg @Ezhyg

и что это за хрень?
р к т м н в н й О по из

Написано более трёх лет назад
dollar @dollar Автор вопроса

Тоже интересно. Самое сложное слово выходит "криптозой" :) А если не разбивать на буквы, то ни в одном русском слове нет "по" и "из" одновременно.

выводить процент доступности каждого ответа на вопрос рассчитывая далее разницу в проценте и количестве лайков

Вот это место не понял совсем. Либо я тупой, либо оно не имеет смысла.

Написано более трёх лет назад
dollar @dollar Автор вопроса

hint000, я имел в виду с теми буквами, которые есть. Буквы "ж" там нет.

Написано более трёх лет назад
fsduiwe @fsduiwe

Вот они факты из за которых началась странная переписка не имеющая смысла
Нейронная сеть сломается

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 218 просмотров
2

ответа
Математическая статистика

Простой
Как посчитать серьёзность отклонения числа от набора других чисел?
- 2 подписчика
- 30 янв.
- 272 просмотра
2

ответа
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- более года назад
- 208 просмотров
2

ответа
Тостер

+1 ещё

Простой
Как тут узнать точную дату вопроса/ответа/комментария?
- 1 подписчик
- более года назад
- 220 просмотров
1

ответ
Теория вероятностей

+1 ещё

Средний
Как посчитать вероятность по формуле Байеса в экспертной системе?
- нет подписчиков
- более года назад
- 110 просмотров
1

ответ
Математическая статистика

Средний
Как интерпретировать возникновение точки перегиба на графике дисперсии?
- 2 подписчика
- более года назад
- 180 просмотров
0

ответов
Тостер

+1 ещё

Простой
Почему нету возможности отключить комментарии к вопросу?
- 1 подписчик
- более года назад
- 216 просмотров
1

ответ
Нейронные сети

+2 ещё

Сложный
Как можно спрогнозировать событие, основываясь на существующие данные и исходы?
- 2 подписчика
- более года назад
- 240 просмотров
1

ответ
Тостер

+1 ещё

Простой
Куда делись органы редактирования комментариев и ответов?
- 2 подписчика
- более года назад
- 316 просмотров
1

ответ
GitHub

+1 ещё

Простой
Нужно ли пробиваться с дна гитхаба?
- 1 подписчик
- более года назад
- 300 просмотров
1

ответ
Показать ещё Загружается…

мне кажется тут нет трезвого решения и простого
те, кто пишет хорошие ответы на длинной дистанции станут качественными и богатыми на лайки
Максим Федоров, не всё простое гениально, но всё гениальное просто. Так что периодически вижу простые и лаконичные ответы, которые лучше длинной простыни. Но в целом причина симпатии не важна. Проявление симпатии - это именно лайки. По ответу судить, это хз, нейронная сеть из будущего нужна.))
Ведь минусовать на Тостере нельзя.

И слава Б-гу, это самое порочное, что только можно ввести на сайте.

По теме - лайкодрочество тяжкий грех, забейте болт на циферки.
А под ответами всегда надо чекать комментарии.

Answer 1 · 2019-07-23 02:38:04

Никакую. Все выводы из наблюдаемого поведения - субьективны. Реальность из субьективного восприятия получить невозможно. Какой метод рассчета Вы бы ни применили - вы получите субьективную оценку. Т.е. такую которая будет нравится Вам. Но никак не будет отражать реальную суть вещей.

Вот Вам мысленный эксперимент. Представьте у Вас есть плагин который для Вас на Вашем ответе всегда показывает самое большое количество лайков. Независимо от реальной картины. Вы бы согласились на такую поддельную реальность? Наверное нет? Так что же Вами движет? Чувство несправедливости? Жажда познаний? Вы хотите понять, что делает ответ лучшим? Это бесполезно...

Вот Вам еще один мысленный эксперимент. Представьте себе вы поймете как писать ответ так, чтобы он был отмечен лучшим. Будут ли данные по такой схеме ответы действительно лучшими или они станут просто собирать максимальное количество лайков? А если есть схема по которой можно дать действительно лучший ответ значит мы открыли универсальный способ познания. Нет? Значит остается только второй вариант. Получится просто ответ с большим количеством субьективной поддержки со стороны читателей. Это только ухудшит ситуацию, люди будут писать ответы ради одобрения окружающих. Вопрос уйдет на второй план. Платформа погибнет.

Вот Вам пример из другой области. На литературных порталах можно прочитать разнообразные, порой полярные отзывы о книге. Есть ли математический метод который скажет, стоит мне читать эту книгу или нет? Способ один - почитать и узнать. Какую бы вероятностную уверенность ни выдал рекомендательный алгоритм в том, что мне эта книга понравится, она мне может не понравиться. И наоборот.

Answer 2 · 2019-07-23 00:47:49

https://www.reddit.com/r/OutOfTheLoop/comments/4dl...
https://medium.com/hacking-and-gonzo/how-reddit-ra...

Тк справедливости не существует
А без четких дефиниций за данным слово чаще всего скрывается обман большинства в пользу определенной группы особ

А вот max/min и нормализация (не уверен в данном термине) - реально существуют, предсказуемы и их можно протестировать

google: reddit ranking algorithm

Answer 3 · 2019-07-23 05:46:33

Beg your pardon, captain, но Вы разве пишете ответ для получения лайков? Я вот - нет и мне обычно поуху поднялся мой ответ или не поднялся. Приятно, конечно, когда видишь, что людям нравится, но когда не нравится - меня это не напрягает от слова совсем.

Answer 4 · 2019-07-23 00:13:50

Нужно будет в первую очередь собрать статистику по времени появления каждого лайка с момента ответа, но насколько мне известно время лайка тут нельзя посмотреть. Хотя если попросить админов может дадут эти данные. Если есть время появления лайков, то исходя из этого дальше плясать, например, присвоив лайкам коэффициенты, на которые стоит их умножать: то есть если допустим нам статистика показала, что в течение первого часа ответы получают больше лайков например в 2 раза, чем за все остальное время, то каждый лайк считаем как 1, в то время как все лайки спустя час считаем как 1*2, чтобы уравнять неравные условия. Но это тривиальный пример для демонстрации идеи уравнивания лайков, на деле нужно больше множителей и тщательно исследовать различные промежутки времени. Помимо этого, огромное значение имеет день недели и время, когда был задан вопрос. В те же выходные дни тухляк.

Касательно симпатий по стилю и т.д - тут тоже очень сложно, потому что надо для начала проанализировать все и правильно классифицировать все стили, что не так просто, но распознавать эти стили еще сложнее. Так же вероятность лайков возрастает в случае, если просмотров у вопроса много. А количество просмотров зависит в первую очередь от тега, к которому относится вопрос, но не менее значимый момент это заголовок вопроса - чем более он кликбейтный, "новичковый" и "водяной"(типа с чего начать учить х), тем больше по нему переходов, ведь кликбейт дает интерес, а остальное элементарно увеличивает число людей, способных дать ответ. Ну и желающих пошутить тоже.
Это так только первое что в голову пришло, на деле уйма факторов, которые вы под одну формулу не подгоните на мой взгляд.

Answer 5 · 2019-07-23 00:58:16

Попробую расписать наиболее понятно:
1. Без лайков - конкурируют все, т.к. их ещё мало, но с неравной вероятностью: чем позже ответ получен, тем он ниже в списке и у него меньше шансов (что его прочитают).
2. После любого лайка - этот ответ поднимается в самый верх и начинает конкурировать со следующими 2-мя стоящими под ним (по времени постинга).
3. Как только собирается кластер (1-3 ответа с сильным отрывом от других) - остальным - почти без шансов.

Затем:
1. Если человек, задавший вопрос, понимает тему, он прочитает все и выберет решением 1 (реже 2) ответ ИЗ ВСЕХ!
2. Если не понимает, то решением становится "всплывший" кластер (с максимальным кол-вом лайков).

Исходя из этого алгоритма (процесса), нужно брать среднее время продолжительности чтения (T1) после открытия страницы с вопросом (и ухода со страницы без лайка) и среднее время продолжительности чтения до установки первых 2-х лайков (также, после открытия страницы с вопросом) разными людьми (T2).
Затем взять среднее от этих 2-х средних: (T1+T2)/2
И получим интервальный временной пик, при чтении первых двух ответов.
Дальше - по кол-ву символов (по ответам-лидерам) высчитываем среднюю скорость чтения и, апроксимируя, высчитываем("выравниваем") время на лайк для каждого ответа (с первого и находящихся ниже).
У теперь у нас есть 2 коэф.:
T - время чтения при адекватном лайке на 1-ый и 2-ой ответы вместе (среднее там было)
S - скорость чтения (кол-во символов за единицу времени) при адекватном лайке
При лайке на нижестоящие - мы домножаем на время, чтобы нормировать к пику адекватного лайка.

Дальше от пика - меньше балл.
Ближе - больше балл.

Вот и вся формула.

Answer 6 · 2019-07-23 03:24:00

Проще просто перемешивать ответы и не показывать лайки до момента закрытия вопроса, как только вопрос закрыт, то станет видно истинный ответ
Либо до момента пока пользователь не проголосует, ну а если он не залогинен то можно показывать все как есть

Ну а если подходить математически то нужно сначала составить карту просмотров и кликов как в метрики, загнать ее в нейронную сеть и выводить процент доступности каждого ответа на вопрос рассчитывая далее разницу в проценте и количестве лайков
Либо как то так

ФаКторОв очень много и этот ответ может выползти наверх несмотря на то что находится внизу

Answer 7 · 2019-07-23 08:21:20

Вопрос в том, по какой формуле можно посчитать реальную симпатию к вопросу, учитывая вышеописанные факторы?

Никакой.
Если хотите справедливых, взвешенных оценок, то замените юзера на предсказуемого робота.

Какую справедливую формулу можно использовать для вычисления истинной симпатии (лайки) к ответу на Тостере?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт