Правильная организация БД для работы со статистическими данными

Question

Андрей Стрелков @alphashooter

Правильная организация БД для работы со статистическими данными

Я не являюсь гуру в области баз данных, поэтому не могу могу решить вставшую передо мной проблему без риска, что потом проблем станет еще больше. :)

Итак, начальные условия: PHP5 и MySQL с минимумом возможностей, на выбор MyISAM и InnoDB, но почитав про одно и про другое, от MyISAM я отказался (поправьте, если вдруг я оказался не прав).

Задача: к сожалению, не могу описать задачу конкретно, но я постараюсь максимально изложить суть — формулировка, по-моему, достаточно тривиальна.

Если вкратце, то можно представить, что я собираю статистику про любителей фруктов.
С одной стороны, есть Вася, про которого я знаю следующее: какие фрукты он ест, сколько ест и какие из них он больше всего любит. Любимый фрукт считается исходя из пятибалльной оценки, которую однажды может поставить сам едок, и количеству того, сколько раз этот фрукт был съеден.
С другой стороны, есть Петя и еще сотни человек, про которых я знаю то же самое. На основании имеющейся статистики мне нужно предложить Васе те фрукты, которые он не ел, но которые могли бы ему понравиться.

Рекомендованные для Васи фрукты ищутся следующим образом: мы берем любимые фрукты Васи и ищем тех людей, которые тоже их любят. Затем у этих людей ищем те фрукты, которые любят они и которые Вася не ел, сортируем их по количеству совпадений и выдаем Топ-10.

Таким образом, имеется таблица со строками следующего вида:
[Пользователь] [Фрукт] [Сколько съедено] [Пятибальная оценка]
Из этих записей мне нужно получить те самые фрукты, которые Васе могли бы понравиться.

Цель: в силу ограниченности ресурсов необходимо минимизировать нагрузку на БД, что я планировал сделать за счет правильно организованной работы с базой, то есть:

Правильно организованные структуры таблиц.
Если возможно, найти хитроумный метод, как можно оптимизировать поиск любимого фрукта, так как он предполагает обработку значительного количества данных.

При необходимости можно использовать какие-нибудь дополнительные данные, группировать существующие и прочее — все в разумных пределах, лишь бы на выходе не лег сервер.

PS: все величины, вроде «сотен людей» и «Топ-10», являются исключительно абстрактными и в действительности много больше.

Вопрос задан более трёх лет назад
4041 просмотр

Комментировать

Подписаться 11 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 1 подписчик
- 7 часов назад
- 85 просмотров
1

ответ
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 4 подписчика
- 25 июн.
- 893 просмотра
6

ответов
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 308 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 400 просмотров
3

ответа
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 300 просмотров
3

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 127 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 104 просмотра
1

ответ
Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 72 просмотра
1

ответ
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 286 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2013-07-30 02:30:24

Рекомендованные для Васи фрукты ищутся следующим образом: мы берем любимые фрукты Васи и ищем тех людей, которые тоже их любят. Затем у этих людей ищем те фрукты, которые любят они и которые Вася не ел, сортируем их по количеству совпадений и выдаем Топ-10.

Совет: Переформулируйте условие. На большом кол-ве товаров в шопах, при вышеприведеном условии частые пустые ответы, а еще чаще получаются хлохмы типа «купившие процессор покупают чернила».
— Рекомендованные фрукты ищутся как наиболее часто-поедаемые фрукты совместно с фруктами, которые ел Вася.
Structure---
kuplenno:
userID,
fruitID

recomendacii
fruitID
fruitID2
cnt
Псевдокод для понимания

function buy( userId, fruitId ) {
    for fruit in SELECT * FROM kuplenno {
        INSERT INTO recomendacii VALUES ( fruitId, fruit, 1 ) ON DUBLICATE KEY
        UPDATE recomendacii where fruitID = fruitID AND fruitID2 = fruit
    }
   INSERT INTO kuplenno VALUES ( userId, fruitId )
}

function getBestFruits( userId ) { 
    return
       SELECT fruitID2, sum( cnt ) as ocenka FROM kuplenno, recomendacii
       WHERE userID = userId AND kuplenno.fruitID = recomendacii.fruitID AND frutID not in (SELECT fruitID FROM kuplenno where userID = userId )
       GRUP BY fruitID2
       ORDER BY ocenka 
       LIMIT 10
}

Вроде как этот способ лучше предсказывает следующую покупку.

Answer 2 · 2013-07-29 19:03:33

Вам надо несколько таблиц:

Таблица пользователей
— id
— имя

Таблица фруктов
— id
— название фрукта

Таблица предпочтений пользователей
— id пользователя
— id фрукта
— сколько раз съедено
— оценка

Тут конечно вопрос возникает, как считается оценка по пятибальной шкале, и когда оценивается фрукт, один раз или каждый раз, после съедания?

По сутки такой структуры достаточно будет, чтобы по всякому оперировать данными