MySQL запрос, как?

Question

Алексей Журбицкий @blo

инженер-программист

MySQL
SQL

MySQL запрос, как?

Имеются данные в таком виде:

+------------+------+-------+------+
| date       | uid  | page  | hit  |
+------------+------+-------+------+
| 2013-03-25 | 1    | main  | 10   |
+------------+------+-------+------+
| 2013-03-25 | 1    | about | 2    |
+------------+------+-------+------+
| 2013-03-25 | 2    | main  | 1    |
+------------+------+-------+------+
| 2013-03-26 | 1    | main  | 3    |
+------------+------+-------+------+

dump

CREATE TABLE page_stat(
    `id` int NOT NULL auto_increment,
    `date` date,
    `uid` int,
    `page` varchar(64),
    `hit` int,
    PRIMARY KEY (`id`)
);

INSERT INTO page_stat (date, uid, page, hit) values
('2013-03-25', 1, 'main', 10),
('2013-03-25', 1, 'about', 2),
('2013-03-25', 2, 'main', 1),
('2013-03-26', 1, 'main', 3);

Т.е. за каждый день ведется учет сколько пользователь посещал тот или иной раздел.

С подсчетом посещений каждого раздела все понятно:

SELECT page, sum(hit) hits FROM page_stat GROUP BY page;

Результат

+-------+------+
| page  | hits |
+-------+------+
| about |    2 |
| main  |   14 |
+-------+------+

Теперь необходимо посчитать количество уникальных пользователей по каждому разделу.

Результат должен быть такой:

+-------+------+
| page  | uniq |
+-------+------+
| about |    1 |
| main  |    2 |
+-------+------+

Максимум что удалось придумать это

SELECT page, count(DISTINCT uid) uniq FROM page_stat GROUP BY page;

Но такой запрос на реальных данных обрабатывается больше минуты.

Насколько я понимаю в таком запросе на каждый page неявно делается
SELECT DISTINCT uid FROM page_stat WHERE page=...

Какие еще есть варианты поручить данные по уникальным пользователям? Допускается модификация структуры хранения данных.

UPD Необходим был индекс (page, uid)

Вопрос задан более трёх лет назад
4545 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

7 комментариев

Алексей Журбицкий @blo Автор вопроса

Есть индекс (uid, page)

Написано более трёх лет назад
Melkij @Melkij

Это значит, что нету индекса. Сперва идёт группировка, потом поля в селекте — индекс не подходит для запроса, получается файловая группировка.
Попробуйте на индексе по page создать. Если page не слишком большой — можно попробовать uid добавить сюда же, а если большой — не имеет смысла.

Написано более трёх лет назад
Алексей Журбицкий @blo Автор вопроса

В group by page около 600 записей. Попробую создать индекс только по page.

Написано более трёх лет назад
Melkij @Melkij

Имел в виду количество символов в строке. Для группировки строки по индексу, индекс надо строить по всему полю, а не по префиксу. Если же строки объёмны — то индекс распухнет и будет неэффективен.

Написано более трёх лет назад
Алексей Журбицкий @blo Автор вопроса

Melkij строки до 100 символов, есть кириллица (в utf8) до 50 символов. А если дополнительно хранить хеш строки и по нему сделать индекс и группировку?

Написано более трёх лет назад
Melkij @Melkij

Вполне можно.
Думаю, вам и банального crc32 будет достаточно. А тот компактно упаковывается в unsigned int.

Написано более трёх лет назад
Алексей Журбицкий @blo Автор вопроса

В общем удалось добиться уменьшения времени выполнения запроса с 30 c до 3 секунд. Так как в оригинале используется еще и условие по дате, то индекс вышел (page, date, uid). С crc32 разницы по скорости не заметил.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 138 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 370 просмотров
2

ответа
1С-Битрикс

+1 ещё

Простой
Как получить доступ к SQL-базе Bitrix 14.5?
- 2 подписчика
- 18 мар.
- 317 просмотров
2

ответа
SQL

+2 ещё

Простой
Как ИИ использовать для написания sql запросов?
- 1 подписчик
- 02 мар.
- 998 просмотров
5

ответов
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 251 просмотр
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 221 просмотр
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 227 просмотров
2

ответа
SQL

Простой
Как мне перестроить sql-запрос так, чтобы сообщение не удалялось, с изменением его содержания в начале?
- 1 подписчик
- 01 февр.
- 215 просмотров
1

ответ
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 323 просмотра
4

ответа
Показать ещё Загружается…

Answer 1 · 2013-03-26 11:56:56

gaelpa @gaelpa

Индексов нет? Насколько я понимаю, индекс на (page, uid) должен ускорить ваш запрос.

Ответ написан более трёх лет назад

7 комментариев

Answer 2 · 2013-03-26 13:08:39

Если все запросы к статистике заранее известны, может быть полезна предварительная агрегация путем денормализации на триггерах. К примеру, таблице page_stat назначить триггер after insert, который заносит запись в таблицу page_uid (page, uid), если такая там ещё не имеется. Запрашивать page_uid будет уже полегче, хотя всё равно потребуется пересчёт. Чтобы избежать и его в том числе, можно и на эту таблицу поставить триггер after insert, который в случае появления новой записи инкрементирует счетчик конкретной страницы в третьей таблице page_uniques_count (page, count). Те данные, что уже есть в базе, надо будет перед активацией триггеров соответственно прогнать запросом и занести в служебные таблицы. Ситуация осложняется введением запросов на количество уников за определенный (не произвольный) период времени (например, за день, месяц). Это реально организовать соответствующим образом, добавив в служебные таблицы дату, округленную до нужного интервала. Для каждого такого интервала может потребоваться отдельная таблица-счетчик, но более крупные интервалы можно получить из мелких (например, по месецам из ежедневной) путем классической агрегации через group by, которая в этом случае будет работать значительно быстрее, чем с сырыми данными из page_stat.

MySQL запрос, как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт