Как проверить Теорию 6 рукопожатий в БД с миллионами юзеров?

Question

FlameArt @FlameArt

Как проверить Теорию 6 рукопожатий в БД с миллионами юзеров?

Есть таблица со списком людей, есть many-to-many таблица с "дружбой" между одним и вторым, людей миллионы, связей у каждого до 5к

Как проверить, что один юзер может быть дальним другом второго за 6 связей, чтобы это можно было посчитать в реалтайме? Перебором в лоб явно не получится: число запросов уже на второй связи сильно возрастает. Кешировать какие-то отдельные кусочки графа для каждого юзера так же накладно, как и считать полным перебором

Пару лет назад ВК выкатил такую функцию и там всё работало мгновенно (>40 млн юзеров), стало интересно: как они это сделали?
Или может для друзей есть какая-то более интересная архитектура БД, в которой это можно решить проще

Вопрос задан более трёх лет назад
856 просмотров

3 комментария

Подписаться 8 Средний 3 комментария

Antonio Solo @solotony

если задача "чисто математическая" то вариант 1 - перебор. естественно не "в лоб" а путем построения b-tree

если же брать реальный контакт, то там данные довольно сильно кластеризованы. и рост не будет экспоненциальным. особенно после отсева мусора (коллекционеров друзей). и тут можно применять уже какие-то вероятностные методики для ускорения.

Написано более трёх лет назад
Александр Скуснов @AlexSku

Вроде, там связи между странами чуть ли не между президентами. Поэтому в БД хорошо, если будет много руководителей.

Написано более трёх лет назад
Антон @anton99zel

Пару лет назад ВК выкатил такую функцию и там всё работало мгновенно (>40 млн юзеров), стало интересно: как они это сделали?

Если я не ошибаюсь, то такого не было (вернее читай последний абзац)
Рекомендуемые друзья явно не далее 6 рукопожатий, скорее сильно меньше, вероятно 1-2.
И если действительно 1-2, то таких друзей можно объединить в какой то один кластер. Круг людей между собой не связанный никак будет следующим кластером. И таких кластеров несколько.
Каждый кластер можно разделить на подгруппы, например один город или учебное заведение...
Я думаю, что система явно не берет тупо всех просчитывать, а ориентируется сначала на первое звено , затем на последующее в цепочке кластеров...

Пару лет назад ВК выкатил такую функцию и там всё работало мгновенно (>40 млн юзеров), стало интересно: как они это сделали?

Такое было относительно недавно, 9-12 месяцев назад в отдельном приложении и там за объекты брались не рандомные люди, а знаменитости и Юзер, а это уже существенно меньше запросов, и вероятно перед выкладкой приложения - все вычисления были сделаны заранее, тем более кто проверит то)
Взяли сотню человек и нашли друзей друзей, это не про всех, а это уже проще считать

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 6

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 298 просмотров
3

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 313 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 286 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 168 просмотров
2

ответа
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 275 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 161 просмотр
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 118 просмотров
0

ответов
Показать ещё Загружается…

если задача "чисто математическая" то вариант 1 - перебор. естественно не "в лоб" а путем построения b-tree

если же брать реальный контакт, то там данные довольно сильно кластеризованы. и рост не будет экспоненциальным. особенно после отсева мусора (коллекционеров друзей). и тут можно применять уже какие-то вероятностные методики для ускорения.
Вроде, там связи между странами чуть ли не между президентами. Поэтому в БД хорошо, если будет много руководителей.

Answer 1 · 2020-12-23 19:46:55

Dimonchik @dimonchik2013

non progredi est regredi

графовая БД

neo4j - самая известная
ArangoDB - вам подойдет

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2020-12-24 10:04:57

Поскольку это задача из теории графов - то и решать ее нужно на языках разработки и библиотеках поддержки графов. 1 млн узлов графа - это не много для современной памяти.

Из java библиотек есть Guava, Jung, GraphT.

Answer 3 · 2020-12-24 19:28:59

Александр Ворона @AlexandrVorona

Книга Дауни А. - Изучение сложных систем с помощью Python - 2019
Глава 3. Графы «Мир тесен»

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2020-12-24 08:50:07

1. Шагать надо с 2 сторон
2. Если не влезаете в память, то шагать стоит в "глубину", а не в ширину. (перебор начиная с самых "любвеобильных") (помня о том, что "попасть" надо не во второго, а в одного из его связей, так проще)
К тому же:
Шаг 0: 1 человек
Шаг 1: 5000 максимум
Шаг 2: 25000000 максимум
Шаг 3: 40000000 максимум - уперлись

3 запроса, таблички теоретически большие, практически - все это перемалывается без проблем.

Answer 5 · 2020-12-24 10:59:23

Выбрать правильный инструмент. В данном случае выгрузить данные в графовую базу данных. И в ней обсчитывать подобную задачу.

Answer 6 · 2020-12-24 13:45:11

Developer @samodum

Какой вопрос - такой и ответ

По-моему, у Дональда Кнута рассматривалось решение этой задачи.

Ответ написан более трёх лет назад

Комментировать

Как проверить Теорию 6 рукопожатий в БД с миллионами юзеров?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт