Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Question

Stanislav Martynov @Win332

.NET

Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Доброго времени. Есть база (MongoDb) с 1 млн точек для карты. У клиента есть карта на которой отображаются эти маркеры. На сервер прилетают границы просматриваемой области клиента + зум.
1. Нужно эти данные кластеризовать на сервере
2. Нужно это делать максимально быстро
Уже долгое время пытаюсь придумать что с этим можно сделать и пока нет ответа.
Для понимания примерной картины:
1. Размеры
база данных в 1 млн, она еженедельно наполняется по 20-30к новыми данными, т.е. в теории через год-два, она может достигать 2-3 млн.
2. Пользователи
На сайте каждый час находится 200-600 пользователей которые обращаются к карте при каждом перемещении.
3. Скорость
В идеале обойтись вообще без фильтрации данных по типу A < B < C, что бы запрос просто целенаправелнно доставал нужную область карты. Было бы круто достичь 0.005с на запрос (если это реально).

Пишу вопрос потому что пробую различные варианты, и это займет много времени, может кто сталкивался с подобным и огородит от граблей и кучи потраченного времени.

Что пробовал:
1. Пробовал реализовать QuadTree, но я так понимаю он хорошо работает только если все держать в памяти, иначе я не придумал как QuadTree реализовать для MongoDb. Он отрабатывает за 0.005с, но нужно держать в памяти всю коллекцию маркеров.
2. Пробовал каждому маркеру присваивать QuadKey. Т.е. делить карту на квадранты, на 4 части, и так до 23 уровня глубины, QuadKey относился к своему тайлу на карте, и по идее если сделать поиск по QuadKey + группировка, получается отличная кластеризация, но запрос идет 0.8с на большом зуме тип 14-17, и 1-2с на маленьком, когда много объектов попадают под область видимости. Пробовал по разному с ним играться, искать подстроки в QuadKey, преобразовывать QuadKey в uint и делать запросы типа A < B < C. Но это все сводилось к 0.8с до 3с. Все это с учетом индексации в монге.
3. Пробовал делать 2d индекс в монге по положению маркеров, и делать поиск через $geoWithin, но такой запрос отрабатывает за 0.8-0.9с.

Карта работает на веб-сокетах, было бы круто не выгружать клиенту мегабайты данных, по этому нужна кластеризация.
В реализации 3-ех описанных примерах я мог совершить ошибку и возможно можно достичь более высокой скорости.

Сами вопросы:
Может кто-то сталкивался с подобной задачей и знает как лучше всего кластеризовать маркеры? Какой алгоритм более эффективен?
Каким образом реализовать поиск по 1млн маркеров, что бы это занимало как можно меньше времени?
Имеет смысл тут делать кэш?
Может кто знает как работают на стороне сервера сервисы типа яндекс.карт, гугл.карт?
Может есть готовые решения для C#?

Буду благодарен за любую ссылку, личный опыт или полезную информацию

Вопрос задан более трёх лет назад
304 просмотра

3 комментария

Подписаться 2 Сложный 3 комментария

freeExec @freeExec

Не нужны эти кластеры никому. Пользователю важно само наличие, да или нет. И даже сотню маркеров на экране человек не способен адекватно воспринять, зачем ему эти ваши миллионы.

Написано более трёх лет назад
Stanislav Martynov @Win332 Автор вопроса

freeExec, Так мне же не нужно отображать 1 млн маркеров. Я о том что 1 млн лежит в базе, и нужно делать быстрый поиск по этим данным что бы возвращать клиенту 100-200 маркеров

Написано более трёх лет назад
Everything_is_not_so_bad @2ord

Stanislav Martynov, может, таки не кластеризация, а сэмплирование?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Stanislav Martynov @Win332 Автор вопроса

То есть quad-tree работает без использования баз? Т.е. все точки хранит постоянно в памяти? Просто думал что quad-tree работает в сочетании с базами, и у яндекса есть статейка где они пишут - используйте пространственные базы (перечисления + MongoDb).

https://yandex.ru/dev/maps/jsapi/doc/2.1/dg/concep...
Часть называющаяся "Размещение данных на сервере"

Написано более трёх лет назад
mayton2019 @mayton2019

Stanislav Martynov, слушай. Я не сказал что 100% данных надо держать в памяти. Это unreal. Но в топике мало информации о структуре ответа пользователю. Я бы пошел от этого.

Написано более трёх лет назад
Arris @Arris

Stanislav Martynov,

Для хранения информации о географических объектах целесообразно использовать пространственные базы данных. Для многих СУБД существуют расширения, позволяющие организовывать доступ к пространственным объектам. Например, для MySQL — это SPATIAL, для PostgreSQL — PostGIS. Также пространственные индексы поддерживают и другие стандартные базы данных, например, Oracle, MongoDB

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Яндекс.Карты

Простой
Как отследить начало перетаскивания в Яндекс Картах?
- 1 подписчик
- вчера
- 33 просмотра
2

ответа
WordPress

+2 ещё

Средний
Как сделать автоматический выбор региона по IP в Wordpress?
- 1 подписчик
- 22 апр.
- 61 просмотр
2

ответа
Алгоритмы

Простой
Как внедрить алгоритм Дейкстры для игры змейка на java?
- 1 подписчик
- 22 апр.
- 70 просмотров
0

ответов
Яндекс.Карты

Средний
Как открыть маркеры при клике на поинт Я.Карты?
- 2 подписчика
- 21 апр.
- 316 просмотров
0

ответов
C++

+1 ещё

Средний
Как найти кратчайший путь в лабиринте, двигаться в котором можно только вперед и направо?
- 1 подписчик
- 21 апр.
- 116 просмотров
1

ответ
Алгоритмы

+2 ещё

Средний
Какие существуют методы сравнения качества изображения?
- 1 подписчик
- 21 апр.
- 104 просмотра
2

ответа
Алгоритмы

Простой
Какой алгоритм использовать, чтобы: разбить массив чисел так, чтобы суммарная разница между максимальным и минимальным числом была максимальна?
- 1 подписчик
- 21 апр.
- 142 просмотра
1

ответ
Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 19 апр.
- 258 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 18 апр.
- 111 просмотров
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 18 апр.
- 455 просмотров
1

ответ
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

С++ developer

TQB - хай-тек рекрутмент по-хардкору • Москва

от 300 000 ₽

Разработать сложный сервис на Django

25 апр. 2024, в 12:03

75000 руб./за проект

Помощь СММ-специалиста

25 апр. 2024, в 11:49

25000 руб./за проект

Помощь с СЕРМ

25 апр. 2024, в 11:37

40000 руб./за проект

Не нужны эти кластеры никому. Пользователю важно само наличие, да или нет. И даже сотню маркеров на экране человек не способен адекватно воспринять, зачем ему эти ваши миллионы.
freeExec, Так мне же не нужно отображать 1 млн маркеров. Я о том что 1 млн лежит в базе, и нужно делать быстрый поиск по этим данным что бы возвращать клиенту 100-200 маркеров
Stanislav Martynov, может, таки не кластеризация, а сэмплирование?

Answer 1 · 2020-11-04 21:21:42

Почти все гео-поисковые системы для хранения геометрии используют либо quad-tree либо R-tree. К чему здесь Mongo - вообще непонятно. Это бд другого типа. Для документов.

Бери деревья и используй. Мало памяти - ну решай это быстрыми дисками или просто покупай больше узлов для параллельных поисков.

Answer 2 · 2020-11-04 21:31:41

1 миллион маркеров пусть они занимают килобайт каждый
Гигабайт памяти? Пусть это корявый яваскрипт и он дает оверхед х3
3 гига

Пусть будет расширение в 3 раза.
9 гигов
Не очень большой сервер с 16 гигами оперативки.

Это если в лоб. Если поставить какой нибуть Redis то память сократится до 3 гигов в самом жестком варианте.

Answer 3 · 2020-11-05 17:06:52

Попробуйте PostGIS для хранения данных. В ней эти алгоритмы уже реализованы и данные получаются при помощи обычных SQL запросов.
Для скорости пробуйте построить таблицу соответствий между входными параметрами и искомой областью. Скажем, определить longitude, latitude и тогда можно быстро доставать нужную область. С кэшированием координат часто запрашиваемых областей еще более ускорится.

Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт