Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Question

Stanislav Martynov @Win332

.NET

Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Доброго времени. Есть база (MongoDb) с 1 млн точек для карты. У клиента есть карта на которой отображаются эти маркеры. На сервер прилетают границы просматриваемой области клиента + зум.
1. Нужно эти данные кластеризовать на сервере
2. Нужно это делать максимально быстро
Уже долгое время пытаюсь придумать что с этим можно сделать и пока нет ответа.
Для понимания примерной картины:
1. Размеры
база данных в 1 млн, она еженедельно наполняется по 20-30к новыми данными, т.е. в теории через год-два, она может достигать 2-3 млн.
2. Пользователи
На сайте каждый час находится 200-600 пользователей которые обращаются к карте при каждом перемещении.
3. Скорость
В идеале обойтись вообще без фильтрации данных по типу A < B < C, что бы запрос просто целенаправелнно доставал нужную область карты. Было бы круто достичь 0.005с на запрос (если это реально).

Пишу вопрос потому что пробую различные варианты, и это займет много времени, может кто сталкивался с подобным и огородит от граблей и кучи потраченного времени.

Что пробовал:
1. Пробовал реализовать QuadTree, но я так понимаю он хорошо работает только если все держать в памяти, иначе я не придумал как QuadTree реализовать для MongoDb. Он отрабатывает за 0.005с, но нужно держать в памяти всю коллекцию маркеров.
2. Пробовал каждому маркеру присваивать QuadKey. Т.е. делить карту на квадранты, на 4 части, и так до 23 уровня глубины, QuadKey относился к своему тайлу на карте, и по идее если сделать поиск по QuadKey + группировка, получается отличная кластеризация, но запрос идет 0.8с на большом зуме тип 14-17, и 1-2с на маленьком, когда много объектов попадают под область видимости. Пробовал по разному с ним играться, искать подстроки в QuadKey, преобразовывать QuadKey в uint и делать запросы типа A < B < C. Но это все сводилось к 0.8с до 3с. Все это с учетом индексации в монге.
3. Пробовал делать 2d индекс в монге по положению маркеров, и делать поиск через $geoWithin, но такой запрос отрабатывает за 0.8-0.9с.

Карта работает на веб-сокетах, было бы круто не выгружать клиенту мегабайты данных, по этому нужна кластеризация.
В реализации 3-ех описанных примерах я мог совершить ошибку и возможно можно достичь более высокой скорости.

Сами вопросы:
Может кто-то сталкивался с подобной задачей и знает как лучше всего кластеризовать маркеры? Какой алгоритм более эффективен?
Каким образом реализовать поиск по 1млн маркеров, что бы это занимало как можно меньше времени?
Имеет смысл тут делать кэш?
Может кто знает как работают на стороне сервера сервисы типа яндекс.карт, гугл.карт?
Может есть готовые решения для C#?

Буду благодарен за любую ссылку, личный опыт или полезную информацию

Вопрос задан более трёх лет назад
312 просмотров

3 комментария

Подписаться 2 Сложный 3 комментария

freeExec @freeExec

Не нужны эти кластеры никому. Пользователю важно само наличие, да или нет. И даже сотню маркеров на экране человек не способен адекватно воспринять, зачем ему эти ваши миллионы.

Написано более трёх лет назад
Stanislav Martynov @Win332 Автор вопроса

freeExec, Так мне же не нужно отображать 1 млн маркеров. Я о том что 1 млн лежит в базе, и нужно делать быстрый поиск по этим данным что бы возвращать клиенту 100-200 маркеров

Написано более трёх лет назад
d'Ivan @2ord

Stanislav Martynov, может, таки не кластеризация, а сэмплирование?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Stanislav Martynov @Win332 Автор вопроса

То есть quad-tree работает без использования баз? Т.е. все точки хранит постоянно в памяти? Просто думал что quad-tree работает в сочетании с базами, и у яндекса есть статейка где они пишут - используйте пространственные базы (перечисления + MongoDb).

https://yandex.ru/dev/maps/jsapi/doc/2.1/dg/concep...
Часть называющаяся "Размещение данных на сервере"

Написано более трёх лет назад
mayton2019 @mayton2019

Stanislav Martynov, слушай. Я не сказал что 100% данных надо держать в памяти. Это unreal. Но в топике мало информации о структуре ответа пользователю. Я бы пошел от этого.

Написано более трёх лет назад
Arris @Arris

Stanislav Martynov,

Для хранения информации о географических объектах целесообразно использовать пространственные базы данных. Для многих СУБД существуют расширения, позволяющие организовывать доступ к пространственным объектам. Например, для MySQL — это SPATIAL, для PostgreSQL — PostGIS. Также пространственные индексы поддерживают и другие стандартные базы данных, например, Oracle, MongoDB

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- вчера
- 139 просмотров
3

ответа
Яндекс.Карты

Простой
Как удалять маркеры с Yandex Map API v3?
- 1 подписчик
- 12 июл.
- 75 просмотров
0

ответов
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Как искать primary в реплике Монги?
- 1 подписчик
- 28 июн.
- 106 просмотров
0

ответов
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 276 просмотров
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 472 просмотра
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 88 просмотров
1

ответ
Яндекс.Карты

Простой
Как в excel выгрузить отметки с пользовательской карты Яндекс?
- 1 подписчик
- 08 июн.
- 179 просмотров
2

ответа
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 122 просмотра
1

ответ
Google Maps

Простой
Как ПОСЛЕ СБОЯ снова поделиться своим местоположением в google maps?
- 2 подписчика
- 27 мая
- 281 просмотр
1

ответ
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Не нужны эти кластеры никому. Пользователю важно само наличие, да или нет. И даже сотню маркеров на экране человек не способен адекватно воспринять, зачем ему эти ваши миллионы.
freeExec, Так мне же не нужно отображать 1 млн маркеров. Я о том что 1 млн лежит в базе, и нужно делать быстрый поиск по этим данным что бы возвращать клиенту 100-200 маркеров
Stanislav Martynov, может, таки не кластеризация, а сэмплирование?

Answer 1 · 2020-11-04 21:21:42

Почти все гео-поисковые системы для хранения геометрии используют либо quad-tree либо R-tree. К чему здесь Mongo - вообще непонятно. Это бд другого типа. Для документов.

Бери деревья и используй. Мало памяти - ну решай это быстрыми дисками или просто покупай больше узлов для параллельных поисков.

Answer 2 · 2020-11-04 21:31:41

1 миллион маркеров пусть они занимают килобайт каждый
Гигабайт памяти? Пусть это корявый яваскрипт и он дает оверхед х3
3 гига

Пусть будет расширение в 3 раза.
9 гигов
Не очень большой сервер с 16 гигами оперативки.

Это если в лоб. Если поставить какой нибуть Redis то память сократится до 3 гигов в самом жестком варианте.

Answer 3 · 2020-11-05 17:06:52

Попробуйте PostGIS для хранения данных. В ней эти алгоритмы уже реализованы и данные получаются при помощи обычных SQL запросов.
Для скорости пробуйте построить таблицу соответствий между входными параметрами и искомой областью. Скажем, определить longitude, latitude и тогда можно быстро доставать нужную область. С кэшированием координат часто запрашиваемых областей еще более ускорится.

Можно ли сделать быстрый поиск по карте с 1 млн маркеров (MongoDb) и кластеризацией?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт