Как оптимизировать пересечение списка значений MongoDB?

Question

Tark @Tark

Pyramid'альный мир

Как оптимизировать пересечение списка значений MongoDB?

Здравствуйте.

Цель скрипта - поиск по токенам. Всё это дело работает под Python (фреймворк Flask) + MongoDB и установлено на VDS с 400 мегабайт памяти, поэтому ставить Sphinx очень бы не хотелось, проще тогда вообще убрать поиск, тем более что смысла в нём особенного нет.

Коллекция в Mongo имеет вид

{
    "token": "слово",
    "haystack": {
        "тип": [список ключей],
        "тип2": [список ключей2]
    }
}

То есть для поиска собственно документов нужно сделать запрос к базе, а после - сделать пересечение списков одного типа. К сожалению, аггрегация в этом случае вообще никак не поможет (используется MongoDB версии 2.4.9, ключ $setIntersection в блоке $project появится в MongoDB 2.6)

Пока используется следующий код:

def intersect(array):
    def intersection(a, b):
        if not a or not b:
            return []
        return list(set(a).intersection(b))

    ret = {}
    for val in array:
        if not ret:  # если первый словарь
            ret = val['haystack']
        else:
            current = val['haystack']
            ret = {
                'goods': intersection(ret.get('goods'), current.get('goods')),
                'pages': intersection(ret.get('pages'), current.get('pages')),
                'news': intersection(ret.get('news'), current.get('news'))
            }
    return ret

Если получаемые списки небольшие - всё отрабатывается за миллисекунды. Но в текущей базе порядка 10К записей и при этом токенов слишком мало, каждый документ содержит в себе до 7 тысяч значений. Интересно, что получение данных при следующем вызове занимает 63 мс (два документа, 1597 и 6602 значений списка, после пересечения получается список из 1448 элементов)

result = list(db.search.find({'token': {'$in': tokens}}))

...а пересечение списков добавляет... всего миллисекунду. Хм.

В связи с этим есть вопрос: нельзя ли как-нибудь ускорить это дело?

Индекс по токенам есть, само собой, тот же запрос с .explain() в консоли mongo утверждает, что выполняется за минимальное время - 0 мс. Но почему возвращаются эти результаты ТАК ДОЛГО? Что можно сделать в таком странном случае?

Вопрос задан более трёх лет назад
3221 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 165 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 113 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 97 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 94 просмотра
0

ответов
Поисковая оптимизация

+1 ещё

Простой
Почему сбросились подтверждения права в Google Search Console?
- 1 подписчик
- 17 нояб.
- 87 просмотров
3

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 243 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 280 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 172 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 152 просмотра
1

ответ
Поисковая оптимизация

Простой
Реклама через mp3, как повлияет на СЕО?
- 2 подписчика
- 04 нояб.
- 241 просмотр
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-03-19 04:38:01

Мда. Использовался драйвер pymongo версии 2.5.2. Установил последний, 2.6.3, время получения данных сократилось до 3 мс, с пересечением - до 4 мс. Результат считаю удовлетворительным, а вопрос - закрытым. Эх!

Как оптимизировать пересечение списка значений MongoDB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт