Как организовать архитектуру для подписки по ключевым словам (как пример, Avito)?

Question

ADv1S @ADv1S

Как организовать архитектуру для подписки по ключевым словам (как пример, Avito)?

Ситуация такая:
Имеется:
1) БД Postgres, в которой хранятся подписки пользователей ~50000 запросов. Запросы вида: Автомобили, Москва, пробег до 100 тыс., в описании есть "зимняя резина", "в родной краске".
2) Кластер ElasticSearch, в котором часто появляются новые документы - объявления. До 500 в минуту.

Задача: организовать рассылку по новым объявлениям как в avito, auto.ru.

Что происходит сейчас:
За минуту загружается ~500 новых объявлений, кладем их в ElasticSearch, и раз в минуту запускаем процесс проверки, какому пользователю какое объявление подходит. Т.е. формирую 50000 запросов к ElasticSearch с заданными id-шниками новых записей (потому что в запросах юзеров есть полнотекст, которым и занимается ES), и потихоньку, по 500 за раз выполняю их на кластере ElasticSearch. Некторые объявления удается отфильтровать на backend, например, если регион не подходит, но запросов все-равно очень много. Соответсвенно, эластик вешается от такого количества полнотекстовых запросов, и поиск по сайту начинает страшно тормозить.

Вид запросов условно такой:
1) Найти среди 500 новых объявлений те, в которых встречается словосочетание "цвет белый", в гороне Казань
2) Найти среди 500 новых объявлений те, в которых встречается "зимняя резина" или "полный электропакет", в городе Москва
........
и таких еще 49000

Есть какие-то идеи как лучше организовать такое решение с рассылкой? Или кто поделится опытом, как устроена система принятия решения, подходит ли документ пользователю или нет, у гигантов, как avito, auto.ru?

Вопрос задан более трёх лет назад
2140 просмотров

Комментировать

Подписаться 16 Оценить Комментировать

Решения вопроса 2

1 комментарий

7 комментариев

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 56 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 5 подписчиков
- 12 авг.
- 1054 просмотра
1

ответ
PostgreSQL

Простой
PostgreSQL, как осуществить поиск по вложенному json?
- 1 подписчик
- 11 авг.
- 89 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ изменять переменную в запросе?
- 1 подписчик
- 11 авг.
- 109 просмотров
0

ответов
PostgreSQL

Простой
Как правильно реализовать перевод данных из STG в ODS при помощи SCD2 в PostgreSQL?
- 1 подписчик
- 11 авг.
- 43 просмотра
0

ответов
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг.
- 271 просмотр
1

ответ
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг.
- 280 просмотров
3

ответа
PostgreSQL

Простой
Почему возникает ошибка «authentication method 10 not supported»?
- 1 подписчик
- 31 июл.
- 85 просмотров
0

ответов
C#

+1 ещё

Простой
Как спроектировать домены?
- 3 подписчика
- 26 июл.
- 165 просмотров
0

ответов
Linux

+2 ещё

Простой
Postgres Docker: Странные временные файлы в папке overlay2?
- 1 подписчик
- 23 июл.
- 239 просмотров
1

ответ
Показать ещё Загружается…

DBA Postgresql

Outlines Tech • Москва

До 300 000 ₽

DBA (PostgreSQL)

СберТех • Москва

До 420 000 ₽

Инженер баз данных

Сбер • Санкт-Петербург

До 100 000 ₽

Answer 1 · 2016-10-26 04:01:15

1. Выделить из запроса сущности (имена существительные): можно использовать это
2. Проверить по заранее подготовленному словарю синонимов и унифицировать всё, что имеет неточности и является синонимом.
3. Делаем привязку тегов текущего объявления к ОБЩЕМУ списку тегов объявлений всей системы.
4. Под объявлением отображаем только 5-6 тэгов, с максимальным количеством объявлений внутри каждого тега (кол-ва привязанных объявлений к этому тегу) по всей системе.
5. В очередь пользователя для отправки - помещаем ID объявлений по его подписке: тэги и т.д.
6. Как только пул новых объявлений превышает пороговое значение - делаем рассылку. Например, каждые 30 новых из общей очереди пользователя:

if($newItemsForUser>=30) {
   /* 
      команда запроса инициализации рассылки
      например, команда через API микросервису
   */
}

Answer 2 · 2016-10-25 20:48:06

Думаю логично для подписок использовать модель pubsub в любой реализации.
И соответственно делать рассылку сразу после создания каждого объявления.
Точнее добавлять объявления в некий пул для рассылки, и как только наберется N количество, отправлять рассылку.

Создается объявление
Попадает в очередь для парсинга
Парсер вычленяет из объявления ключевые слова по базе подписок.
Если ключевые слова находятся, то объявление отправляется в соответствующие каналы(пулы) для рассылки
После того как пул набирает N количество объявлений - делается рассылка.

В итоге должно получиться что-то вроде того что нужно.

"Продам гараж в Москве, белый"
Парсер нашел: москва, белый гараж
Объявление попало в каналы: москва, белый гараж.
И после того как наберутся остальные объявления либо когда пройдёт N времени, очередь рассылается подписчикам этих двух каналов и очищается.

Answer 3 · 2016-10-26 22:34:20

Dimonchik @dimonchik2013

non progredi est regredi

sphinxsearch.com/blog/2013/06/21/faceted-search-wi...

Ответ написан более трёх лет назад

Комментировать

Как организовать архитектуру для подписки по ключевым словам (как пример, Avito)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт