Алгоритм поиска схожих объектов?

Question

miolini @miolini

Алгоритм поиска схожих объектов?

Здравствуйте!

Предполагаем, что схожесть некоторых объектов мы можем вычислить путем вычисления метрики относительно классификации объектов разными классификаторами.

Т.е. у каждого объекта для каждого классификатора имеем своё соответствие.

Вопрос:

как быстро найти n наиболее (или наименее) схожих объектов для объекта X, когда порядок объектов исчисляется десятками миллионов, а классификаторов десятками тысяч?

Вопрос задан более трёх лет назад
3611 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

3 комментария

Vas3K @Vas3K

Естественно сортировку делать до и довольно редко. Что невозможно, если список объектов постоянно меняется. Тогда не знаю.

Написано более трёх лет назад
miolini @miolini Автор вопроса

Отсортировать по какому признаку? И как именно раздробить поиск?

Написано более трёх лет назад
Vas3K @Vas3K

Ну смотрите, есть устойчивые сортировки, не меняющие отсортированность по другому признаку. Сортируем по всем, получается что-то типа дерева. Затем сначала выбираем границы записей, подходящих по одному признаку (они рядом будут все), потом ищем в них (уже быстрее, чем искать везде) по другому, и.т.д. Когда критерии закончились — вернули записи в заданных границах.

Хотя это первое что пришло в голову, может есть уже готовые методологии :(

Написано более трёх лет назад

3 комментария

miolini @miolini Автор вопроса

Вопрос не в классификаторах. А то, как на основе их работ в итоге найти схожие объекты. Есть большая матрица — по горизонтали испытуемые объекты, по вертикали классификаторы — а в ячейка номер класса объекта в этом классификаторе.

Написано более трёх лет назад
Сергей @mastedm

На основе этой матрицы можно получить входные векторы (соответственно столбцы матрицы) для карты Кохонена, которая среди них выделит кластеры схожих объектов.

Написано более трёх лет назад
miolini @miolini Автор вопроса

Её нужно обучать (точнее сводить). Что делать, когда эти данные активно модифицируются — появляются новые классификаторы или получаем результат для новый связки объект-классификатор?

Написано более трёх лет назад

3 комментария

Ололёша Ололоев @alexeygrigorev

ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC%D1%8B_%D1%81%D0%B5%D0%BC%D0%B5%D0%B9%D1%81%D1%82%D0%B2%D0%B0_FOREL вот про алгоритм на википедии. У меня где-то должна быть его реализация на делфи.

Написано более трёх лет назад
miolini @miolini Автор вопроса

Спасибо! Похоже на то, что он применим в данном задаче. И схож с моим мыслями. Что набор присвоенные классов для разных классификатор объекта можно считать за координату в w-мерном пространстве (где w — кол-во классификатор). Тогда разбивая все координаты на районы можно уменьшить вычислительную сложность поиска.

Написано более трёх лет назад
miolini @miolini Автор вопроса

Простите за орфографию — увлечён.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 276 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2012-01-28 13:34:50

Если нужно сгруппировать очень большое количество объектов то стоит попробовать создать хеш-функцию для результатов классификатора (такую чтоб она обязательно выдавала одинаковые хешы для объектов предположительно одной группы, но не гарантировала что объекты с одинаковым хешем были в одной группе).

Имея хеш функцию мы уже спокойно можем отсортировать объекты по ее значению даже если все значения хешей не помещаются в оперативную память (можно использовать B-tree например).

А вот уже после сортировки на группы с одинаковыми хешами можно применять более точные алгоритмы чтоб разбить эти группы на искомы подгруппы, так как область поиска будет уже значительно меньше.