Задать вопрос
  • Как округлить число относительно?

    hint000
    @hint000
    у админа три руки
    =ROUND(A2/10^ROUND(LOG10(A2)*B$1))*10^ROUND(LOG10(A2)*B$1)

    5e3cbfc2a8e82307022723.png
    Так достаточно? Параметр в верхней строке (0.5..0.85) - "уровень любимости человеком" :)

    P.S. кстати, на F4 любопытный артефакт. Значит 0.85 слишком высокий уровень любимости.
    Ответ написан
    2 комментария
  • Чем решить задачу поиска дубликатов из 1млрд изображений?

    sgjurano
    @sgjurano
    Разработчик
    1) я не читал конкретно про эту сеть, но задача "построить пространство, подходящее для поиска похожих объектов" и "распознать класс объектов" — это разные задачи, требующие разных процессов обучения;
    2) задача поиска по датасету — отдельная задача, требующая предварительного обучения сети для получения эмбеддингов;
    3) если искать нужно по статическому датасету, то HNSW — отличный вариант, но индекс будет строиться пару недель; если же датасет динамический, то лучше faiss пока ничего не придумали, насколько мне известно.

    При использовании faiss у меня получились вот такие результаты: индекс варится 5 часов, занимает 67 гигов, вот оценка качества поиска на модельных данных (BigANN, SIFT), тип индекса IVF262k_HNSW32,PQ64:
    R@1    R@10   R@100   time (ms/query)
    nprobe=16,efSearch=128,ht=246           0.6546  0.8006  0.8006     4.231
    nprobe=32,efSearch=128,ht=246           0.7107  0.8818  0.8818     7.783
    nprobe=64,efSearch=128,ht=246           0.7435  0.9343  0.9346    14.691
    nprobe=128,efSearch=128,ht=246          0.7653  0.9687  0.9692    28.326
    nprobe=256,efSearch=128,ht=246          0.7726  0.9829  0.9834    55.375


    Метрика показывает долю истинных top-1 векторов, попадающих в top-k ближайших при запросах к индексу, при разных параметрах поиска, всего 10k запросов.
    Ответ написан
    2 комментария