Подсчет уникальных значений с минимальной погрешностью?

Question

SilentSokolov @SilentSokolov

Подсчет уникальных значений с минимальной погрешностью?

Есть файлы в которых содержится данные почти о миллиарде деталей, у каждой детали есть характеристики. Нужно за относительно короткое время (10 сек), с минимальной погрешностью определить кол-во деталей с теми или иными (include/exclude) характеристиками. Характеристики можно представить в виде ID.

Есть какие-то кейсы для решения подобных задач?

Пытался решить задачу через Spark и его кеш, но по скорости такое решение не подходит.

Вопрос задан более трёх лет назад
1134 просмотра

10 комментариев

Подписаться 1 Оценить 10 комментариев

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- вчера
- 106 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 183 просмотра
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 153 просмотра
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 282 просмотра
3

ответа
Компьютерные сети

+1 ещё

Простой
Как построить топологию сетей (данные в FDB таблице) когда связи замкнуты в кольцо?
- 2 подписчика
- 25 июн.
- 475 просмотров
2

ответа
Алгоритмы

Средний
Какие переходы для ДП у «Гелифиш и незабудка» codeforce?
- 1 подписчик
- 12 июн.
- 91 просмотр
1

ответ
C#

+1 ещё

Простой
Почему неправильно работает Keeloq?
- 1 подписчик
- 05 июн.
- 127 просмотров
1

ответ
Алгоритмы

Простой
Какие переходы для ДП Codeforces Петя и пауки?
- 1 подписчик
- 27 мая
- 168 просмотров
1

ответ
Алгоритмы

Простой
Какую букву в игре поле чудес в этом случае лучше всего открыть? правильное ли это решение?
- 1 подписчик
- 20 мая
- 254 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 279 просмотров
1

ответ
Показать ещё Загружается…

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Армянское Радио: 1000
sim3x: Apache Velocity? или ,,,
SilentSokolov: Какое железо? Сколько серверов? Какая сеть? Какое хранилище?
SilentSokolov:

To understand the phenomenon that is big data, it is often described using five Vs: Volume, Velocity, Variety, Veracity and Value
Армянское Радио: в данный момент все крутиться на spark, есть несколько машинок (3) средней производительности 6 CPU 2 Гб (вкл. только когда нужно запустить что-то для обработки, к примеру обновить / получить статистику). Все на файлах. То есть купить кластер под ту же постгрес, ни кто не даст, так как это локальная система внутри предприятия.
SilentSokolov: А я про сеть спрашивал. Ваши терабайты на одном узле лежат, или на разных?
Армянское Радио: на двух, стандартный hdfs, сеть 1Гб

Answer 1 · 2016-10-23 10:00:49

Есть файлы

Нужно просто из них создать базу и проиндексировать все необходимые поля.
Раз уж заговорили про собственную базу: бинарный кортеж и затем, бинарное неполносвязное "дерево" из них.
Это позволит искать начиная с любых входных данных сразу весь список объектов.

Answer 2 · 2016-10-23 10:04:51

Все зависит от формата хранения/представления этих данных. Должен быть свой кастомный формат, компактный (чтобы сократить доступ к памяти) и удобный исключительно для быстрого сканирования (прохода по всем записям), и ни для чего другого. Я бы написал это под Cython или Numba с компактным представлением данных в Numpy. При таком большом количестве мелких записей и, в общем то, тривиальном алгоритме их обработки основным bottleneck в плане производительности становится не CPU, а доступ к RAM, поэтому от "хитрости" самого алгоритма подсчета (какие тут могут быть хитрости?) тут мало что зависит, зато компактность структуры данных (даже за счет не очень удобного доступа к ней) будет играть решающую роль.

Answer 3 · 2016-10-23 14:12:11

Гляньте в сторону HyperLogLog - можно считать приблизительное количество элементов в потоке.
https://m.habrahabr.ru/post/119852/
Реализация есть в Redis

Подсчет уникальных значений с минимальной погрешностью?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт