Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Question

PerseforeComplete @PerseforeComplete

Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Дан файл с ip адресами. ip могут повторяться. Вес файла многократно превышает объём оперативной памяти. Надо посчитать количество уникальных ip. Простое решение, не учитывающее объём задачи - загнать все ip в хештаблицу и количество элементов в ней будет ответом. Вот только проблема - такая хештаблица не влезет в оперативку. Надо какую-то другую структуру данных использовать. Какую? И вообще, что почитать на тему highload задач и алгоритмов?

Вопрос задан более трёх лет назад
403 просмотра

8 комментариев

Подписаться 2 Простой 8 комментариев

Lynn «Кофеман» @Lynn

В мире всего 2³² (≈4.3 миллиарда) уникальных IP.
Каждый занимает 4 байта.
Итого всего лишь 16 гигабайт.

Написано более трёх лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

Lynn «Кофеман», Увы это не тот ответ, который нужен

Написано более трёх лет назад
eegmak @eegmak

PerseforeComplete, а база данных загружается целиком в оперативку? кроме базы данных можно использовать dictionary+ настроить swap, тогда недостаток оперативы запишется на ssd/hdd. Можно пересмотреть принцип алгоритмов по примеру задачи про "ханойские башни". Или к примеру, создать файл, который будет аналогом массива и работать с файлом точно так же как с массивом (считывать по одной переменной с определенной строки)

Написано более трёх лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

eegmak, Нет, база загружается построчно, поэтому она вообще не проблема

Написано более трёх лет назад
eegmak @eegmak

PerseforeComplete, даже если в вашем файле будет 32 гб адресов, в структуре dictionary будет не больше чем количество уникальных адресов, т.к. дубль не будет увеличивать размер структуры

Написано более трёх лет назад
d-stream @d-stream

Lynn «Кофеман», про ipv6 еще не в курсе? )

Написано более трёх лет назад
Lynn «Кофеман» @Lynn

d-stream, я в курсе, а автор нет, иначе у него даже вопроса такого не было бы

Написано более трёх лет назад
d'Ivan @2ord

https://codereview.stackexchange.com/questions/259...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее

Решения вопроса 2

Комментировать

3 комментария

PerseforeComplete @PerseforeComplete Автор вопроса

Задача сугубо академическая. Характер адресов такой, что их миллиарды. Т.е. все 16 гб вполне возможно исчерпать. Но предполагается, что этот код будет работать на сервере, где меньше 16гб. И ему придётся количество уникальных считать многократно, поэтому надо делать это оптимально. Разовое решение не подойдёт

Написано более трёх лет назад
Армянское Радио @gbg

PerseforeComplete, так я описал решение, которое не будет жрать все 16 гигабайт

Написано более трёх лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

Я это просто к уточнению о статистическом распределении входного файла

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

2 комментария

PerseforeComplete @PerseforeComplete Автор вопроса

bitmap?

Написано более трёх лет назад

Rsa97 @Rsa97

PerseforeComplete, Можно и так назвать.

$bitCounts = [0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4];
foreach ($ips as $ip) {
    $ipLong = ip2long($ip);
    $ipTable[floor($ipLong / 8)] |= (1 << ($ipLong % 8));
}
$totalCount = 0;
foreach ($ipTable as $mask) {
    $totalCount += $bitCount[$mask & 0xF] + $bitCount[($mask >> 4) &0xF];
}

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 152 просмотра
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт.
- 137 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт.
- 238 просмотров
1

ответ
Алгоритмы

+1 ещё

Простой
Как отконвертировать 3D-меш в наклонные треугольники?
- 2 подписчика
- 02 окт.
- 151 просмотр
1

ответ
Алгоритмы

Сложный
Поиск оптимального маршрута с наимешьшим влиянием на цену в сети ethereum?
- 1 подписчик
- 29 авг.
- 147 просмотров
2

ответа
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 22 авг.
- 237 просмотров
2

ответа
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 186 просмотров
2

ответа
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 295 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 177 просмотров
1

ответ
Программирование

+1 ещё

Простой
Как работает регистрация и аутентификация с помощью ЭЦП?
- 1 подписчик
- 26 июн.
- 320 просмотров
3

ответа
Показать ещё Загружается…

Разработчик баз данных

Greenway Global • Новосибирск

от 150 000 до 160 000 ₽

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

В мире всего 2³² (≈4.3 миллиарда) уникальных IP.
Каждый занимает 4 байта.
Итого всего лишь 16 гигабайт.
Lynn «Кофеман», Увы это не тот ответ, который нужен
PerseforeComplete, а база данных загружается целиком в оперативку? кроме базы данных можно использовать dictionary+ настроить swap, тогда недостаток оперативы запишется на ssd/hdd. Можно пересмотреть принцип алгоритмов по примеру задачи про "ханойские башни". Или к примеру, создать файл, который будет аналогом массива и работать с файлом точно так же как с массивом (считывать по одной переменной с определенной строки)
eegmak, Нет, база загружается построчно, поэтому она вообще не проблема
PerseforeComplete, даже если в вашем файле будет 32 гб адресов, в структуре dictionary будет не больше чем количество уникальных адресов, т.к. дубль не будет увеличивать размер структуры
Lynn «Кофеман», про ipv6 еще не в курсе? )
d-stream, я в курсе, а автор нет, иначе у него даже вопроса такого не было бы

Answer 1 · 2021-07-18 00:33:52

Если вам допустима потеря точности - посмотрите на hyperloglog. Можно во много раз уменьшить потребление памяти.

Такая структура реализована, например, в redis. Там она займёт 12 Кбайт при погрешности в 0,81%.

Answer 2 · 2021-07-17 20:52:46

Все IP адреса в мире легко засунутся в 16 гигабайт. Не так уж и много.
Грубо говоря, это задача про сжатие информации, и в зависимости от статистического распределения входного файла, будут хорошо работать разные алгоритмы храниения. Например, если в файле много адресов, идущих подряд, хорошо будет работать такой способ:

Делаем древовидную структуру, например по октетам.
Если взять первые два октета, нам потребуется всего 65536 бакетов.

В каждом бакете у нас будет 256 слотов, в каждом слоте - еще 256 отрезков адресов. Если нам повстречались все 256 вариантов самого младшего октета, у нас весь отрезок аккуратно схлопнется.

То есть в листьях дерева мы храним не сами адреса, а пары (база, количество)

Answer 3 · 2021-07-17 20:58:22

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Для битовой таблицы достаточно 256*256*256*256/8 = 512Мб памяти.

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2021-07-17 21:43:49

Не надо меня слушать, но смеха ради это все решается работой с файловой системой) На каждый ip создаем одноименный файл, а потом просто делаем листнинг директории)

Answer 5 · 2021-07-17 22:24:12

Как уже сказали, оно все отлично помещается в память в битмапе. Но если бы не помещалось (допустим, это не 32-битные ip адреса, а 48-ми битные MAC адреса) , то нужно было бы использовать какую-либо внешнюю сортировку и получить все адреса отсортированными. А дальше за один проход легко подсчитать уникальные.

Сортировать можно разными способами. Например, читать кусками сколько помещается в память, отсортировать как угодно, записать на диск. Потом получившиеся отсортированные куски можно объединять, как в сортировке слиянием.

Еще можно использовать radix sort.

Если есть еще и ограничения на использование места на диске, и в память оно не помещается, то можно воспользоваться фильтром Блума. Заведите его на сколько у вас там памяти хватит. Возьмите много хеш функций. Ну и потом за один проход проверяйте, есть ли уже считанный адрес в фильтре. Если нет - добавляйте и увеличивайте счетчик. Вот только это вероятностый метод и он может недосчитать чего-то из-за ложноположительных срабатываний блум фильтра.

Answer 6 · 2021-07-18 13:40:44

Дан файл с ip адресами. ip могут повторяться. Вес файла многократно превышает объём оперативной памяти.

Сколько оперативки?

Надо посчитать количество уникальных ip.
Простое решение, не учитывающее объём задачи - загнать все ip в хештаблицу и количество элементов в ней будет ответом.

Есть же алгоритмы сортировки, которым не нужно все грузить в память. Работать будет долго, но рано или поздно создаст файл, где все будет отсортировано. А количество уникальных IP в отсортироавнных данных уже школьный уровень.

Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт