Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Question

PerseforeComplete @PerseforeComplete

Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Дан файл с ip адресами. ip могут повторяться. Вес файла многократно превышает объём оперативной памяти. Надо посчитать количество уникальных ip. Простое решение, не учитывающее объём задачи - загнать все ip в хештаблицу и количество элементов в ней будет ответом. Вот только проблема - такая хештаблица не влезет в оперативку. Надо какую-то другую структуру данных использовать. Какую? И вообще, что почитать на тему highload задач и алгоритмов?

Вопрос задан более двух лет назад
387 просмотров

8 комментариев

Подписаться 2 Простой 8 комментариев

Lynn «Кофеман» @Lynn

В мире всего 2³² (≈4.3 миллиарда) уникальных IP.
Каждый занимает 4 байта.
Итого всего лишь 16 гигабайт.

Написано более двух лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

Lynn «Кофеман», Увы это не тот ответ, который нужен

Написано более двух лет назад
eegmak @eegmak

PerseforeComplete, а база данных загружается целиком в оперативку? кроме базы данных можно использовать dictionary+ настроить swap, тогда недостаток оперативы запишется на ssd/hdd. Можно пересмотреть принцип алгоритмов по примеру задачи про "ханойские башни". Или к примеру, создать файл, который будет аналогом массива и работать с файлом точно так же как с массивом (считывать по одной переменной с определенной строки)

Написано более двух лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

eegmak, Нет, база загружается построчно, поэтому она вообще не проблема

Написано более двух лет назад
eegmak @eegmak

PerseforeComplete, даже если в вашем файле будет 32 гб адресов, в структуре dictionary будет не больше чем количество уникальных адресов, т.к. дубль не будет увеличивать размер структуры

Написано более двух лет назад
d-stream @d-stream

Lynn «Кофеман», про ipv6 еще не в курсе? )

Написано более двух лет назад
Lynn «Кофеман» @Lynn

d-stream, я в курсе, а автор нет, иначе у него даже вопроса такого не было бы

Написано более двух лет назад
Everything_is_not_so_bad @2ord

https://codereview.stackexchange.com/questions/259...

Написано более двух лет назад

Решения вопроса 2

Комментировать

3 комментария

PerseforeComplete @PerseforeComplete Автор вопроса

Задача сугубо академическая. Характер адресов такой, что их миллиарды. Т.е. все 16 гб вполне возможно исчерпать. Но предполагается, что этот код будет работать на сервере, где меньше 16гб. И ему придётся количество уникальных считать многократно, поэтому надо делать это оптимально. Разовое решение не подойдёт

Написано более двух лет назад
Армянское Радио @gbg

PerseforeComplete, так я описал решение, которое не будет жрать все 16 гигабайт

Написано более двух лет назад
PerseforeComplete @PerseforeComplete Автор вопроса

Я это просто к уточнению о статистическом распределении входного файла

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 4

2 комментария

PerseforeComplete @PerseforeComplete Автор вопроса

bitmap?

Написано более двух лет назад

Rsa97 @Rsa97

PerseforeComplete, Можно и так назвать.

$bitCounts = [0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4];
foreach ($ips as $ip) {
    $ipLong = ip2long($ip);
    $ipTable[floor($ipLong / 8)] |= (1 << ($ipLong % 8));
}
$totalCount = 0;
foreach ($ipTable as $mask) {
    $totalCount += $bitCount[$mask & 0xF] + $bitCount[($mask >> 4) &0xF];
}

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 8 часов назад
- 50 просмотров
1

ответ
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 12 часов назад
- 297 просмотров
0

ответов
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- вчера
- 66 просмотров
1

ответ
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 101 просмотр
3

ответа
Алгоритмы

+2 ещё

Простой
Какая может быть формула для решения этой задачи?
- 3 подписчика
- 11 апр.
- 5370 просмотров
3

ответа
Алгоритмы

+1 ещё

Простой
Как узнать, входит ли игрок1 (x,y,z) в поле игрок2 (x,y,z)?
- 1 подписчик
- 08 апр.
- 190 просмотров
3

ответа
C++

+1 ещё

Простой
Как решить данную задачу при помощи префиксного дерева?
- 2 подписчика
- 05 апр.
- 195 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Есть ли современная реализации алгоритма триангуляции невыпуклого многоугольника с отверстиями?
- 1 подписчик
- 29 мар.
- 108 просмотров
0

ответов
JavaScript

+1 ещё

Средний
Как найти начальную точку для определения маршрутов в двумерном массиве?
- 1 подписчик
- 15 мар.
- 226 просмотров
6

ответов
Алгоритмы

+1 ещё

Простой
Как объединить списки, полученные от 2 REST API с параметрами `limit` и `offset`, и вернуть его, согласно параметрам `limit` и `offset`?
- 1 подписчик
- 15 мар.
- 105 просмотров
2

ответа
Показать ещё Загружается…

С developer (алгоритмист)

СберТех • Москва

от 350 000 ₽

Бэкенд программист

Grade Factor • Москва

от 80 000 ₽

Senior Java Developer, Database Engine

CedrusData

от 350 000 ₽

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

В мире всего 2³² (≈4.3 миллиарда) уникальных IP.
Каждый занимает 4 байта.
Итого всего лишь 16 гигабайт.
Lynn «Кофеман», Увы это не тот ответ, который нужен
PerseforeComplete, а база данных загружается целиком в оперативку? кроме базы данных можно использовать dictionary+ настроить swap, тогда недостаток оперативы запишется на ssd/hdd. Можно пересмотреть принцип алгоритмов по примеру задачи про "ханойские башни". Или к примеру, создать файл, который будет аналогом массива и работать с файлом точно так же как с массивом (считывать по одной переменной с определенной строки)
eegmak, Нет, база загружается построчно, поэтому она вообще не проблема
PerseforeComplete, даже если в вашем файле будет 32 гб адресов, в структуре dictionary будет не больше чем количество уникальных адресов, т.к. дубль не будет увеличивать размер структуры
Lynn «Кофеман», про ipv6 еще не в курсе? )
d-stream, я в курсе, а автор нет, иначе у него даже вопроса такого не было бы

Answer 1 · 2021-07-18 00:33:52

Если вам допустима потеря точности - посмотрите на hyperloglog. Можно во много раз уменьшить потребление памяти.

Такая структура реализована, например, в redis. Там она займёт 12 Кбайт при погрешности в 0,81%.

Answer 2 · 2021-07-17 20:52:46

Все IP адреса в мире легко засунутся в 16 гигабайт. Не так уж и много.
Грубо говоря, это задача про сжатие информации, и в зависимости от статистического распределения входного файла, будут хорошо работать разные алгоритмы храниения. Например, если в файле много адресов, идущих подряд, хорошо будет работать такой способ:

Делаем древовидную структуру, например по октетам.
Если взять первые два октета, нам потребуется всего 65536 бакетов.

В каждом бакете у нас будет 256 слотов, в каждом слоте - еще 256 отрезков адресов. Если нам повстречались все 256 вариантов самого младшего октета, у нас весь отрезок аккуратно схлопнется.

То есть в листьях дерева мы храним не сами адреса, а пары (база, количество)

Answer 3 · 2021-07-17 20:58:22

Rsa97 @Rsa97

Для правильного вопроса надо знать половину ответа

Для битовой таблицы достаточно 256*256*256*256/8 = 512Мб памяти.

Ответ написан более двух лет назад

2 комментария

Answer 4 · 2021-07-17 21:43:49

Не надо меня слушать, но смеха ради это все решается работой с файловой системой) На каждый ip создаем одноименный файл, а потом просто делаем листнинг директории)

Answer 5 · 2021-07-17 22:24:12

Как уже сказали, оно все отлично помещается в память в битмапе. Но если бы не помещалось (допустим, это не 32-битные ip адреса, а 48-ми битные MAC адреса) , то нужно было бы использовать какую-либо внешнюю сортировку и получить все адреса отсортированными. А дальше за один проход легко подсчитать уникальные.

Сортировать можно разными способами. Например, читать кусками сколько помещается в память, отсортировать как угодно, записать на диск. Потом получившиеся отсортированные куски можно объединять, как в сортировке слиянием.

Еще можно использовать radix sort.

Если есть еще и ограничения на использование места на диске, и в память оно не помещается, то можно воспользоваться фильтром Блума. Заведите его на сколько у вас там памяти хватит. Возьмите много хеш функций. Ну и потом за один проход проверяйте, есть ли уже считанный адрес в фильтре. Если нет - добавляйте и увеличивайте счетчик. Вот только это вероятностый метод и он может недосчитать чего-то из-за ложноположительных срабатываний блум фильтра.

Answer 6 · 2021-07-18 13:40:44

Дан файл с ip адресами. ip могут повторяться. Вес файла многократно превышает объём оперативной памяти.

Сколько оперативки?

Надо посчитать количество уникальных ip.
Простое решение, не учитывающее объём задачи - загнать все ip в хештаблицу и количество элементов в ней будет ответом.

Есть же алгоритмы сортировки, которым не нужно все грузить в память. Работать будет долго, но рано или поздно создаст файл, где все будет отсортировано. А количество уникальных IP в отсортироавнных данных уже школьный уровень.

Какую структуру данных надо использовать что бы посчитать уникальные ip в огромном количестве?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт