Какую выбрать структуру данных для многомерной разреженной матрицы?

Question

dom1n1k @dom1n1k

Какую выбрать структуру данных для многомерной разреженной матрицы?

Опуская некоторые второстепенные подробности, имеется большая разреженная 2- или 3-мерная матрица. Насколько большая? Ну диапазон индексов (по каждому измерению) до нескольких миллионов. Общее количество реально занятых элементов (на всю матрицу) - тысячи, десятки тысяч.

С одной стороны, требуется иметь возможность быстрого доступа к элементу по индексу (a[i][j][k]). С дугой стороны, нужна возможность быстро обойти все непустые элементы и что-то с ними сделать (условно говоря, a.forEach(...)). Скорость очень важна.

Элемент матрицы - объект, поэтому типизированные массивы заведомо отпадают.

Вопрос в структуре данных. На текущий момент у меня есть такие идеи:

1. Массив массивов. Общий принцип упрощенно демонстрирует код:

var a = [];

function set (i, j, k, value) {
	if (a[i] === undefined) a[i] = [];
	if (a[i][j] === undefined) a[i][j] = [];
	a[i][j][k] = value;
	return a[i][j][k];
}

function get (i, j, k) {
	return (a[i] === undefined || a[i][j] === undefined) ? undefined : a[i][j][k];
}

Жирный минус: непонятно, как искать и обходить занятые элементы? Организовать полный цикл со стопицциот индексами и проверками на undefined? Оно искать будет до всемирного потопа.

2. Хэш

var a = {};

function set (i, j, k, value) {
	var key = i + '-' + j + '-' + k;
	return (a[key] = value);
}

function get (i, j, k) {
	var key = i + '-' + j + '-' + k;
	return a[key];
}

Минус: Ну наверное строки это медленно. Хотя, как я узнал недавно, V8 конкатенируемые строки в реальности не конкатенирует, а организует им внутренний объект со ссылками на куски.

3. Комбинация пунктов 1 и 2
То есть параллельно держать обе структуры данных и в каждой ситуации обращаться к той, какая удобнее. Поскольку конечные элементы это объекты, в массивах будут только ссылки. То есть изменение элементов через первую структуру будет видно и через второую.
Минус: оверхед по памяти и времени на построение.

4. Map
https://developer.mozilla.org/en/docs/Web/JavaScri...
Минусы: во-первых, неполная кроссбраузерность, во-вторых, эта структура не дает ничего особо нового в сравнении с самописным хэшем.
В Map в качестве ключей можно использовать объекты, но идентификация идет не по содержимому, а по значению ссылки! То есть если я что-то добавил по ключу { i: 1, j: 2, k:-3 }, то достать обратно это можно лишь передав этот же самый объект. Если сформировать новую тройку индексов, пусть и численно равную старой, вернется undefined.
Выходит, что нужно делать ключами те же самые составные строки или что-то ещё наподобии. То есть никакого профита - ну кроме синтаксического сахарка.

update
Упустил из вида очень важный момент - индексы могут быть и отрицательные тоже!
А поскольку в JS индексы массивов только положительные, это дополнительно снижает привлекательность вариантов 1 и 3 (то есть индексы, конечно, можно пересчитывать внутри, приводя к неотрицательному виду, но это лишний гемор и вычисления).

Вопрос задан более трёх лет назад
672 просмотра

3 комментария

Подписаться 4 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Skillbox

JavaScript

3 месяца

Далее
Яндекс Практикум

Фронтенд-разработчик расширенный

13 месяцев

Далее
Академия Eduson

Fullstack-разработчик на JavaScript

11 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

10 комментариев

Aves @Aves

вообще-то перебор объекта с in будет на порядок медленнее, чем перебор массива с проверкой undefined

Написано более трёх лет назад
Adamos @Adamos

По условиям имеем чрезвычайно разреженный массив, в котором при последовательном переборе проверок на undefined будет на несколько порядков больше, чем собственно элементов.
Собственно, индексы могут быть отрицательными, массив все равно станет объектом.

Что встроенные методы языка будут не хуже самодельных велосипедов с картами и хэшами - это, по-моему, настолько очевидно, что даже нет смысла обсуждать.

Написано более трёх лет назад
Aves @Aves

Adamos: ну пожалуй да, в случае индексов выше миллиона и количества элементов порядка тысячи объект будет быстрее.

Написано более трёх лет назад
dom1n1k @dom1n1k Автор вопроса

Adamos: тут вопрос - как это происходит внутри? Может быть там всё равно будут все те же самые (10^6)^3 проверок на undefine, просто они скрыты от глаз?
Но вообще мысль дельная, надо потестировать.

Написано более трёх лет назад
Adamos @Adamos

dom1n1k: Это уже забота JS-движка. Обычно их делают люди, которые уж такую-то ерунду способны предвидеть и сделать оптимально. Как правило, можно уверенно считать, что любой разреженный массив - это объект со всеми вытекающими плюсами и минусами.

Написано более трёх лет назад
dom1n1k @dom1n1k Автор вопроса

Adamos: Ну в общем, тест показывает, что тройной for-in оказывается намного (~20-40 раз) медленее, чем самопальный велосипедный хэш и нативный Map. Если уменьшать диапазон индексов, разница немного сглаживается, но все равно остается большой.

Причина в том, что итераций получается тупо больше. Он же пропускает андефайны только в пределах одного измерения, а непустых троек индексов намного меньше.

В свою очередь Map быстрее самописного хэша в ~1,5-2 раза.

Написано более трёх лет назад
Adamos @Adamos

dom1n1k: не видя тест, спорить не буду, но результаты подозрительны.
Можете выложить его куда-нибудь на jsFiddle?

Написано более трёх лет назад
Aves @Aves

перебор дерева и хэша
Количество итераций там одинаковое, просто обращение к свойству объекта дорогая операция.
И оператор in тоже дорогой, даже получение массива ключей Object.keys и итерация по нему незначительно, но быстрее.

Написано более трёх лет назад
Adamos @Adamos

Aves: да, я ошибался. Дешевле все писать в линейный массив и перебирать его тупо подряд, даже когда понадобится доступ по координатам. А если он требуется часто - кэшировать.

Написано более трёх лет назад
dom1n1k @dom1n1k Автор вопроса

Нет, количество итераций НЕ одинаковое и результаты совершенно закономерны.

Смотрите. Вот допустим есть пространство возможных индексов (10^6)^3. Реально занятых ячеек допустим 10^4, и это то самое число итераций, сколько сделает тот же map.forEach.
Но в пространстве индексов эти же самые точки займут намного бОльший куб. В самом худшем случае до (10^4)^3, если никакие координаты не повторяются ни у одной пары точек. В реальности, конечно, частичные повторения есть, но получается всё равно сильно больше, чем при одномерном переборе.
Получается примерно такая картина: например, индекс i=100 непустой, в нем содержится 3 непустых j, в каждом из которых по 1-2 непустых k. И так несколько тысяч раз. И если всё это сложить и перемножить, получается заметно большее число операций доступа, чем чистое количество точек.

В тесте пока не стал делать отрицательные индексы, так что для массива условия даже слегка тепличные.
Object.keys делать для массива тоже нет смысла, потому что они очень разрежены, будет очень много накладных расходов.
codepen.io/dom1n1k/pen/qZeZWe (смотрите в консоль)

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+1 ещё

Простой
Как лучше реализовать подобное?
- 1 подписчик
- 13 часов назад
- 116 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как можно реализовать что то вроде селекта внутри родителя у которого есть скрытые элементы и должна быть горизонтальная прокрутка?
- 1 подписчик
- 11 дек.
- 102 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек.
- 123 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 165 просмотров
0

ответов
JavaScript

Простой
Как сделать чтоб условия не перезаписывались?
- 1 подписчик
- 02 дек.
- 223 просмотра
1

ответ
JavaScript

+2 ещё

Простой
Элемент стилизации на js, как сделать чтобы не было резкой смены картинки фона?
- 1 подписчик
- 27 нояб.
- 211 просмотров
1

ответ
JavaScript

Простой
Переход по ссылке с параметром на конкретный узел в vis.js?
- 1 подписчик
- 24 нояб.
- 118 просмотров
0

ответов
JavaScript

+1 ещё

Простой
Как сделать сложную виртуализацию?
- 1 подписчик
- 22 нояб.
- 288 просмотров
2

ответа
JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 317 просмотров
3

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 200 просмотров
1

ответ
Показать ещё Загружается…

Fullstack JavaScript разработчик

MakeDifference

от 60 000 до 110 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Fullstack-разработчик

IT-hunter • Санкт-Петербург

До 300 000 ₽

Вставки часто происходят или при инициализации только?
И вставки, и удаления могут быть, но не очень часто. Основная масса всё-таки при инициализации.
Основное использование - доступ и обход.

Answer 1 · 2016-05-20 17:26:56

> Массив массивов. Жирный минус: непонятно, как искать и обходить занятые элементы? Организовать полный цикл со стопицциот индексами и проверками на undefined? Оно искать будет до всемирного потопа.

Вообще-то проход
for(var index in array) { ... }
никаких undefined не выдает, будут перебираться только реально существующие ключи и значения. Никакой карты или хэшей здесь явно не требуется - это все реализовано в самом языке.

Answer 2 · 2016-05-20 15:20:48

Без учета изменений можно создать матрицу из вложенных сортированных массивов , а них хранить индекс и ссылку на массив или значение. Значением может быть объект или индекс объекта в отдельном списке всех объектов. Что-то читал давно про asm js. Может пригодится тут. С учетом изменений можно иметь вторую матрицу , в которой будут происходить изменения. На заднем фоне можно их склеивать. Вроде есть какие-то background workers. При поиске и обходе нужно учитывать две матрицы. Скорее всего есть готовые реализации под Вашу задачу на других языках.

Какую выбрать структуру данных для многомерной разреженной матрицы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт