Как работать с большим объемом данных (2М записей) на UI?

Question

balloon @balloon

Как работать с большим объемом данных (2М записей) на UI?

Есть внутрения система для работы с большим объемом данных.

Нужно дать возможность пользователям быстро просматривать эти данные через веб интерфейс.

Упрощенно это выглядит так:

1. есть таблица в MySQL/Percona (2М записей, 350М данных)

2. есть локальный веб сервер, который должен эти данные передавать на UI

3. UI должен эти данные отображать в виде таблички, по которой можно сортировать, фильтровать, пагинация и т.д.

Напрашиваются следующие варианты реализации:

1. Загружать данные только для одной страницы через ajax при смене страницы, сортировке или фильтра

Результат: всё работает медлено из-за сортировки и фильтров по не индексируемым полям.

2 (текущий). Загружать сразу все данные и сортировать/фильтровать на стороне клиента.

Результат: если скорость сортировки и фильтрации более-менее приемлемая, то вот скорость начально загрузки данных огорчает.

Вопросы:

1. Как можно быстро загрузить 300М данных на UI?

Сейчас это несколько ajax-запросов, которые возвращают максимально компактный json.

Преобразование данных в json происходит через PHP, что конечно сказывается на производительности.

Есть ли возможность в javascript загрузить csv (select in file) и проитерировать его?

Есть ли возможность загрузить файл с json данными >75Mb? При большем объеме мой Chrome крешится.

2. Как хранить/сортировать такой объем данных на UI?

Сейчас они просто в массиве хранятся и сортируются через underscore.

Пробовал sqlite — гораздо медленее.

Примечания:

1. Браузер — Chrome. Поддержка остальных не нужна :)

2. Сервер: PHP 5.3.8/Apache2/Percona 5.1/FreeBSD

3. Таких таблиц много

Заранее спасибо за советы.

Вопрос задан более трёх лет назад
7688 просмотров

Комментировать

Подписаться 7 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 5

5 комментариев

balloon @balloon Автор вопроса

Префильтры у нас есть. Но они лишь частично спасают ситуацию. У пользователей слишком много этих префильтров и им иногда проще загрузить все данные целиком, чем создавать префильтр и потом переходить по ним. Идея со стартовым визардом понравилась. Возможно заинтегрируем :)

По поводу json. Chrome крешиться при загрузке json больше 75Mb. Можно разбить на куски и грузить их поочереди/паралельно. Но нет уверености в том, что данные из кеша будут часто переиспользоваться, т.к. комбинаций фильтров слишком много, а данные обновляются раз в сутки, что практически весь кеш инвалидирует.

Написано более трёх лет назад
egorinsk @egorinsk

> У пользователей слишком много этих префильтров и им иногда проще загрузить все данные целиком

Неправда. Я не представляю себе человека, уверенно просматривающего список из 2 млн. строк. Скорее, у вас плохие и неудобные фильтры, которыми никто не хочет пользоваться.

Написано более трёх лет назад
balloon @balloon Автор вопроса

Возможно, но проблема не в удобстве фильтров, а скорости их работы. Пользователи конечно не просматривают 2м строк, но им нужно быстро переключаться между фильтрами или дополнять их. Если это сделать с перезагрузкой данных, то получиться медленее, чем просто дождаться загрузки всех данных и быстро фильтровать на клиенте.

Написано более трёх лет назад
Vampiro @Vampiro

Сделайте ключи по каждому полю. Это не так критично, как вам кажется. В конце концов — БД создана чтобы быстро в ней искать данные =)

Если все-таки серверный вариант вас не удовлетворяет — открой ссылку на IndexedDB, которую вам уже предлагали, и перекидайте все данные в эту базу. Каждому пользователю локально.

Написано более трёх лет назад
balloon @balloon Автор вопроса

Ключ по каждому полю для 20 таблиц со средним размером в 10М записей и 20 полями, просто съест всю оперативку + как нюанс если индексы будут использоваться только для сортировки, то фильтрация будет не шустрая, хотя и приемлемая.

IndexedDB смотрю, но всё равно остается вопрос: как в нее загрузить все эти данные.

Написано более трёх лет назад

1 комментарий

2 комментария

balloon @balloon Автор вопроса

Фильтровать/сортировать можно по любому полю, а каждое поле индексировать нет никакого смысла. Таких таблиц кстати много.

Про производительность браузера. Chrome выбран не спроста. Только он выжил при 500к записей и при этом сортировка работала практически мгновенно.

Написано более трёх лет назад
Wott @Wott

Мгновенная сортировка делается только при индексации. Скорее всего хром этим и занимался при импорте.
Индексы имеет смысл тогда, когда они используются. Если пользователи хотят сортировать по полю — там должен быть индекс.
Вообще идея ворочить данные на клиенте, когда их больше 1к — имхо мертворожденная.

К стати если данные меняются медленно то хорошо работает кеширование — ставим ключи сортировки и прочего в урл и кешируем в nginx

Написано более трёх лет назад

6 комментариев

balloon @balloon Автор вопроса

Мы передаем данные как массивы. Но хотелось бы в идеале отправлять запрос в базу, который формирует csv файл. Ajax запрос перенаправляется на этот файл. Сервер отдает его быстро как статику. Дальше javascript сохраняет этот файл локально клиенту и парсит его через буфер, что бы получить финальный массив.

Написано более трёх лет назад
Eugene @Methos

угу, я на одном проекте данные упаковывал в js-файлы (типа как клиентский кеш).

это работает очень хорошо, ибо один раз закеширует — и потом грузит только из кеша.

а зачем вам csv? разве не быстрее нативный js?

Написано более трёх лет назад
Vampiro @Vampiro
у меня тестовый js с записями вида

var date=[]; data[]={id:1,value="test1"}; data[]={id:2,value="test2"}; data[]={id:3,value="test3"}; ...

свалил хром при ИД=2кк =/
Написано более трёх лет назад
Eugene @Methos

Vampiro

data[]={id:1,value=«test1»};

У вас объекты.

Для массивов это должно выглядеть так:

var date=[['id','value'],[1,'test1'],[2,'test2']… ];

Написано более трёх лет назад
balloon @balloon Автор вопроса

Всё равно хром упадет при размере 100-200Mb.

RE CSV: мне кажется что распарсить csv можно быстрее чем json (даже нативными средствами). Но проблема в том что если приходит json, то браузер обязан полностью его положить в оперативку + этот json нам нужно перегнать в нужный нам массив, а если будет приходит csv файл и его можно читать построчно, то в оперативку попадет только сформированный массив + буфер на чтение. Тут мы пробывали даже XHR2 + Blob и всё равно хром падает на файлах > 200Mb.

Написано более трёх лет назад
Eugene @Methos

так мой вариант и предполагает сразу массив. и ничего не нужно парсить. это нативный метод, он сразу получит нужный массив в памяти.

дело в том, что если использовать объекты, то будет много памяти на ключи использоваться. при массивов этого нет.

но если у вас такие объёмы данных, то вам нужно уже оптимизировать алгоритм, конечно. разбивать на блоки и т.п.

например, сначала грузить первую страницу, а остальные данные фоном.

если, например, есть какие-то слои, то можно их предварительно подготовить в кеш-файлы и грузить в нужный момент.

вам вообще можно сервер не нагружать, а подготовить нужные данные во всех представлениях во всех вариантах сортировки в сотни js-кеш-файлов, которые подгружать в нужный момент по ajax.

успехов.

Написано более трёх лет назад

10 комментариев

Вячеслав Плиско @AmdY

Я ещё добавлю эту ссылочку, там реализация серверной и клиентской части phpclub.ru/talk/threads/jqgridphp-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B-%D0%BD%D0%B0-ajax-%D0%B1%D0%B5%D0%B7-%D0%B3%D0%BE%D0%BB%D0%BE%D0%B2%D0%BD%D0%BE%D0%B9-%D0%B1%D0%BE%D0%BB%D0%B8.69132/

Написано более трёх лет назад
balloon @balloon Автор вопроса

jqGrid, к сожалению, никак не оптимизирует работу с таким кол-во данных.

Написано более трёх лет назад
Вячеслав Плиско @AmdY

Будет выбираться всё порциями, подтягиваться ajax-ом и проблем быть не должно, главное никакого клиентского кеширования не юзать, а то браузер будет умирать, а БД с расставленными индексами с лёгкостью справится с 2M записей.

Написано более трёх лет назад
freeek @freeek

С 5kk записей у меня работало без проблем.

Написано более трёх лет назад
balloon @balloon Автор вопроса

Опишите плз подробнее. 5м каких записей (я имею ввиду их суммарный размер)? Т.е. фильтрация + сортировка по любому из полей не тормозила? При этом данные сразу все подгружались, либо только те что запросил?
Возможно, я что то упускаю из вида.

Написано более трёх лет назад
pietrovich @pietrovich

jqGrid умеет подсасывать данные порциями. смотрите здесь в new in 3.7 / virual scrolling
Использовал для работы с большими объемами — проблем не было. На клиенте всегда был лишь небольшой кусок данных что к торомозам привести ну никак не может. Естественно прийдется подкрутить серверную сторону, чтобы она возвращала нужные куски, а так-же отвечала за фильтрацию и сортировку.

Написано более трёх лет назад
freeek @freeek

Собственно, pietrovich вам ответил :)

Написано более трёх лет назад
balloon @balloon Автор вопроса

Так собственно у нас серверная сторона и будет педалить в данном случае. Мне просто не понятно, как можно сделать серверную сортировку + фильтрацию, что бы она не педалила. Тут наверное мне стоит уточнить каждая таблица состоит из >20 полей + используется пару join'ов + полный размер таблицы в районе 20M (2M — это только то что нужно для конкретного пользователя). Индексы — не вариант, т.к. а) их на все поля ставить не будешь; б) они уже используются для того что бы из 20М сделать 2М. Запросы без сортировки еще более менее нормально отрабатывают, но если добавить сортировку то время ответа средней страницы уже будет достаточно большим (к сожалению, точных цифр не назову, но явно больше 10секунд).

Написано более трёх лет назад
freeek @freeek
jqGrid не подгружает сразу всё, вы же не отображаете все 5 миллионов записей, например, сразу? :) Он делает

select * from table order by field limit 200

Проверьте, сколько времени у вас выполняется такой запрос? У меня это было терпимо, даже при больших объёмах данных. Тем более, индексы есть у вас! Собственно, это и есть тот путь решения, где вы хотите грузить «по частям».
Написано более трёх лет назад
Вячеслав Плиско @AmdY

>> Индексы — не вариант, т.к. а) их на все поля ставить не будешь;
Так Вам шашечки или ехать? Хотите быстро — ставьте индексы. Клиентсайд в любом случае будет на пярядки медленнее базы данных.
Тем более эти 10 секунд не обязательно ждать каждый раз, организуйте серверный кэш и отдавайте готовый json, если попали в кэш.
Избавьтесь от join в пользу денормализации, может можно выделить небольшую актуальную часть данных в отдельную таблицу и при пэйджинге на первой десятке страниц работать с ней и лишь на дальних страницах подключать большую и т.д. и т.п.

Вы бы описали для чего вам это нужно, на основании юскейса легче предлагать нужные именно вам варианты.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
Зависимости в package.json отображаются как неустановленные при открытии репозитория, размещенного в WSL?
- 1 подписчик
- вчера
- 97 просмотров
1

ответ
JavaScript

Простой
По какой логике формируется очередь микро задач с async/await синтаксисом?
- 1 подписчик
- 13 авг.
- 156 просмотров
1

ответ
JavaScript

+2 ещё

Средний
Как отключить глобальные объявления?
- 1 подписчик
- 12 авг.
- 117 просмотров
0

ответов
JavaScript

Простой
Есть ли ресурс где можно посмотреть все генераторы микро/макро задач?
- 1 подписчик
- 12 авг.
- 122 просмотра
0

ответов
JavaScript

Средний
Как добавить скрытый input в форму через js?
- 1 подписчик
- 11 авг.
- 152 просмотра
0

ответов
JavaScript

+2 ещё

Сложный
Что означает Autofocus processing was blocked because a document already has a focused element.?
- 1 подписчик
- 09 авг.
- 74 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Как сделать код с отменой запросов и переотправкой более простым?
- 1 подписчик
- 05 авг.
- 231 просмотр
2

ответа
JavaScript

+1 ещё

Простой
Как отправлять браузерные уведомления через скрипт js?
- 1 подписчик
- 01 авг.
- 217 просмотров
0

ответов
Chrome

+1 ещё

Простой
Какие альтернативы расширению LiveReload + Sublime Text для Chrome в 2025?
- 1 подписчик
- 01 авг.
- 85 просмотров
2

ответа
Windows

+1 ещё

Средний
Как сделать, чтобы вкладки хрома не закрывались без подтверждения?
- 1 подписчик
- 31 июл.
- 246 просмотров
3

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 150 000 до 300 000 ₽

Fullstack JavaScript разработчик

Wanted

от 180 000 до 240 000 ₽

Fullstack-разработчик

IT-hunter • Санкт-Петербург

До 300 000 ₽

Answer 1 · 2012-08-23 17:56:56

в 999 случаях из 1000 человек не может ничего сделать глядя на 2кк строк. Наш мозг просто не в состоянии оперировать такими объемами сразу. Треть пользователей накладывает нужный фильтр, еще треть делает сортировку по одному значимому для них столбцу, и «мотает» до нужных значений. Остальные пользуются поиском на каждую запись.

Посмотрите к какой трети относятся ваши пользователи. Мне кажется сделать диалог-мастер с фильтром гораздо проще, чем выкабениваться с 2кк записей, 90% которых не требуются пользователю :)

Если у вас данные не лезут в json, как вариант, можно делать дамп таблички в static-file, загружать его, а потом уже ajax-ом доводить до кондиции с бд, если база не часто обновляет записи.

Answer 2 · 2012-08-23 17:28:11

1. Грузите «бочками» — по частям. Первый запрос выдает ответ с, допустим, количеством партиций и адресом откуда каждую скачивать. далее с помощью например webworker выкачивать их параллельно.

2. Т.к. sqllite deprecated, я бы попробовал IndexedDB.

Answer 3 · 2012-08-23 18:18:40

Результат: всё работает медлено из-за сортировки и фильтров по не индексируемым полям.

Так индексируйте таблицы, 2кк записей — это не много для MySQL.
Как правильно сказал Vampiro, нет абсолютно никакого смысла вываливать всё на клиент, пользователь не увидит и 5% этих данных, но производительность браузера это убьет насмерть.

Answer 4 · 2012-08-23 21:26:07

Для уменьшения объёма файлов (данных) вместо json можете попробовать использовать массив массивов. Первый элемент массива — ключи. Дальше — данные. Загружаете и распаковываете в объекты.

При этом методе и создание json на сервере будет быстрее — можно использовать обычные массивы и implode.

Answer 5 · 2012-08-23 17:21:02

freeek @freeek

А пробовали какие-нибудь велосипеды типа jqGrid, как они с такими объёмами справляются?

Ответ написан более трёх лет назад

10 комментариев

Как работать с большим объемом данных (2М записей) на UI?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт