Как ускорить процесс получения большого объема данных?

Question

Орхан Гасанлы @azerphoenix

Java Software Engineer

Java
Spring

Как ускорить процесс получения большого объема данных?

Доброго времени суток!
Задача вкратце - есть 1-й datasource (View), изкоторого нужно получить данные и записать их во второй datasource. После получения данных из 1-й БД необходимо для каждого адреса получить координаты из nominatim (поднят, как отдельный сервис).
Логика работы - запрос приходит из фронта, запускается процесс обновления данных и записывается в БД. Потом на фронт возвращается deferredResult со статусом "ок" и компонент таблицы отрисовывается с новыми данными.
Кол-во данных за 1 раз до 10 000.

Что реализовано на данный момент -
Получаю Stream<T> по 1000 из первой БД, итерирую по нему и получаю координаты и записываю их в БД (разумеется, там есть проверки, валидации и т.д.). В общей сложности для 10 000 данных весь процесс занимает около 20-25 мин. Если стрим записи в БД сделать параллельным (parallelStream()), то появляется проблема при записи в БД, так как некоторые потоки пытаются одновременно обновить одни и те же данные. Но если в целом ошибок не возникает, то время сокращается дважды.
Разумеется, что не хочется заставлять юзера так долго ждать. + к тому же если он обновит страницу, то данные могут быть не обновлены.

Что раньше пытался реализовать - использовать Spring Quartz и на запрос юзера возвращать uuid, по которому фронт будет дергать статус и если все ок, то рендерить компонент. Правда, возникли некоторые проблемы с самим фреймворком.

Вариант с дерганием данных по CRON, не является решением. Хоть и реализован на данный момент тоже. Т.е. пользователь всегда может захотеть получить актуальные данные.

Вопрос задан более двух лет назад
252 просмотра

3 комментария

Подписаться 3 Простой 3 комментария

My1Name @My1Name

Получаю Stream по 1000 из первой БД, итерирую по нему и получаю координаты

В общей сложности для 10 000 данных весь процесс занимает около 20-25 мин.

Это время получения и записи в БД, или время получения координат? Если вы работаете со свёрточной нейро-сетью, чтоб получить координаты, то чтоб ускорить процесс его нужно принципиально поменять :)

Написано более двух лет назад
Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

My1Name, добрый день. Это весь процесс занимает примерно столько.

Написано более двух лет назад
My1Name @My1Name

Орхан Гасанлы,
некоторые потоки пытаются одновременно обновить одни и те же данные. Но если в целом ошибок не возникает, то время сокращается дважды.

Если вас устраивает сокращение времени на два, то напрашивается "виртуализация" процесса. Например создавать временную БД, или TEMP файл, если вычислительные мощности не позволяют держать весь объём данных в памяти.

По идее Hibernate Shards решает такие проблемы. Однако, сам не пользовался, поэтому утверждать не могу.

Написано более двух лет назад

Решения вопроса 4

4 комментария

Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

Добрый день. Прежде всего большое спасибо за ответ.

что именно занимает так много времени, проведи профилирование чтобы выяснить где больше всего проводит времени твой код - например внутренняя обработка данных или база данных?

Больше времени затрачивается на внутреннюю обработку, потому что приходится много чего проверять.

По факту -
* получить данные в стрим stream<T> Это происходит быстро
* проверить есть ли запись в БД или нет. Если есть, то сделать equals() и в случае надобности обновить
* комбинируя различные варианты попробовать подобрать координаты. В лучшем случае это 1-2 запроса к nominatim или достаем дефолтные координаты села, города и т.д. из БД.
* Ну и дальше записать все в БД.

Классический пример: для каждой записи ты делаешь запрос - найти соответствующий объект(ы) в базе, прочитать их, изменить и записать результат в базе. нужно сделать так - выгрузить сразу много записей (условно по 1000), изменить их с учетом того что это будет происходить в оперативной памяти, многократная запись одних и тех же объектов не будет занимать столько времени как запись в базу

Согласен. Нужно будет пересмотреть процесс обновления.

Написано более двух лет назад
rPman @rPman

Больше времени затрачивается на внутреннюю обработку,

В лучшем случае это 1-2 запроса к nominatim

nominatim у тебя локальная установка или пользуешься их api онлайн? Так как онлайн ты маловероятно что сможешь ускорить. batch запросы как я понимаю там не реализованы.

Может все же проведешь профилирование, jprofiler (или тот что в твою IDE встроен) запустить дело пяти минут. Без этого будет тупо гадание.

Запросы на проверку наличия данных в базе можно завернуть в пакет, грубый пример если это поиск по id то будет достаточно задать все списком id in (123,234,345,456), если это что то сложнее, то можно сначала залить данные для фильтрации во временную таблицу (без индексов in memory) и опять одним запросом получить нужные данные.

Если все запросы у тебя происходят локально, проверь, нагружена ли машина полностью? хватает ли ресурсов cpu/disk/ram и если да, то возможно придется запускать больше инстансев того же nominatim или к примеру заранее подгружать в оперативную память какие то данные (например координаты городов и сел, это не такая уж и большая база)

Написано более двух лет назад
Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

rPman,

nominatim у тебя локальная установка или пользуешься их api онлайн?

локальная копия

Может все же проведешь профилирование, jprofiler

Да, скорее всего придется профилировать.

Если все запросы у тебя происходят локально, проверь, нагружена ли машина полностью?

Нет машина, не нагружена. В принципе, я могу нагрузить оперативку и процессор.

Большое спасибо

Написано более двух лет назад
Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

благодарю за идеи. Мне удалось решить проблему путем batch операций и параллельного стрима для определения координат. Время снизилось с 25 мин до 2-3 минут.

Написано более двух лет назад

4 комментария

Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

Добрый день.
Большое спасибо за ответ. Буду думать, как улучшить сервис.

Это чтение из базы.
Да, это происходит быстро.

Второе это собственно проверки и валидации.

Именно второй этап занимает дольше по времени, так как есть маппинги, валидации, проверки существования записи в БД, поиск координат и прочее.

И третье это собсно запись в БД. Используется ли JDBC-batch?

Да, используется.

Написано более двух лет назад
mayton2019 @mayton2019 Куратор тега Java

Орхан Гасанлы, показывай код.

Написано более двух лет назад
Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

mayton2019,
благодарю за идеи. Мне удалось решить проблему путем batch операций и параллельного стрима для определения координат. Время снизилось с 25 мин до 2-3 минут.

Написано более двух лет назад
mayton2019 @mayton2019 Куратор тега Java

Орхан Гасанлы, ПФ... Ну чтож. Решил так решил.

Написано более двух лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Кто знает конкретную практику для начинающего Java разработчика?
- 1 подписчик
- 9 часов назад
- 56 просмотров
2

ответа
Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 2206 просмотров
3

ответа
Java

Простой
Как скомпилировать Swing приложение с AOT?
- 1 подписчик
- 08 авг.
- 89 просмотров
1

ответ
Android

+1 ещё

Простой
Почему постоянно переходит только в первую группу?
- 1 подписчик
- 30 июл.
- 143 просмотра
1

ответ
Java

+1 ещё

Простой
Почему Java Flight Recorder в Spring Boot не пишет в файл?
- 1 подписчик
- 25 июл.
- 67 просмотров
0

ответов
Spring

Средний
Как правильно передавать csrf токен на фронтенд?
- 1 подписчик
- 25 июл.
- 60 просмотров
1

ответ
Java

+2 ещё

Простой
Как поставить OpenGL 4.x чтобы он работал в Minecraft на macOS 15 (M1)?
- 1 подписчик
- 21 июл.
- 106 просмотров
0

ответов
Java

+1 ещё

Простой
Почему возникает deadlock?
- 1 подписчик
- 17 июл.
- 272 просмотра
1

ответ
Spring

Простой
Почему @ConfigurationPropertiesBinding не работает на уровне @Bean-метода?
- 1 подписчик
- 13 июл.
- 20 просмотров
0

ответов
Spring

Простой
Что значит sources в SpringApplicationBuilder?
- 1 подписчик
- 07 июл.
- 34 просмотра
0

ответов
Показать ещё Загружается…

Java-разработчик (Маркетинга AI)

Сбер • Москва

от 300 000 до 350 000 ₽

Java разработчик (продукт «Справочники»)

HFLabs

от 200 000 до 300 000 ₽

Java-разработчик

Wanted

До 400 000 ₽

Получаю Stream по 1000 из первой БД, итерирую по нему и получаю координаты

В общей сложности для 10 000 данных весь процесс занимает около 20-25 мин.

Это время получения и записи в БД, или время получения координат? Если вы работаете со свёрточной нейро-сетью, чтоб получить координаты, то чтоб ускорить процесс его нужно принципиально поменять :)
My1Name, добрый день. Это весь процесс занимает примерно столько.
Орхан Гасанлы,
некоторые потоки пытаются одновременно обновить одни и те же данные. Но если в целом ошибок не возникает, то время сокращается дважды.

Если вас устраивает сокращение времени на два, то напрашивается "виртуализация" процесса. Например создавать временную БД, или TEMP файл, если вычислительные мощности не позволяют держать весь объём данных в памяти.

По идее Hibernate Shards решает такие проблемы. Однако, сам не пользовался, поэтому утверждать не могу.

Answer 1 · 2022-12-15 11:29:19

что именно занимает так много времени, проведи профилирование чтобы выяснить где больше всего проводит времени твой код - например внутренняя обработка данных или база данных?

для 10 000 данных весь процесс занимает около 20-25 мин.

для такого объема записей это слишком большой срок для базы данных

Что за анализ выполняется для этих данных что так медленно? почти наверняка это сделано ОЧЕНЬ не эффективно, особенно если вылезает вот это:

Если стрим записи в БД сделать параллельным (parallelStream()), то появляется проблема при записи в БД, так как некоторые потоки пытаются одновременно обновить одни и те же данные.

получается что для каждой единицы данных ты проводишь анализ в базе, совершаешь действия для этой записи и переходишь к следующей, логично что если в такой схеме делать это параллельно, порядок нарушается и если результат одной задачи будет зависеть от другой - можно получить 'поврежденные' данные

Правильно - разделить свою задачу на три - анализ, обработка и сохранение данных. Затем анализ и/или обработку переделать на работу с одновременно большим количеством данных.. в оперативной памяти, а уже потом записать результат.

Классический пример: для каждой записи ты делаешь запрос - найти соответствующий объект(ы) в базе, прочитать их, изменить и записать результат в базе. нужно сделать так - выгрузить сразу много записей (условно по 1000), изменить их с учетом того что это будет происходить в оперативной памяти, многократная запись одних и тех же объектов не будет занимать столько времени как запись в базу.

Возможно у тебя этап загрузки из базы уже часть анализа, возможно придется переделать запрос с учетом того что он работает с большим количеством объектов, может даже больше информации выгружать.

Современные даже десктопные машины с 16-32гб (а серверные с 128-256 легко) оперативной памяти позволяют вообще зхагрузить большую часть данных в оперативную память и обработать ее там эффективнее чем это получится делать через sql прослойку, которая рассчитана не на скорость обработки а на надежность хранения и многопользовательский доступ.

Answer 2 · 2022-12-15 12:36:00

Андрей Шишкин @compilator

Senior Data Engineer

Сходу - это выглядит как обычная батчевая обработка данный. Легко реализуется с помощью spark.

Ответ написан более двух лет назад

4 комментария

Answer 3 · 2022-12-15 12:40:13

Сложно обсуждать перформанс-проблему без исходного кода.

Я-бы предложил как всегда ударить кувалдой. Тоесть запустить по приложению JProfiler и просто посмотреть что он покажет. Проблемных мест может быть 3. Это чтение из базы. Второе это собственно проверки и валидации. Как они реализованы? Насколько качественно? И третье это собсно запись в БД. Используется ли JDBC-batch?

SpringQuartz, cron, view здесь вообще непричем и их наличие только путает нас и вносит новые ненужные вопросы. Лучше решать проблему как одну java-функцию с входом и выходом.

Answer 4 · 2023-01-08 18:56:45

Орхан Гасанлы @azerphoenix Автор вопроса, куратор тега Java

Java Software Engineer

Проблему решил путем применения Spring Batch.

Ответ написан более двух лет назад

Комментировать

Как ускорить процесс получения большого объема данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт