Как организовать парралельные вычисления на Node и AWS?

Question

andreys75 @andreys75

Как организовать парралельные вычисления на Node и AWS?

Добрый день.
Как организовать парралельную обработу больших объемов данных на Node?

Чтобы ьыть более конкретным представим что у меня есть несколько десятков файлов по несколько ГБ каждый. В файлах находится массив данных. Есть задача посчитать общую статистику по уникальным значениям.

1. Надо прочитать каждый файл
2 Посчитать статистику по каждому файлу
3. Объединить результаты в одну статистику

Сейчас все это делается последовательной обработкой каждого файла на стороне клиента. В отдельном сервис воркере(одном). Хочется как то организовать это параллельными вычислениями.
Как это можно распараллелить на стороне клиента понятно, но проводили небольшие тесты и парралельное (в разных воркерах) чтение файлов из CacheAPI где мы храним загруженные с сервера большие массивы данных дают худшие результаты чем последовательное чтение в одном воркере.

Проэтому думаем как передать эти вычисления на сторону сервера.
Чем лучше всего воспользоваться из арсенала AWS?
Думаем в сторону AWS Lambda но примеров подобного использования я не нашел.

На сервере файлы находятся на S3

Буду благодарен за любые подсказки.

Вопрос задан более трёх лет назад
72 просмотра

1 комментарий

Подписаться 2 Средний 1 комментарий

Насчёт AWS не подскажу, но NodeJS однопоточная - то есть обрабатывать одновременно она в рамках одного процесса эти файлы не сможет. Скачать одновременно файлы сможет, а вот именно обрабатывать - нет. Поэтому нужно запустить несколько NodeJS процессов, чтобы они параллельно обрабатывали файлы. Либо приложение для обработки файлов написать на другом языке, поддерживающим многопоточность (Go, Java и т.п.).

Answer 1 · 2021-07-13 21:25:03

Как организовать парралельную обработу больших объемов данных на Node?

Это больше вопрос к Node чем к амазон. На сколько понимаю, там вроде как есть параллельная обработка данных, но вроде как многопоточности на уровне языка нет.

AWS Lambda поддерживает js, пробуйте.

Как организовать парралельные вычисления на Node и AWS?

Войдите на сайт