Как организовать парралельные вычисления на Node и AWS?

Question

andreys75 @andreys75

Как организовать парралельные вычисления на Node и AWS?

Добрый день.
Как организовать парралельную обработу больших объемов данных на Node?

Чтобы ьыть более конкретным представим что у меня есть несколько десятков файлов по несколько ГБ каждый. В файлах находится массив данных. Есть задача посчитать общую статистику по уникальным значениям.

1. Надо прочитать каждый файл
2 Посчитать статистику по каждому файлу
3. Объединить результаты в одну статистику

Сейчас все это делается последовательной обработкой каждого файла на стороне клиента. В отдельном сервис воркере(одном). Хочется как то организовать это параллельными вычислениями.
Как это можно распараллелить на стороне клиента понятно, но проводили небольшие тесты и парралельное (в разных воркерах) чтение файлов из CacheAPI где мы храним загруженные с сервера большие массивы данных дают худшие результаты чем последовательное чтение в одном воркере.

Проэтому думаем как передать эти вычисления на сторону сервера.
Чем лучше всего воспользоваться из арсенала AWS?
Думаем в сторону AWS Lambda но примеров подобного использования я не нашел.

На сервере файлы находятся на S3

Буду благодарен за любые подсказки.

Вопрос задан более трёх лет назад
77 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Skillbox

Node.js

2 месяца

Далее
Javascript.ru

Курс по Node.js

5 недель

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 274 просмотра
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 430 просмотров
3

ответа
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 139 просмотров
0

ответов
Node.js

Средний
Как обойти «засыпание» хостинга для cron-задач Node Js приложения?
- 1 подписчик
- 17 сент.
- 128 просмотров
0

ответов
Node.js

Простой
Почему возникает ошибка при загрузке csv?
- 1 подписчик
- 10 сент.
- 98 просмотров
2

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 285 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 133 просмотра
1

ответ
Node.js

+3 ещё

Сложный
Как считывать данные с принтеров Canon?
- 2 подписчика
- 04 сент.
- 297 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Почему не работает прокси в Axios на Electon JS (в файле preload.js)?
- 1 подписчик
- 04 сент.
- 84 просмотра
0

ответов
JavaScript

+1 ещё

Простой
Отправка формы html?
- 1 подписчик
- 03 сент.
- 206 просмотров
1

ответ
Показать ещё Загружается…

Full-Stack Developer (Angular & Node.js / NestJS)

IT ATLAS • Лимассол

от 3 500 до 6 000 €

Node.js разработчик (middle+/senior)

STARVELL

от 250 000 до 280 000 ₽

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Насчёт AWS не подскажу, но NodeJS однопоточная - то есть обрабатывать одновременно она в рамках одного процесса эти файлы не сможет. Скачать одновременно файлы сможет, а вот именно обрабатывать - нет. Поэтому нужно запустить несколько NodeJS процессов, чтобы они параллельно обрабатывали файлы. Либо приложение для обработки файлов написать на другом языке, поддерживающим многопоточность (Go, Java и т.п.).

Answer 1 · 2021-07-13 19:03:53

а почему не использовать Lambda с boto3 python? Там больше примеров...

У меня была длинная задача на Лямбде, я записывал проемеж значения в sqs queue и доставал во время след запуска Лямбды. Также можно использовать step functions

https://aws.amazon.com/ru/step-functions/?nc1=h_ls...

Answer 2 · 2021-07-13 21:25:03

Как организовать парралельную обработу больших объемов данных на Node?

Это больше вопрос к Node чем к амазон. На сколько понимаю, там вроде как есть параллельная обработка данных, но вроде как многопоточности на уровне языка нет.

AWS Lambda поддерживает js, пробуйте.

Как организовать парралельные вычисления на Node и AWS?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт