Как разбить выполнение функции на разные ядра процессора в node js?

Question

kolomat @kolomat

Node.js

Как разбить выполнение функции на разные ядра процессора в node js?

Добрый день, есть функция, по сути кусок парсера, она получает массив ссылок, дальше пробегается по ним, собирает данные и сохраняет.

async function getProductsData(link) {
    let productsUrl = await getProductsUrl(link)
    const cluster = await Cluster.launch({
        concurrency: Cluster.CONCURRENCY_PAGE,
        maxConcurrency: 20,
        monitor: false,
        puppeteerOptions: {
            headless: true,
            defaultViewport: false,
            devtools: false
        },
        timeout: 500000
    });

    cluster.on("taskerror", (err, data) => {
        console.log(`Error crawling ${data}: ${err.message}`);
    });

    let productsData = []

    await cluster.task(async ({page, data: url}) => {
        await page.goto(url)

        let product = await page.evaluate(async () => {
            let description = ''
            let product_attributes = []
            let name = document.querySelector('h1.product-name').innerText.trim()
            let sku = 'SH-' + document.querySelector('span[itemprop=sku]').innerText.trim()
            if (document.querySelector('div[itemprop=description]') !== null) {
                description = document.querySelector('div[itemprop=description]').innerHTML.replace(/\s{2,}/g, ' ').trim()
            }

            document.querySelectorAll('table.attribute > tbody > tr').forEach(el => {
                product_attributes.push('Общая:' + el.querySelector('td:nth-child(1)').innerText + ':' + el.querySelector('td:nth-child(2)').innerText)
            })

            let attributes = product_attributes.join('|').replace(/:\|\s*!/g, '|')

            let obj = {
                name,
                sku,
                description,
                attributes
            }

            return obj
        })
        productsData.push(product)
        fs.writeFileSync('./price/test.json', JSON.stringify(productsData))
    })

    for (url of productsUrl) {
        await cluster.queue(url);
    }

    await cluster.idle();
    await cluster.close();
}

Тоесть в
let productsUrl = await getProductsUrl(link)
Получается обычный одномерный массив ссылок
Суть вопроса в том, например в массиве 1000 ссылок, на сервере 4 ядра, возможно ли как то разбить массив и что бы каждый кластер получил эту функцию и получил по по числу ссылок и паралельно все это обрабатывал?

Вопрос задан более трёх лет назад
187 просмотров

2 комментария

Подписаться 2 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Академия Эдюсон

Node.js-разработчик

8 месяцев

Далее
ProductStar × РБК

Профессия: Frontend-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Node.js

Простой
Как решить данную ошибку?
- 2 подписчика
- 20 мар.
- 283 просмотра
1

ответ
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 227 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как правильно сделать запрос на страницу для получения данных не по апи?
- 1 подписчик
- 12 февр.
- 272 просмотра
2

ответа
Node.js

+2 ещё

Средний
Как правильно поставить Newman + Allure reporter через nvm, чтобы не ловить EACCES и «could not find allure»?
- нет подписчиков
- 23 янв.
- 98 просмотров
0

ответов
Node.js

Простой
Почему на vps с pm2 сбрасывается server.js?
- 1 подписчик
- 16 янв.
- 140 просмотров
1

ответ
Node.js

+1 ещё

Простой
Можно ли получить ссылку на профиль пользователя по id?
- 1 подписчик
- 04 янв.
- 537 просмотров
2

ответа
Node.js

Простой
Почему не работает код?
- 1 подписчик
- 21 дек. 2025
- 161 просмотр
1

ответ
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек. 2025
- 176 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб. 2025
- 329 просмотров
1

ответ
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт. 2025
- 554 просмотра
2

ответа
Показать ещё Загружается…

Inviz Custos, спасибо, пробую второй день, получается полный бред)

Answer 1 · 2022-08-17 18:40:14

Inviz Custos @MvcBox

Software Engineer [C/C++/JS(for Node.js)/etc]

https://nodejs.org/api/worker_threads.html
https://nodejs.org/api/child_process.html

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2022-10-15 14:29:12

В общем, создаётся пул из 4*N асинхронных обработчиков очереди productUrls, каждый из которых берет из неё задачи, shift() . Этот пул запускается для асинхронной обработки очереди.

Внутри обработчика productUrlHandler очереди productUrls по окончанию скачивания страницы, кидается в другую очередь parseUrls, из которой обработчик parseUrlHandler выполняет парсинг асинхронно, независимо от скачивания страниц с другой очереди и результат парсинга сохраняет в СУБД или куда надо.

В итоге независимо работают обе очереди, каждая из которых работает в своём темпе и выполняет строго свою работу и одна не мешает другой. При этом, время простоя будет меньше, чем при синхронной обработке и за счёт множества асинхронных функций обратного вызова Node.js они будут распределяться по ядрам процессора.

Поднимать несколько процессов не стоит - достаточно настроить нужный размер пулов обработчиков очередей, 4*M и 4*N. Не нужно выставлять большой размер пула в надежде, что заработает быстрее. По началу, можно взять M=N=1 т.е. пул из 4-ёх обработчиков.

Ни библиотек, ни фреймворков не подскажу. С Puppeteer не работал, помню что некто сказал, что эта штука сильно жрёт память.

Как разбить выполнение функции на разные ядра процессора в node js?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт