NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?

Question

Maксим Волков @voland700

NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?

Для парсинга контента, товаров каталога, использую NODE.JS. Написанный парсер работает. Однако, в процессе парсинга получаю битые изображения товаров.

Сам парсер собирает данные из HTML – кода сайта производителя: названия, описания, цены, характеристики товаров в том числе и ссылки на файлы изображений товаров.
По ссылкам на файлы изображений товаров - прохожу в цикле и скачиваю каждое изображение с помощью функции:

/**     
 * url - ссылка на файл с изображением
 * dir - Директория, папка для скаченного файла
 * prefix - строка для названия файла
 * getString(10) - функция для формирования подстроки из сислучайных символов для уникального названия файла
 */

function getFile(url, dir='images', prefix=''){ 
    //Определяем расширение файла, формируем путь из дирикторий и названия файла   
    let extension = url.slice(url.lastIndexOf('.') + 1);
    dir = `./upload/${dir}`;
    if (!fs.existsSync(dir)) {
        fs.mkdirSync(dir, { recursive: true });
    }
    let filePath = `${dir}/${prefix}_${getString(10)}.${extension}`;     
    //Функция для скачиванеи файла на диск
    function doRequest(url, filePath) {      
        https.get(url, function(res) {           
            res.on('data', function(data) {                            
                require('fs').createWriteStream(filePath, {flags:'a+'}).write(data);
            });
        });
    }
    //Функция для проверки неаличия скаченного файла на дикске
    async function exists (path) {  
        try {
            await Fs.access(path)
            return true
        } catch {
            return false
        }
    }
    //Скачиваем файл по ссылке  
    doRequest(url, filePath); 
    //Проверяем, если файл скачен на диск возвращаем строку - путь к файлу 
    return exists(filePath) ? filePath : false  
}

Однако часть полученных файлов изображений битые, с артефактами. Возможно, в связи с асинхронностью. Возможно, проблема в логике скрипта.

Как поправить? Что сделать, чтобы получать корректные изображения?

Вопрос задан 08 сент.
141 просмотр

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Node.js для backend-разработки

6 месяцев

Далее
Skillbox

Node.js

2 месяца

Далее
Яндекс Практикум

Бэкенд на Node.js для фронтенд-разработчиков

3 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 390 просмотров
2

ответа
JavaScript

+1 ещё

Простой
Как идентифицировать проксированные ошибки?
- 1 подписчик
- 05 дек.
- 127 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 272 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 559 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 402 просмотра
2

ответа
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 290 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 469 просмотров
3

ответа
Node.js

+4 ещё

Простой
Как решить ситуацию с импортом файлов во время сборки проекта?
- 1 подписчик
- 15 окт.
- 142 просмотра
0

ответов
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 207 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 278 просмотров
0

ответов
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Senior full stack node.js , react

Jiffy

от 2 000 до 3 000 $

JS Backend Engineer (Node.js)

SteadyControl • Воронеж

До 70 000 ₽

Для чего используется режим a+? Это наверняка и есть причина проблем. Надо использовать w или wx (см. в доке чем отличается).
shurshur,
Благодарю за совет. В данном случае режим 'a+" - копипаcт из примера с кодом. Но к сожалению, в режиме flags:'w' - полученные изображения не открываются.

Answer 1 · 2025-09-08 12:34:42

const https = require('https');
const fs = require('fs');
const path = require('path');
const { URL } = require('url');

async function downloadFile(url, outputPath) {
    // Парсим URL для получения компонентов
    const parsedUrl = new URL(url);
    
    // Если путь для сохранения не указан, используем имя файла из URL
    if (!outputPath) {
        outputPath = path.basename(parsedUrl.pathname);
    }

    return new Promise((resolve, reject) => {
        const file = fs.createWriteStream(outputPath);
        
        https.get(url, (response) => {
            // Проверяем статус код ответа
            if (response.statusCode !== 200) {
                reject(new Error(`Ошибка загрузки: ${response.statusCode}`));
                return;
            }

            // Получаем общий размер файла для прогресса
            const totalSize = parseInt(response.headers['content-length'], 10);
            let downloadedSize = 0;
            
            response.pipe(file);

            // Опционально: отслеживание прогресса загрузки
            response.on('data', (chunk) => {
                downloadedSize += chunk.length;
                if (totalSize) {
                    const percent = (downloadedSize / totalSize * 100).toFixed(2);
                    console.log(`Загружено: ${percent}%`);
                }
            });

            file.on('finish', () => {
                file.close();
                resolve({ path: outputPath, size: downloadedSize });
            });
        }).on('error', (err) => {
            fs.unlink(outputPath, () => reject(err));
        });

        file.on('error', (err) => {
            fs.unlink(outputPath, () => reject(err));
        });
    });
}

// Пример использования
downloadFile('https://example.com/file.zip', './downloaded-file.zip')
    .then((result) => console.log(`Файл сохранен: ${result.path} (${result.size} байт)`))
    .catch((err) => console.error('Ошибка загрузки:', err));

NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт