Как скачать файл с сайта через Node.js?

Question

Tdvist @Tdvist

Как скачать файл с сайта через Node.js?

Задача стояла скопировать верстку главной страницы одного сайта. Изначально использовал wget, но он не цеплял важные файлы, которые грузились с другого домена. Файлов ~150 и хотелось сохранить струкутуру домен/../../../file.css. Решил, что полюбому на Node.js что-то такое можно сделать(Node.js потому что чуть чуть умею в js). Нашел модуль на js .
Написал код:

'use strict';
const fs = require("fs");
const wget = require('wget-improved');

let htmlContent = fs.readFileSync("sun.html", "utf8");
let result = htmlContent.match(/"https:\/\/g.+?"/g) || [];

console.log(result);


function httpGet(url) {
    const options = {
      protocol: 'https'
    };
    let src = url.replace(/\"/g, "");
    let output = "./" + url.replace('https://', '').replace(/\"/g, "");
    console.log(output);
    let download = wget.download(src, output, options);
    download.on('error', function(err) {
    });
    download.on('start', function(fileSize) {
        console.log(fileSize);
    });
    download.on('end', function(output) {
        console.log(output);
    });
    download.on('progress', function(progress) {
        typeof progress === 'number'
    });
}

result.forEach((item) => {
  httpGet(item);
});

console.log('Done');

Запускаю, а он
node:events:353
throw er; // Unhandled 'error' event
^
Error: ENOENT: no such file or directory, open

А почему я должен создавать, нормально же общались. В доке:

const wget = require('wget-improved');
const src = 'http://nodejs.org/images/logo.svg';
const output = '/tmp/logo.svg';
const options = {
    // see options below
};
let download = wget.download(src, output, options);
download.on('error', function(err) {
    console.log(err);
});
download.on('start', function(fileSize) {
    console.log(fileSize);
});
download.on('end', function(output) {
    console.log(output);
});
download.on('progress', function(progress) {
    typeof progress === 'number'
    // code to show progress bar
});

Для создания файлов с нужным расширением нужно будет куча кода писать. Можно ли как-то обойтись малой кровью в данном случае. С путями и формируемыми ссылками из html все ок.

Вопрос задан более двух лет назад
382 просмотра

7 комментариев

Подписаться 2 Средний 7 комментариев

Сергей Соколов @sergiks Куратор тега JavaScript

можно же прямо в браузере сохранить страницу со всеми зависимостями. Чем не подходит?

Написано более двух лет назад
Tdvist @Tdvist Автор вопроса

Сергей Соколов, не все цепляет

Написано более двух лет назад
Сергей Соколов @sergiks Куратор тега JavaScript

Tdvist, пропускает что-то, динамически подгружаемое ранее загруженными скриптами?
Т.е. надо выполнять все скрипты? Не в Node, где отсутствуют DOM API, а именно в браузере..

Написано более двух лет назад
Tdvist @Tdvist Автор вопроса

Сергей Соколов, А? Да ничего выполнять не надо, нужно просто скачать файлы стили/картинки по ссылкам. Через wget я это могу спокойно делать из получаемых ссылок, но я не знаю как в cmd с wget сформировать динамически пути нормальные, чтобы файлы не были потом в одной папке.

Написано более двух лет назад
Tdvist @Tdvist Автор вопроса

Сергей Соколов, Я могу через Node.js сформировать файл с ссылками, и через cmd с использованием wget получить файлы, но они тогда будут все в одной папке, и мне нужно будет потом в html документе не https:// на ./ или /, а каждую ссылку менять(их ~130).

Написано более двух лет назад
shurshur @shurshur

Tdvist, у wget есть много полезных опций, например:

wget -p - скачивает текущую страницу со всеми стилями, картинками итд. С сохранением расположения файлов на исходном сайте через размещение их в соответствующих каталогах.

wget -H -r - ключ -H заставляет при рекурсивном скачивании также переходить на другие домены (рекомендуется также использовать -l, чтобы не уйти в бесконечную рекурсию по всему интернету).

Если же сайт действительно использует js для загрузки дополнительных файлов, то wget будет недостаточно.

Писать скрипт для такой простой задачи явно перебор. Быстрее будет в консоли браузера подсмотреть ссылки и скачать их вручную.

Написано более двух лет назад
Tdvist @Tdvist Автор вопроса

shurshur, Да я понимаю. Саму задачу уже сделал в лоб с помощью ноды сделал файлик с ссылками urls.txt, а потом через wget -i urls.txt все скачал. Просто хотелось, чтобы все это было в разных папках, которые соответствовали бы url без https://. А про флаг -H к сожалению не знал. Надо будет попробовать. И все таки интересно было бы узнать, как через Node.js решить подобную задачу.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Веб-разработчик

12 месяцев

Далее
Яндекс Практикум

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

Простой
В цикле for много кнопок как сделать .addEventListener('click', к каждой кнопке?
- 1 подписчик
- 16 нояб.
- 206 просмотров
3

ответа
JavaScript

+2 ещё

Простой
Как получить события VK.VideoPlayer используя JS?
- 1 подписчик
- 11 нояб.
- 125 просмотров
1

ответ
Node.js

+1 ещё

Простой
Какие есть пакеты для генерации уникальных, числовых идентификаторов длиной 10 цифр?
- 1 подписчик
- 10 нояб.
- 256 просмотров
2

ответа
JavaScript

+1 ещё

Сложный
Почему зависает виджет в OBS?
- 1 подписчик
- 10 нояб.
- 167 просмотров
0

ответов
JavaScript

Простой
Смещение группы в fabric.js?
- 1 подписчик
- 06 нояб.
- 132 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 233 просмотра
1

ответ
JavaScript

Простой
Как создать рисунок из PHP в Fabric.js?
- 2 подписчика
- 28 окт.
- 175 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Какой скрипт загружает меню в Ютуб?
- 2 подписчика
- 27 окт.
- 299 просмотров
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт.
- 427 просмотров
3

ответа
JavaScript

Простой
Как работать с разрозненными данными?
- 1 подписчик
- 21 окт.
- 254 просмотра
2

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 200 000 до 300 000 ₽

Web-разработчик/WordPress программист (Full-stack)

JustBusiness • Санкт-Петербург

от 130 000 до 150 000 ₽

React разработчик

ITK academy • Нижний Новгород

от 50 000 до 90 000 ₽

можно же прямо в браузере сохранить страницу со всеми зависимостями. Чем не подходит?
Tdvist, пропускает что-то, динамически подгружаемое ранее загруженными скриптами?
Т.е. надо выполнять все скрипты? Не в Node, где отсутствуют DOM API, а именно в браузере..
Сергей Соколов, А? Да ничего выполнять не надо, нужно просто скачать файлы стили/картинки по ссылкам. Через wget я это могу спокойно делать из получаемых ссылок, но я не знаю как в cmd с wget сформировать динамически пути нормальные, чтобы файлы не были потом в одной папке.
Сергей Соколов, Я могу через Node.js сформировать файл с ссылками, и через cmd с использованием wget получить файлы, но они тогда будут все в одной папке, и мне нужно будет потом в html документе не https:// на ./ или /, а каждую ссылку менять(их ~130).
Tdvist, у wget есть много полезных опций, например:

wget -p - скачивает текущую страницу со всеми стилями, картинками итд. С сохранением расположения файлов на исходном сайте через размещение их в соответствующих каталогах.

wget -H -r - ключ -H заставляет при рекурсивном скачивании также переходить на другие домены (рекомендуется также использовать -l, чтобы не уйти в бесконечную рекурсию по всему интернету).

Если же сайт действительно использует js для загрузки дополнительных файлов, то wget будет недостаточно.

Писать скрипт для такой простой задачи явно перебор. Быстрее будет в консоли браузера подсмотреть ссылки и скачать их вручную.
shurshur, Да я понимаю. Саму задачу уже сделал в лоб с помощью ноды сделал файлик с ссылками urls.txt, а потом через wget -i urls.txt все скачал. Просто хотелось, чтобы все это было в разных папках, которые соответствовали бы url без https://. А про флаг -H к сожалению не знал. Надо будет попробовать. И все таки интересно было бы узнать, как через Node.js решить подобную задачу.

Как скачать файл с сайта через Node.js?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт