mazah
@mazah
Главное - делай

Как собирать документы с сайта?

Нужно решить следующую задачу:

1. Каждый день на нужных мне новостниках выходят статьи.
2. Нужно забирать тексты статей из конкретного контейнера.
3. Важно, чтобы статьи сохранялись в формате txt и подписывались датой и временем забора.
4. Директория для сохранения, либо сразу компьютер, либо облако (типа mail.ru).
5. Периодичность забора 1 раз в сутки, либо вручную (запуском нажатия кнопки).

Каким способом собрать документы?
  • Вопрос задан
  • 104 просмотра
Пригласить эксперта
Ответы на вопрос 2
@bespechnost
у многих новостных ресурсов есть rss. Можно его запрашивать на nodejs, парсить и складывать в облоко.
Если парсить страницы, то можно воспользоваться https://github.com/GoogleChrome/puppeteer
Ответ написан
hzzzzl
@hzzzzl
в rss обычно кладут первые пару строчек статьи, как раз чтобы нельзя было спарсить оттуда полную статью без рекламы :)

Андрей Ермаков посмотри связку node.js, request and cheerio, если через ноду
https://www.digitalocean.com/community/tutorials/h...
https://itnext.io/scraping-with-nodejs-and-cheerio...

request принесет html страницы, с помощью cheerio можно легко разобрать блоки с контентом по css-селекторам

puppeteer и прочие "безголовые браузеры" для такого обычно не нужны
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы