Чем парсить новостные сайты?

Question

mit5x @mit5x

Парсинг

Чем парсить новостные сайты?

Здравствуйте!

Руководство поставило задачу, парсить новостные сайты и записывать свежие новости в текстовые файлы.
Сайтов нужно парсить несколько, новости от каждого сайта складывать в свою папочку. Так же по датам раскладывать по папкам.
Предполагается веб-сервис, который будет запускаться ручками или по крону.
Так же, возможно и виндовое приложение.
С чего начать? Всяко должно быть какие-то либы, которые упростят жизнь в данной разработке.
Надо паузу в обходе ставить, что бы под блок не попасть из-за большого кол-ва запросов.
Не перевыкачивать уже выкачанные новости.
Чистить от html тэгов, т.к. нужен только текст.
и т.д.
Явно до меня уже многие этот путь прошли.

Спасибо.

Вопрос задан более трёх лет назад
1214 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 110 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 207 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 190 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 233 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 126 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 215 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 556 просмотров
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 364 просмотра
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 203 просмотра
0

ответов
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2019-04-04 10:43:13

Парсить можно по разному.
Если без программирования, то то же ZennoPoster.
Если с программированием, то смотря какой язык знаешь. На сколько я знаю самые популярные для парсинга языки: python, php, c#. Под каждый язык есть свои пакеты для парсинга/эмуляции браузера(selenium для эмуляции/пакеты для парсинга DOM страниц с помощью css селекторов, XPath чтобы выдергивать текст).

К сожалению мало информации дали для более конкретного ответа.

Answer 2 · 2019-04-04 10:45:05

Если ручками или по рассписанию.
Можно написать простенькое расширение для хрома (верх кросплатформенности).
Запускать можно руками или из любого шедуллера.
Пишите, помогу начать

Чем парсить новостные сайты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт