@mit5x

Чем парсить новостные сайты?

Здравствуйте!

Руководство поставило задачу, парсить новостные сайты и записывать свежие новости в текстовые файлы.
Сайтов нужно парсить несколько, новости от каждого сайта складывать в свою папочку. Так же по датам раскладывать по папкам.
Предполагается веб-сервис, который будет запускаться ручками или по крону.
Так же, возможно и виндовое приложение.
С чего начать? Всяко должно быть какие-то либы, которые упростят жизнь в данной разработке.
Надо паузу в обходе ставить, что бы под блок не попасть из-за большого кол-ва запросов.
Не перевыкачивать уже выкачанные новости.
Чистить от html тэгов, т.к. нужен только текст.
и т.д.
Явно до меня уже многие этот путь прошли.

Спасибо.
  • Вопрос задан
  • 1204 просмотра
Пригласить эксперта
Ответы на вопрос 2
on1k
@on1k
Парсить можно по разному.
Если без программирования, то то же ZennoPoster.
Если с программированием, то смотря какой язык знаешь. На сколько я знаю самые популярные для парсинга языки: python, php, c#. Под каждый язык есть свои пакеты для парсинга/эмуляции браузера(selenium для эмуляции/пакеты для парсинга DOM страниц с помощью css селекторов, XPath чтобы выдергивать текст).

К сожалению мало информации дали для более конкретного ответа.
Ответ написан
@kudis
Bitrix developer
Если ручками или по рассписанию.
Можно написать простенькое расширение для хрома (верх кросплатформенности).
Запускать можно руками или из любого шедуллера.
Пишите, помогу начать
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы