Руководство поставило задачу, парсить новостные сайты и записывать свежие новости в текстовые файлы.
Сайтов нужно парсить несколько, новости от каждого сайта складывать в свою папочку. Так же по датам раскладывать по папкам.
Предполагается веб-сервис, который будет запускаться ручками или по крону.
Так же, возможно и виндовое приложение.
С чего начать? Всяко должно быть какие-то либы, которые упростят жизнь в данной разработке.
Надо паузу в обходе ставить, что бы под блок не попасть из-за большого кол-ва запросов.
Не перевыкачивать уже выкачанные новости.
Чистить от html тэгов, т.к. нужен только текст.
и т.д.
Явно до меня уже многие этот путь прошли.
Парсить можно по разному.
Если без программирования, то то же ZennoPoster.
Если с программированием, то смотря какой язык знаешь. На сколько я знаю самые популярные для парсинга языки: python, php, c#. Под каждый язык есть свои пакеты для парсинга/эмуляции браузера(selenium для эмуляции/пакеты для парсинга DOM страниц с помощью css селекторов, XPath чтобы выдергивать текст).
К сожалению мало информации дали для более конкретного ответа.
mit5x Для него вроде есть phpQuery, Simple HTML DOM для парсинга страниц(Выдергивания контента).
Но чтобы страницу получить, надо смотреть на структуру сайта-донора и понять по каким признакам новость сделать уникальной (чтоб по два раза не парсить, для примера можно взять полный урл новости) и как достать ссылки на новости.
Потом просто циклом делаете запросы по всем УРЛам, получаете страницу в запросе и с помощью библиотек, что описаны выше, выдергиваете нужный контент.
Если ручками или по рассписанию.
Можно написать простенькое расширение для хрома (верх кросплатформенности).
Запускать можно руками или из любого шедуллера.
Пишите, помогу начать