А что именно вызывает сложности?
Тут как бы алгоритм банальный:
- Берем список адресов всех нужных нам статей и проходимся по нему
- Получаем содержимое страницы (
file_get_contents
можно использовать)
- Определяем, какие данные нам интересны (например, всё, что внутри блока
<div class="content">...</div>
)
- Получаем эти данные какой-нибудь регуляркой и пишем себе в БД
- Профит
Это пример самого простого парсера.
Дальше можно наращивать функционал (автоматическое определение новых статей на сайте по cron-у, загрузка изображений на свой сервер и замена ссылок на них в статьях, либо подмена ссылок на изображения посредством
.htaccess и т. д. и т. п.)
Уверен, есть готовые библиотеки для этого, но и самому это сделать не так уж и сложно