Судя по тегу, вы хотите парсить хабру, личинг это плохо:)
Можете использовать jsoup.org для парсинга сайта, очень удобная библиотека, можно брать элементы по css классам как вариант, как в jquery.
Можете создать просто parser.jar который по крону будет парсить сайт и заносить в базу данные.
Для api без всяких xml конфингов я бы предложил использовать jersey.java.net собсно который будет забирать данные из базы и отдавать их наружу в виде json/xml Всё очень просто, например class Post с мeтодом getID(int id) вы можете замапить на domen.com/post/getid/1 причём отдавать наружу можете как xml так и json смотря какой Content-Type укажет в заголовках потребитель вашего api.
Удачи. Если, что пишите, помогу чем смогу.