Какой ЯП использовать для парсера? Главный критерий - парсер должен быть быстрым. В основном парсится JSON, XML (RSS+Atom), Twitter (через API) и HTML (но не стоит забывать и про частые HTTP-запросы и про запросы в БД).
Что касается библиотек, для NodeJS подразумеваются:
- HTML - cheerio
- RSS+Atom - node-feedparser или node-parse-rss
- JSON - JSON.parse()
- Twitter - twit или node-twitter
Для PHP:
- HTML - Simple HTML DOM (в том числе PSR-7 реализации: php-simple-html-dom-parser и php-html-parser)
- RSS+Atom - rss-php
- JSON - json_decode()
- Twitter - twitter-api-php
Если вы можете предложить свои более производительные и т.п. библиотеки или порекомендовать какую-то библиотеку из "или" - пишите