Заинтересовал этот раздел, но ни как не могу разобраться откуда начинать копать. Я так понял копать нужно в сторону библиотек grab и scrapy, но информации на русском практически нет, а если и попадается, то как правильно устаревшая. Так же есть документация, так же имеется документация, но опять же это документация, а интересует именно обучение.
начните с request, для получения кода с сайта, и regexp для парсинга
потом beautifulsoup - увидите разницу и поймете ценность специализированной библиотеки
потом Scrapy - и тоже сделайте для себя выводы
после этого идите на фриланс биржу и берите любой заказ на парсинг и делайте его на более понятном вам инструменте. это может быть даже давно закрытый заказ. но результат не заработок денег а сделать реальную задачу.
после этого Вы сможете уже предложить себя за небольшие деньги, на том же фрилансе.
вот такой путь начинающего джидая. будет трудно, но интересно :)
Даже начинать с этого не стоит. Это неправильный подход к решению, учиться нужно на правильных примерах.
К beautifulsoup можно добавить более мощный и гибкий lxml.
Почему все так залипают на grab и scrapy? По мне так тяжелый фреймворк для парсера больше мешает чем помогает (это не относиться к фреймворкам для UI).