<a href>
, причем только тех которые не загружаются AJAX'ом, то можно с помощью RoboBrowser (BeautifulSoup) и т.п, то есть библиотек, которые только с DOM (HTML) работают. # -*- coding: utf-8 -*-
import urllib2
import sys
from lxml import html
import codecs
codecs.register(lambda name: codecs.lookup('utf-8') if name == 'cp65001' else None)
cnt = 1
for x in range(1,100):
url = ("http://habrahabr.ru/interesting/page%s/" % x)
try:
print "=== page "+str(x)+" ==="
tree = html.fromstring(str(urllib2.urlopen(url).read()))
topicLink =tree.xpath("//a[@class='post__title_link']/@href")
topicTitle = tree.xpath("//a[@class='post__title_link']/text()")
for i in range(0, len(topicTitle)):
var = str(cnt)+" "+topicTitle[i]+" "+topicLink[i]
print var
print
cnt=cnt+1
except IndexError:
print("Page "+str(x)+" does not exist!")
except urllib2.URLError:
print("Could not retrieve the page..")