import urllib2
req = urllib2.Request('http://www.example.com/')
req.add_header('Referer', 'http://www.python.org/')
resp = urllib2.urlopen(req)
content = resp.read()
import pandas as pd
from io import StringIO
data = """
col1,col2
1,3
2,5
3,2
tt,2
4,1
5,F
1,G
"""
df = pd.read_csv(StringIO(data))
for column in df:
df = df[df[column].apply(lambda x: x.isnumeric())]
print(df)
class AmazonproductspiderSpider(scrapy.Spider):
visited_urls = {}
# Читаю файл с ASIN, вызываю parse_item через коллбэк.
def start_requests(self):
........
def parse_item(self, response):
captcha_form = response.xpath('//form[@action="/errors/validateCaptcha"]')
# Если в респонсе найдена каптча, то срабатывает дальнейший блок кода и вызывается get_captcha
if captcha_form:
visited_urls[response.url] += 1
if visited_urls[response.url] < 2:
captcha_img = captcha_form.xpath('.//img/@src').extract_first()
yield scrapy.Request(