Добрый вечер. Есть, например, сайт с формой входа:
https://lolzteam.net/login
Я не совсем понимаю, как быть авторизованным пользователем при веб скрапинге данного ресурса. Например, я хочу собрать инфомрацию с нескольких страниц, но там стоит, мол "Вы не можете смотреть текст, тк не авторизованы". Я бы хотел понять, как обойти это. Если возможно, с примером, пожалуйста.
import requests
from bs4 import BeautifulSoup, NavigableString, Tag
header = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3',
'Connection': 'keep-alive',
'X-Requested-With': 'XMLHttpRequest'
}
payload = {
'login': 'Some name',
'password': 'Some pass'
}
blacklist_lolz = 'https://lolzteam.net/forums/774/'
main_lolz = 'https://lolzteam.net/'
def beautifulsoup(url_content):
return BeautifulSoup(url_content, 'lxml')
with requests.Session() as s:
p = s.post('https://lolzteam.net/login', data=payload)
print(p.text)
req = s.get(blacklist_lolz)
print(req.text)
soup = beautifulsoup(req.content)
divs_all = soup.find_all('a', class_='PreviewTooltip ')
links_all = [div['href'] for div in divs_all]
for link in links_all:
number_list = []
link_page = requests.get(main_lolz + link, headers=header)
link_soup = beautifulsoup(link_page.content)
# Some code ...
Почему мне кажется, что я делаю не верно. В цикле, я захожу в каждую ссылку и наблюдаю, иногда, "Вы не авторизованы, не можете читать текст и тд и тд".