Есть задача получить список всех животных каждой буквы русского алфавита. Использую BeautifulSoup. Смог обойти все буквы алфавита и получить с каждой страницы список животных, но сложность в том что внутри каждой буквы, может быть несколько страниц и нужно их все обойти. Основная проблема в том, что нумерация страниц не циферная, а "предыдущая страница" и "следующая страница" и в самом url нет инфы о том какой это номер страницы. Короче говоря я не могу сделать итерацию по страницам ибо не знаю ни кол-во страниц, ни ее номер. Уже все интернеты прогуглил, покажите пожалуйста на примере кода, или хотя бы куда копать...
вот пример того, что я пытаюсь сделать
def get_html():
url = "https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту"
get_page = requests.get(url).text
return get_page
def get_subcategories():
page = get_html()
soup = BeautifulSoup(page, 'lxml')
subcategories = []
letters = soup.find('div', class_='toccolours plainlinks center').find('span').find_all('a')
for letter in letters:
subcategories.append(letter.get('href'))
return subcategories
def get_data():
animals = []
subcategories = get_subcategories()
for category in subcategories:
url = requests.get(category).text
soup = BeautifulSoup(url, 'lxml')
names = soup.find(
'div', class_='mw-content-ltr').find('div', class_='mw-category-group').find_all('a')
for i in names:
animals.append(i.text)
return animals