Парсинг википедии с помощью Beautiful Soup?

Question

Вадим @vadimbespruzhny

Парсинг википедии с помощью Beautiful Soup?

Есть задача получить список всех животных каждой буквы русского алфавита. Использую BeautifulSoup. Смог обойти все буквы алфавита и получить с каждой страницы список животных, но сложность в том что внутри каждой буквы, может быть несколько страниц и нужно их все обойти. Основная проблема в том, что нумерация страниц не циферная, а "предыдущая страница" и "следующая страница" и в самом url нет инфы о том какой это номер страницы. Короче говоря я не могу сделать итерацию по страницам ибо не знаю ни кол-во страниц, ни ее номер. Уже все интернеты прогуглил, покажите пожалуйста на примере кода, или хотя бы куда копать...

вот пример того, что я пытаюсь сделать

def get_html():
    url = "https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту"
    get_page = requests.get(url).text
    return get_page


def get_subcategories():
    page = get_html()
    soup = BeautifulSoup(page, 'lxml')
    subcategories = []
    letters = soup.find('div', class_='toccolours plainlinks center').find('span').find_all('a')
    for letter in letters:
        subcategories.append(letter.get('href'))
    return subcategories


def get_data():
    animals = []
    subcategories = get_subcategories()
    for category in subcategories:
        url = requests.get(category).text
        soup = BeautifulSoup(url, 'lxml')
        names = soup.find(
            'div', class_='mw-content-ltr').find('div', class_='mw-category-group').find_all('a')
        for i in names:
            animals.append(i.text)
    return animals

Вопрос задан более трёх лет назад
1670 просмотров

1 комментарий

Подписаться 4 Средний 1 комментарий

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 6 часов назад
- 25 просмотров
1

ответ
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 15 часов назад
- 127 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 15 часов назад
- 21 просмотр
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 17 часов назад
- 22 просмотра
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 131 просмотр
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 92 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 202 просмотра
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- 22 апр.
- 171 просмотр
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 2 подписчика
- 22 апр.
- 33 просмотра
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Спарсить TON PLACE: скрейпинг фото и текста с анкет по списку URL

25 апр. 2024, в 05:57

3000 руб./за проект

Правки в webApp готового и написанного телеграмм бота next, tailwind

25 апр. 2024, в 05:29

25000 руб./за проект

Фронтер - DevOps. Развернуть фронт на хостинге. Прокинуть в телегу-бот

25 апр. 2024, в 04:38

10000 руб./за проект

Не проще ли скачать дамп базы википедии, развернуть его у себя и выбрать нужное из базы?

Answer 1 · 2020-11-29 13:16:11

В цикле while ищешь ссылку с title="Следующая страница" и пока она есть, переходишь по ней и парсишь

Answer 2 · 2020-11-29 13:39:10

Википедия, в отличие от большинства сайтов, не ставит задачу сокрытия данных от использования. Кроме её парсинга полезно рассмотреть альтернативные способы:

1. Парсинг дампов SAX-парсером: https://dumps.wikimedia.org/ruwiki/latest/

Главное в тексте находить нужные категории.

2. Использование SPARQL к Wikidata: https://query.wikidata.org/

Например, я наскоро набросал такой запрос, находящий все элементы субклассов "животное":

select ?animal ?animalLabel where {
# субкласс (wdt:P729) животного (wd:Q729)
  ?animal wdt:P279 ?animalSubClass.
  ?animalSubClass wdt:P279* wd:Q729.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ru,en". }
}

К сожалению, не всегда данные в Википедии хорошо размечены семантически, поэтому в подобную выборку может попасть не всё. Ну и полно будет извлечено из enwiki.

Парсинг википедии с помощью Beautiful Soup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт