Пользователь пока ничего не рассказал о себе

Наибольший вклад в теги

Все теги (2)

Лучшие ответы пользователя

Все ответы (2)
  • Парсинг википедии с помощью Beautiful Soup?

    vmolostvov
    @vmolostvov
    Создатель Slither.io
    Чувак подружись с Селеном

    Лови код:
    from selenium import webdriver
    
    driver = webdriver.Chrome(executable_path='путь к гекодрайверу')  # скачать можно тут https://chromedriver.chromium.org/
    driver.get('https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту')
    
    while True:
        for i in range(1, 201):
            name = driver.find_element_by_xpath('//*[@id="mw-pages"]/div/div/div/ul/li[{}]/a'.format(i)).get_attribute('text')
            print(name) # здесь можешь писать в файл
        driver.find_element_by_xpath('//*[@id="mw-pages"]/a[2]').click() # переход на след страницу


    Ладно ладно, селениум это слишком, согласен

    import requests
    from bs4 import BeautifulSoup
    
    url = "https://ru.wikipedia.org/wiki/Категория:Животные_по_алфавиту"
    page = requests.get(url).text
    
    while True:
        soup = BeautifulSoup(page, 'lxml')
        names = soup.find('div', class_='mw-category-group').find_all('a')
        for name in names:
            print(name.text)
        links = soup.find('div', id='mw-pages').find_all('a')
        for a in links:
            if a.text == 'Следующая страница':
                url = 'https://ru.wikipedia.org/' + a.get('href')
                page = requests.get(url).text
    Ответ написан