Парсинг сайта, Python + BeautifulSoup?

Question

mr-ZA @mr-ZA

Парсинг сайта, Python + BeautifulSoup?

Приветствую, пытаюсь спарсить сайт: [ foxtools.ru/Proxy ]
Выдает ошибку выхода за пределы массива, что странно учитывая что строка в приложенном фото должна соответствовать выборке. Ошибка снизу.. что с этим делать?

import requests
from bs4 import BeautifulSoup

def get_html(site):
    r = requests.get(site)
    return r.text

def get_page_data(html):                         #sources
    soup = BeautifulSoup(html, 'lxml')           #(format_in, parser)

    line = soup.find('table', id='theProxyList').find_all('tr')     #resolve table

    for tr in line:
        td = tr.find_all('td')
        ip = td[1].text
        port = td[2].text
        country = td[3].text
        anonym = td[4].text
        types = td[5].text
        time = td[6].text

        data = {'ip': ip,
                'Port': port,
                'Country': country,
                'Anonymize': anonym,
                'Type': types,
                'Time': time}

def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))

if __name__ == '__main__':
        main()

Код ошибки:

Traceback (most recent call last):
  File "D:/home/projects/Python/Parser_proxy.py", line 34, in <module>
    main()
  File "D:/home/projects/Python/Parser_proxy.py", line 31, in main
    get_page_data(get_html(url))
  File "D:/home/projects/Python/Parser_proxy.py", line 15, in get_page_data
    ip = td[1].text
IndexError: list index out of range

Вопрос задан более трёх лет назад
4890 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

Пригласить эксперта

Ответы на вопрос 1

6 комментариев

mr-ZA @mr-ZA Автор вопроса

Если оставить так:

import requests
from bs4 import BeautifulSoup

def get_html(site):
    r = requests.get(site)
    return r.text

def get_page_data(html):                         #sources
    soup = BeautifulSoup(html, 'lxml')           #(format_in, parser)

    line = soup.find('table', id='theProxyList').find_all('tr')     #resolve table

    for tr in line:
        td = tr.find_all('td')
        print (td)
        #ip = td[0].text
        #print(ip)
        #port = td[2].text
        #country = td[3].text
        #anonym = td[4].text
        #types = td[5].text
        #time = td[6].text

        #data = {'ip': ip,
         #       'Port': port,
          #      'Country': country,
           #     'Anonymize': anonym,
            #    'Type': types,
             #   'Time': time}

def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))

if __name__ == '__main__':
        main()

Выводит такое:
[]
[, 78.41.246.137, 80,

Швеция (SE),
низкая,
HTTP
, 0.04, 20.04.2019 в 11:20]
[, 37.187.118.56, 80,

Австрия (AT),
наивысшая,
HTTP

Написано более трёх лет назад

Александр @NeiroNx

ну вот - пустой массив, что было и так ясно.

Написано более трёх лет назад
mr-ZA @mr-ZA Автор вопроса

Александр, хорошо, а как все-таки получить ip и прочее?

Написано более трёх лет назад
Александр @NeiroNx
так сложно дописать if?
if len(td) >= 7: ip = td[1].text port = td[2].text country = td[3].text anonym = td[4].text types = td[5].text time = td[6].text

это как бы элементарные вещи в программировании, которые в самом начале изучают.
кто только не лезет в программирование.
Написано более трёх лет назад
mr-ZA @mr-ZA Автор вопроса

Александр, ты сам понял что написал василий?) Если больше 7 выведи 1234.., ты если сам не особо смыслишь не пиши лучше, Python не повседневный мой язык, не можешь сам не мучай жопу

Написано более трёх лет назад
Сергей Горностаев @sergey-gornostaev Куратор тега Python

mr-ZA, он всё правильно написал, надо проверять количество возвращённых элементов и отбрасывать данные не соответствующие ожидаемой структуре.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 13 часов назад
- 79 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 89 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 94 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 330 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 238 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 665 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 553 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 309 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 568 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Показать ещё Загружается…

Если нужны публичные прокси, у меня есть проект по сбору с разных источников: https://github.com/DevAlone/proxy_py

Answer 1 · 2019-04-20 21:16:49

На первой итерации цикла td возвращает пустой список отсюда и ошибка.

import requests
from bs4 import BeautifulSoup

def get_html(site):
    r = requests.get(site)
    return r.text

def get_page_data(html):                         #sources
    soup = BeautifulSoup(html, 'lxml')           #(format_in, parser)

    line = soup.find('table', id='theProxyList').find_all('tr')     #resolve table

    for tr in line:
        td = tr.find_all('td')
        if td == []:
            continue
        ip = td[1].text
        port = td[2].text
        country = td[3].text
        anonym = td[4].text
        types = td[5].text
        time = td[6].text

        data = {'ip': ip,
                'Port': port,
                'Country': country,
                'Anonymize': anonym,
                'Type': types,
                'Time': time}
        print(data)
def main():
    url = 'http://foxtools.ru/Proxy'
    get_page_data(get_html(url))

if __name__ == '__main__':
        main()

Answer 2 · 2019-04-20 21:05:23

Иногда в структуре сайта встречаются изъяны - незнаю намеренно или нет, но они препятствуют парсингу используя простой код, приходится городить огороды и костыли, которые обрабатывают все возможные ситуации.
Ищи,проверяй, возможно там просто нет нужного количества элементов td в одной из строчек, добавляй условия.

Парсинг сайта, Python + BeautifulSoup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт