Почему парсер всех внутренних ссылок сайта на Python не хочет парсить некоторые сайты?

Question

domanskiy @domanskiy

Почему парсер всех внутренних ссылок сайта на Python не хочет парсить некоторые сайты?

Код парсера:

from urllib.parse import urlparse
from bs4 import BeautifulSoup
import requests
import lxml
DOMAIN = 'apexair.ru'
HOST = 'http://' + DOMAIN
FORBIDDEN_PREFIXES = ['#', 'tel:', 'mailto:']
links = set()  # множество всех ссылок
headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(HOST, headers=headers)
# print(response.content)

def add_all_links_recursive(url, maxdepth=1):
    # print('{:>5}'.format(len(links)), url[len(HOST):])

    # глубина рекурсии не более `maxdepth`

    # список ссылок, от которых в конце мы рекурсивно запустимся
    links_to_handle_recursive = []
    # получаем html код страницы
    request = requests.get(url, headers=headers)
    # парсим его с помощью BeautifulSoup
    soup = BeautifulSoup(request.content, 'lxml')
    # рассматриваем все теги <a>

    for tag_a in soup.find_all('a'):
        link = tag_a['href']


        # если ссылка не начинается с одного из запрещённых префиксов
        if all(not link.startswith(prefix) for prefix in FORBIDDEN_PREFIXES):
            # проверяем, является ли ссылка относительной
            # например, `/oplata` --- это относительная ссылка
            # `http://101-rosa.ru/oplata` --- это абсолютная ссылка
            if link.startswith('/') and not link.startswith('//'):
                # преобразуем относительную ссылку в абсолютную
                link = HOST + link
            # проверяем, что ссылка ведёт на нужный домен
            # и что мы ещё не обрабатывали такую ссылку
            if urlparse(link).netloc == DOMAIN and link not in links:
                links.add(link)
                links_to_handle_recursive.append(link)

    if maxdepth > 0:
        for link in links_to_handle_recursive:
            add_all_links_recursive(link, maxdepth=maxdepth - 1)


def main():
    add_all_links_recursive(HOST + '/')
    for link in links:
        print(link)


if __name__ == '__main__':
    main()

Не на всех сайтах работает.
Например не хочет работать с :
euroclimate.org
apexair.ru

Ошибка:

Traceback (most recent call last):
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 57, in <module>
    main()
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 51, in main
    add_all_links_recursive(HOST + '/')
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 47, in add_all_links_recursive
    add_all_links_recursive(link, maxdepth=maxdepth - 1)
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 28, in add_all_links_recursive
    link = tag_a['href']
  File "C:\Python38\lib\site-packages\bs4\element.py", line 1321, in __getitem__
    return self.attrs[key]
KeyError: 'href'

С чем такое может быть связано? МОжет от того что некоторые ссылке на сайтах возвращают None? т.е. href=""

Вопрос задан более трёх лет назад
2394 просмотра

2 комментария

Подписаться 2 Простой 2 комментария

Александр @shabelski89
Не знаю Суп, но исходя из текста ошибки, я бы добавил проверку на наличие такого ключа .

If tag_a.get('href', ""): Do your code
Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Александр Шабельский, т.е. нужен код с удалением из списка данного пустого href?
типа tag_a.remove
?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

5 комментариев

domanskiy @domanskiy Автор вопроса

Ошибку показывает

Traceback (most recent call last):
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 57, in <module>
    main()
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 51, in main
    add_all_links_recursive(HOST + '/')
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 32, in add_all_links_recursive
    if all(not link.startswith(prefix) for prefix in FORBIDDEN_PREFIXES):
  File "E:/Users/Alex/Documents/MyPyProj/parser-links.py", line 32, in <genexpr>
    if all(not link.startswith(prefix) for prefix in FORBIDDEN_PREFIXES):
  File "C:\Python38\lib\site-packages\bs4\element.py", line 2080, in __getattr__
    raise AttributeError(
AttributeError: ResultSet object has no attribute 'startswith'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

Написано более трёх лет назад

Сергей П @trapwalker Куратор тега Python

domanskiy, поправил код. пробуйте

Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Сергей Паньков, Спасибо. Сработало
правда есть еще euroclimate.org
Но его скрипт просто отказывается сканировать. Защита наверное.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

отказывается сканировать

Прям вот трясёт головой и упирается, или как он у вас "отказывается"?
Я никакой защиты там не заметил навскидку. Вынимается контент, ссылки супом парсятся. Ваш код не запускал, может там еще где ошибки есть, я хз.
По крайней мере кода print("Отказываюсь сканировать!") нигде не нашел.

Написано более трёх лет назад
domanskiy @domanskiy Автор вопроса

Сергей Паньков,
В большинстве случаев - работает.
Спасибо!

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 104 просмотра
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 174 просмотра
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 380 просмотров
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 218 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 146 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 147 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 263 просмотра
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 107 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 542 просмотра
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 253 просмотра
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Не знаю Суп, но исходя из текста ошибки, я бы добавил проверку на наличие такого ключа .

If tag_a.get('href', ""): Do your code
Александр Шабельский, т.е. нужен код с удалением из списка данного пустого href?
типа tag_a.remove
?

Answer 1 · 2020-03-02 08:57:40

На в каждом теге "a" есть `href`.

from urllib.parse import urlparse
from bs4 import BeautifulSoup
import requests
import lxml
DOMAIN = 'apexair.ru'
HOST = 'http://' + DOMAIN
FORBIDDEN_PREFIXES = ['#', 'tel:', 'mailto:']
links = set()  # множество всех ссылок
headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
response = requests.get(HOST, headers=headers)
# print(response.content)

def add_all_links_recursive(url, maxdepth=1):
    # print('{:>5}'.format(len(links)), url[len(HOST):])

    # глубина рекурсии не более `maxdepth`

    # список ссылок, от которых в конце мы рекурсивно запустимся
    links_to_handle_recursive = []
    # получаем html код страницы
    request = requests.get(url, headers=headers)
    # парсим его с помощью BeautifulSoup
    soup = BeautifulSoup(request.content, 'lxml')
    # рассматриваем все теги <a>

    for tag_a in soup.find_all('a', href=lambda v: v is not None):
        link = tag_a['href']

        # если ссылка не начинается с одного из запрещённых префиксов
        if all(not link.startswith(prefix) for prefix in FORBIDDEN_PREFIXES):
            # проверяем, является ли ссылка относительной
            # например, `/oplata` --- это относительная ссылка
            # `http://101-rosa.ru/oplata` --- это абсолютная ссылка
            if link.startswith('/') and not link.startswith('//'):
                # преобразуем относительную ссылку в абсолютную
                link = HOST + link
            # проверяем, что ссылка ведёт на нужный домен
            # и что мы ещё не обрабатывали такую ссылку
            if urlparse(link).netloc == DOMAIN and link not in links:
                links.add(link)
                links_to_handle_recursive.append(link)

    if maxdepth > 0:
        for link in links_to_handle_recursive:
            add_all_links_recursive(link, maxdepth=maxdepth - 1)


def main():
    add_all_links_recursive(HOST + '/')
    for link in links:
        print(link)


if __name__ == '__main__':
    main()

Почему парсер всех внутренних ссылок сайта на Python не хочет парсить некоторые сайты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт