Как собрать внутренние ссылки со страницы?

Question

kokojamba @kokojamba

Как собрать внутренние ссылки со страницы?

Сабж.

Бывают разные варианты, но как их все элегантно учесть не понятно.
Приведу возможный список, при условии что парсим с example.com:

example.com/page.php
//example.com/page2.php
page3.php(без слеша)
/page4.php(без слеша)

Может есть уже написанная функция со всеми проверками?

Вопрос задан более трёх лет назад
220 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 1

21 комментарий

kokojamba @kokojamba Автор вопроса

и причем тут внутренние ссылки и то что вы дали?
Я же обозначил свою проблему

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, попробуйте, там будут внутренние ссылки

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, я знаю что будут, но это не решает мою проблему. Мне нужны только внутренние ссылки

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, обновил ответ, добавил проверку на абсолютный url

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса
pcdesign, я ценю ваш ответ, но я же привел в описании примеры внутренних ссылок, которые ваш пример парсить не будет.
links = [ 'http://example.com/page.php', '//example.com/page2.php', 'page3.php', '/page4.php', ] for link in links: if not urlparse(link['href']).netloc: print(link['href'])

так понятнее? С чего вы взяли, что всегда будет netloc? Почему ссылка внутренняя не может по вашему выглядеть по другому? :)
Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, а как должно быть? Что должно быть на выходе?

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, это шутка? внутренние ссылки
/page4.php - это внутренняя ссылка, без слэша page4.php - это тоже внутренняя ссылка. Понимаете? МАССИВ ВНУТРЕННИХ ССЫЛОК и только. Без внешних ссылок на другие сайты. Я уже не знаю как вам объяснить. Я же даже вам примеры привел

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, я обновил свой ответ. Логика такая, надо собрать все ссылки со страницы. И затем отбросить все ссылки, которые ведут на другие сайты.
Верно?

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, я видел ваш пример. netloc не работает, когда на вход вы ему подаете ссылку без домена) сюр какой то

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, я добавил к netloc еще условие

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, так, и как по вашему этот пример будет парсить page.php?)))

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, попробуйте с тем массивом что я скинул.

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, а дальше urljoin, не надо уже тупить.

Написано более трёх лет назад

kokojamba @kokojamba Автор вопроса

pcdesign,

links = [
'http://example.com/page.php',
'//example.com/page2.php',
'google.com',
'http://amazon.com'
'page3.php',
'/page4.php',
]

for href in links:
    if not urlparse(href).netloc or 'example.com' in href:
        print(href)

# result:
    http://example.com/page.php
    //example.com/page2.php
    google.com
    /page4.php

# а должно быть:
    http://example.com/page.php
    //example.com/page2.php
    page3.php
    /page4.php

я уже не понимаю, стебетесь вы или реально не видите, что ваш пример не работает?

Написано более трёх лет назад

pcdesign @pcdesign

from urllib.parse import urlparse, urljoin

links = [
    'http://example.com/page.php',
    '//example.com/page2.php',
    'page3.php',
    '/page4.php',
]

for link in links:
    if not urlparse(link).netloc:
        res = urljoin('http://example.com', link)
        print(res)
    if 'example.com' in link:
        print(link)

Написано более трёх лет назад

kokojamba @kokojamba Автор вопроса
pcdesign,
http://example.com/page.php //example.com/page2.php http://example.com/google.com http://example.com/page4.php

и куда то делся page3.php)
да и
example.com/google.com

вроде бы изначально не была внутренней ссылкой
Написано более трёх лет назад
pcdesign @pcdesign
kokojamba, у меня на месте, вот выдача
http://example.com/page.php //example.com/page2.php http://example.com/page3.php http://example.com/page4.php
Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса
pcdesign, ну дак вы запустите с этим массивом:
links = [ 'http://example.com/page.php', '//example.com/page2.php', 'google.com', 'http://amazon.com' 'page3.php', '/page4.php', ]
Написано более трёх лет назад
pcdesign @pcdesign

Если на странице написать
<a href='google.com'>dd</aa>
Как думаете куда она будет вести?

Написано более трёх лет назад
kokojamba @kokojamba Автор вопроса

pcdesign, тот же самый вопрос вам. Как вы думаете, если на странице написать:
<a href='help.php'>help</a>

куда она будет вести?) Вы читали мою тему вообще?))

Написано более трёх лет назад
pcdesign @pcdesign

kokojamba, вы забыли запятую, после 'amazon.com'

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 172 просмотра
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 111 просмотров
2

ответа
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 146 просмотров
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 77 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 235 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 124 просмотра
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 113 просмотров
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 22 июл.
- 96 просмотров
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- 21 июл.
- 83 просмотра
0

ответов
Python

+1 ещё

Простой
Как торговать фьючерсами через API MEXC?
- 2 подписчика
- 19 июл.
- 418 просмотров
1

ответ
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Разработчик Python

Bell Integrator • Москва

Python разработчик

РТК-ЦОД • Москва

VicTHOR, учесть все варианты что в описании проблемы, но не учитывать внешние ссылки. На выходе массив из внутренних ссылок
VicTHOR, на входе 100500 ссылок внешние, внутренние. А надо собрать только внутренние. В примере выше я привел примеры, что внутренние ссылки не всегда имеют netloc, и /, но от этого они не перестают быть внутренними ссылками, которые мне нужно спарсить, исключив внешние ссылки.

Answer 1 · 2019-08-21 13:51:22

Этим имхо должны заниматься соответствующие модули, а не регекспы.
Например, так:

from bs4 import BeautifulSoup
import urllib.request
from urllib.parse import urlparse

resp = urllib.request.urlopen("https://toster.ru")
soup = BeautifulSoup(resp, from_encoding=resp.info().get_param('charset'))

for link in soup.find_all('a', href=True):
    href = link['href']
    if not urlparse(href).netloc or 'toster.ru' in href:
        print(href)

Как собрать внутренние ссылки со страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт