Возможно ли с помощью Python вытащить все внешние ссылки из сайта?

Question

Mark Adams @ilyakmet

Возможно ли с помощью Python вытащить все внешние ссылки из сайта?

Какими инструментами в Python можно быстро вытащить все внешние ссылки со всех страниц?

Вопрос задан более трёх лет назад
731 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 159 просмотров
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 104 просмотра
2

ответа
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- 26 июл.
- 139 просмотров
0

ответов
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 139 просмотров
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 76 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 233 просмотра
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 122 просмотра
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 109 просмотров
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 22 июл.
- 95 просмотров
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- 21 июл.
- 81 просмотр
0

ответов
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Разработчик Python

Bell Integrator • Москва

Python developer

deeplay • Москва

Answer 1 · 2016-10-02 00:16:00

Если именно все и с любого сайта, то нужен встраиваемый браузер, то есть Selenium или Phantom.js, потому что на дворе 2016 год, и JavaScript все-таки уже существует, а еще есть Flash, который все-таки еще существует, и с ним еще сложнее все.
Ну а если достаточно простых <a href>, причем только тех которые не загружаются AJAX'ом, то можно с помощью RoboBrowser (BeautifulSoup) и т.п, то есть библиотек, которые только с DOM (HTML) работают.

Answer 2 · 2016-10-02 03:53:31

lxml позволяет парсить вебстраницы. вот скрипт который открывает страницы хабра и выписывает все заголовки статей вместе со ссылками

# -*- coding: utf-8 -*-
import urllib2
import sys
from  lxml import html
import codecs
codecs.register(lambda name: codecs.lookup('utf-8') if name == 'cp65001' else None)
cnt = 1
for x in range(1,100):
	url = ("http://habrahabr.ru/interesting/page%s/" % x)

	try:
		print "=== page "+str(x)+" ==="
		tree = html.fromstring(str(urllib2.urlopen(url).read()))
		topicLink =tree.xpath("//a[@class='post__title_link']/@href")
		topicTitle = tree.xpath("//a[@class='post__title_link']/text()")
		for i in range(0, len(topicTitle)):
			var = str(cnt)+" "+topicTitle[i]+" "+topicLink[i]
			print var
			print 
			cnt=cnt+1
	except IndexError:
		print("Page "+str(x)+" does not exist!")
	except urllib2.URLError:
		print("Could not retrieve the page..")

Возможно ли с помощью Python вытащить все внешние ссылки из сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт