Как реализовать парсинг ip адрессов с веб страниц на python?

Question

Abdulyar @Abdulyar

Как реализовать парсинг ip адрессов с веб страниц на python?

Стоит задача пройтись по ссылкам сайта

www.zone-h.org/archive

открывать ссылки вида www.zone-h.org/mirror/id/22714269

и копировать поле с IP адрессом в единый текстовый файл.

Как посоветуете реализовать на Питоне? Какие посоветуете библиотеки/примеры использовать? Спасибо за советы.

Вопрос задан более трёх лет назад
3860 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

3 комментария

Abdulyar @Abdulyar Автор вопроса

Спасибо, но! вы видели что бывает при запуске второго скрипта? :-)

Написано более трёх лет назад
Heafy @Heafy

Да, он сырой из-за той строки, не знаю почему он не отрезает уже использованный кусок кода страницы..

Написано более трёх лет назад
Heafy @Heafy
Дорвался до капчи, если владельцы это видят - прошу прощения :)
Вот "второй скрипт", возвращающий список из 20 id со страницы zone-h.org/archive:
def getUrls(): urls = [] link = 'http://www.zone-h.org/archive' requestToLink = request.Request(link) answerFromServ = request.urlopen(requestToLink).read() result = answerFromServ.decode('utf8') for i in range(1,21): position = result.find('mirror/id') url = (result[position + 10 : position + 18]) result = result[position + 18 : len(result)] i+=1 urls.append(url) return urls

WARNING: Работает медленно :)
буду рад советам по оптимизации)
Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 142 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 102 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 90 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 178 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 91 просмотр
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 409 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 237 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 365 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 270 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 171 просмотр
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2014-07-23 13:34:32

from urllib  import request
def getIP(urls):
	link = 'http://www.zone-h.org/mirror/id/22714269'
	requestToLink = request.Request(link)
	answerFromServ = request.urlopen(requestToLink).read()
	result = answerFromServ.decode('utf8')
	print (result[result.find('IP') + 20 : result.find('IP') + 37])

Не судите, решил вклиниться ради личного интереса как начинающий.
Это конкретный ip с конкретной страницы, возможно нужно улучшить место с поиском самого ip адреса.

Но как осуществить поиск всех ссылок на странице www.zone-h.org/archive?

from urllib  import request
def getUrls():
	urls = []
	link = 'http://www.zone-h.org/archive'
	requestToLink = request.Request(link)
	answerFromServ = request.urlopen(requestToLink).read()
	result = answerFromServ.decode('utf8')
	findIt = 'mirror/id'
	
	for findIt in result:
		urls.append(result[result.find('mirror/id') + 10 : result.find('mirror/id') + 18])
		result = result[result.find('mirror/id'):]
		
	return urls

На сколько я понимаю, в этом коде что-то не так со строкой
result = result[result.find('mirror/id'):]
Но что?)
Спасибо за ответы, и ещё раз - не судите исполнение, на днях начал читать Лутца и установил py3.4

Answer 2 · 2014-07-23 13:21:00

С помощью существующих средств Python:
1) С помощью urllib2 можно скачать страницу с www.zone-h.org/archive.
2) Найти на странице все нужные ссылки, например поиском с помощью regex.
3) Пройти по полученным ссылкам, с помощью urllib2 скачать страницу, из нее вытащить нужные строки (ip-адрес) и записать в файл
4) ...
5) PROFIT

Как скачать страницу с помощью urllib2 можно легко найти в интернете.
Как найти в большом тексте определенную строку - тоже не проблема.

Как реализовать парсинг ip адрессов с веб страниц на python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт