@WebWC
Создание и продвижение сайтов

Помощь с парсингом на Python?

Помогите пожалуйста с парсингом на Python'e. Суть в том, что нужно парсить не конкретный урл (сейчас site.ru), а целый список урлов с каждой новой строчки из файла .ТХТ Я только изучаю, но уже хочется что то сделать. Буду очень признателен за помощь.

import requests
from bs4 import BeautifulSoup

url = 'http://site.ru/' + 'robots.txt'
r = requests.get(url).text
dcul = BeautifulSoup(r)
response = requests.get(url)
if response:
    file = open("base.txt", "w")
    file.write(url + ' ' + "Файл найден" + "\n")
    file.close()
else:
    file = open("base_no.txt", "w")
    file.write(url + ' ' + "Файл не найден" + "\n")
    file.close()
  • Вопрос задан
  • 279 просмотров
Решения вопроса 1
@id2669099
подозреваю, что, циклом:
import requests
from bs4 import BeautifulSoup

urls = ['http://site1.ru/', 'http://site2.ru/', 'http://site3.ru/', 'http://site4.ru/']

for url in urls:
    url += 'robots.txt'
    r = requests.get(url).text
    dcul = BeautifulSoup(r)
    response = requests.get(url)
    if response:
        with open("base.txt", "a") as f:
            f.write(url + ' ' + "Файл найден" + "\n")
    else:
        with open("base_no.txt", "a") as f:
            f.write(url + ' ' + "Файл не найден" + "\n")


С файлам лучше работать через контекстный менеджер (with).
Режим открытия файла - a, на дозапись
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
23 нояб. 2024, в 01:31
1000 руб./за проект
23 нояб. 2024, в 00:16
2000 руб./за проект