Задача. Скачать файлы(robot.txt и sitemap.xml) с сайтов которые находятся в файле site_base.txt, как пройти по всем значениям?

Question

Weishaupt @Weishaupt

Python

Задача. Скачать файлы(robot.txt и sitemap.xml) с сайтов которые находятся в файле site_base.txt, как пройти по всем значениям?

Задача:
Напиши программу, которая проходит сайты по списку, скачивает файлы robots.txt и sitemap.xml и сохраняет на диск. В случае если файл не найден, выводится сообщение об этом.
Проблема:
Не могу понять как структурировать код для правильной работы, как пройти по списку сайтов из site_base.txt с двумя и более запросами (robot.txt и sitemap.xml) к каждому сайту из списка и вывести сообщение об ошибке в случае отрицательного ответа.
У https://xakep.ru и https://vc.ru есть оба необходимых запроса (robot.txt и sitemap.xml), habr не отдает ничего(для него необходим вывод сообщения об этом)
Формат в site_base.txt:
https://xakep.ru
https://habr.com
https://vc.ru
...
Наброски:

import requests
import shutil
import os
import urllib
with open('site_base.txt', 'r') as f:
    for line in f:
        line = line.strip() + '/robots.txt'
        print(line)
        dirname, filename = os.path.split(line)
        try:
            r = requests.get(line, stream=True)
        except ConnectionError:
            print('Error')
            continue
        if r.status_code == 200:
            with open(urllib.parse.urlsplit(line).netloc + ".txt", 'wb') as j:
                r.raw.decode_content = True
                shutil.copyfileobj(r.raw, j)

Вопрос задан более трёх лет назад
139 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

4 комментария

Алан Гибизов @phaggi Куратор тега Python

Вот не надо было решение-то давать. Эх…

Написано более трёх лет назад
Weishaupt @Weishaupt Автор вопроса

Все великолепно работает, спасибо, буду разбирать как именно, я еще не изучал функции и поэтому некоторые конструкции не понятны, как я и сказал выше, буду пробовать разобраться

Написано более трёх лет назад
Weishaupt @Weishaupt Автор вопроса

Алан Гибизов, Я ведь не для конкретного решения своей задачи что бы с копипастить и пойти дальше, я обучаюсь, поэтому все равно буду ковырять его код для полного понимания

Написано более трёх лет назад
Алан Гибизов @phaggi Куратор тега Python

Weishaupt, тогда на всякий случай: решение в данном ответе немножко «вывернуто наизнанку» относительно моего ответа.

Если вы учитесь «по курсам» - попробуйте отложить курсы и проработать книгу «Изучаем Python» М.Лутца, потом вернуться к курсам.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 121 просмотр
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 204 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 139 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 543 просмотра
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 114 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 144 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 543 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 148 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 131 просмотр
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 571 просмотр
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Осторожней с задачами. Тут есть правило 5.12

Answer 1 · 2022-04-11 12:51:10

Как-то так? Возможно несколько переусложнено и нет проверки на статускод (сами допишите, если надо), но оно работает

# site_base.txt
https://xakep.ru
https://habr.com
https://vc.ru

# [file_name].py
import requests
import os
def append_filename(url:str, filename:str) ->tuple:
    domain = url.split('//')[-1] 
    data = (domain,  url + '/' + filename)
    return data


def save_file_to_disk(filename:str):
    if not os.path.exists('files'): os.mkdir('files')
    with open('site_base.txt', 'r', encoding='UTF-8') as site_base:
        sites_list = site_base.read().split('\n')

    urls_list = [append_filename(url, filename) for url in sites_list]
    for url in urls_list:
        try:
            domain = url[0]
            requested_url = url[1]

            response = requests.get(requested_url)

            saved_filename = domain+'_'+filename
            file_path = os.path.join('files',saved_filename)

            with open(file_path, 'a', encoding='UTF-8') as robots:
                robots.write(response.text)
        except requests.exceptions.RequestException as e:
            print(e) 

save_file_to_disk('robots.txt')
save_file_to_disk('sitemap.xml')

Answer 2 · 2022-04-11 12:27:05

Оставляя в стороне шероховатости, надо то, что после for line in f:, превратить в функцию, которая принимает line и filename(который либо “robot” либо “sitemap”), естественно, подставляя line и filename куда надо в коде, а в остальном функция должна практически повторять всё, что в коде. Ну и вызывать эту функцию дважды для каждого line, подставляя то robot то sitemap.

Задача. Скачать файлы(robot.txt и sitemap.xml) с сайтов которые находятся в файле site_base.txt, как пройти по всем значениям?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт