@sunsexsurf
IT & creative

Как прочитать doc-файл по ссылке?

Добрый день. Задача: прочитать doc-файл по ссылке.

import requests as req
from io import BytesIO
# иногда сайт ругается на ssl, поэтому пусть этот кусочек тоже тут будет для нормальной работы
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# тело скрипта
url ='https://www.uralprombank.ru/files/misc/admiralgorshkov-15.doc'
file = req.get(url, verify=False).content
file = BytesIO(file).read()
file = file.decode('cp65001', 'ignore')
print(file)


на выходе получаю "пустые прямоугольники". Видимо, проблема в кодировке.
Что я делаю не так и как это исправить? Заранее спасибо.
  • Вопрос задан
  • 364 просмотра
Пригласить эксперта
Ответы на вопрос 1
@PavelMos
Ты же выводишь содержимое док в консоль.

import urllib.request
url ='https://www.uralprombank.ru/files/misc/admiralgorshkov-15.doc'
urllib.request.urlretrieve(url, "с:\\text.doc")


https://docs.python.org/3.0/library/urllib.request.html
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы