@hey_umbrella

Как спарсить файл .doc python?

Мне нужно спарсить файл .doc это расписание школы для телеграм бота.Вопрос такой,как достать из 5f61f45969476878711426.png ссылку на файл?
  • Вопрос задан
  • 97 просмотров
Пригласить эксперта
Ответы на вопрос 1
@PavelMos
Можно регулярными выражениями. Выражение ищет фразу от diff до цифрвой комбинации до первого "doc"
https://regex101.com/r/XLJ1t4/1
import re
import urllib
regexp1='(\/diff\/\d{1,2}-\d{1,2}.?doc)'
f=urllib.request.urlopen('http://1311.ru/info/info.php') #открывает, возвращает объект http (не текст)
b=f.read() #читает из него в bytes
text=b.decode() #из bytes в utf-8 (кодировка по умолчанию, поэтому в аргументах декод можно не писать) переводит в текст
out=re.findall(regexp1, text)
#далее, зная адрес сайта
for i in out:
   print ("http://1311.ru"+i)
http://1311.ru/diff/16-09.doc
http://1311.ru/diff/17-09.doc

Но тут, вероятно, надо брать самое новое расписание, тогда их надо сортировать по датам, разделяя дату и месяц, или проверять каким-то образом дату файла на сервере
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы