@tropin

Cкраппинг информации из PDF при помощи pyPDF4 / Beuatyfulsoup?

Только начинаю изучать Python с целью работы с данными. Наткнулся на статью где скачивается PDF при помощи Beuatyfulsoup и извлекается текст при помощи pyPDF



import read as read
import requests
from bs4 import BeautifulSoup
import io
from PyPDF4 import PdfFileReader
from urllib3 import response

url = "https://..."
read = requests.get(url)
html_content = read.content
soup = BeautifulSoup(html_content, "html.parser")

list_of_pdf = set()
l = soup.find ('p')
p = l.find_all('a')

for link in (p):
    pdf_link = (link.get('href')[:-5]) + ".pdf"
    print(pdf_link)
    list_of_pdf.add(pdf_link)

def into(pdf_path): pdf_link = requests.get(pdf_path)

    with io.BytesIO(response.content) as f:
    pdf = PdfFileReader(f)
    information = pdf.getDocumentInto()
    number_of_pages = pdf.getNumPages()
    txt = (f"\n"
       f"Info: {pdf_path}\n"
       f"Author: {information.author}\n"
       f"Number of pages: {number_of_pages}\n")
    print(txt)
return information

for i in list_of_pdf:
    info(i)


pyCharm ругается на строку 34

return information


return information
^
SyntaxError: 'return' outside function


Что не так с кодом?
Спасибо
  • Вопрос задан
  • 170 просмотров
Пригласить эксперта
Ответы на вопрос 1
@AVKor
Что не так с кодом?

Вам написали, что не так:
SyntaxError: 'return' outside function

У вас return information вне функции.

И ещё куча других косяков.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы