Cкраппинг информации из PDF при помощи pyPDF4 / Beuatyfulsoup?

Question

tropin @tropin

Python
PDF

Cкраппинг информации из PDF при помощи pyPDF4 / Beuatyfulsoup?

Только начинаю изучать Python с целью работы с данными. Наткнулся на статью где скачивается PDF при помощи Beuatyfulsoup и извлекается текст при помощи pyPDF

import read as read
import requests
from bs4 import BeautifulSoup
import io
from PyPDF4 import PdfFileReader
from urllib3 import response

url = "https://..."
read = requests.get(url)
html_content = read.content
soup = BeautifulSoup(html_content, "html.parser")

list_of_pdf = set()
l = soup.find ('p')
p = l.find_all('a')

for link in (p):
    pdf_link = (link.get('href')[:-5]) + ".pdf"
    print(pdf_link)
    list_of_pdf.add(pdf_link)

def into(pdf_path): pdf_link = requests.get(pdf_path)

    with io.BytesIO(response.content) as f:
    pdf = PdfFileReader(f)
    information = pdf.getDocumentInto()
    number_of_pages = pdf.getNumPages()
    txt = (f"\n"
       f"Info: {pdf_path}\n"
       f"Author: {information.author}\n"
       f"Number of pages: {number_of_pages}\n")
    print(txt)
return information

for i in list_of_pdf:
    info(i)

pyCharm ругается на строку 34

return information

return information
^
SyntaxError: 'return' outside function

Что не так с кодом?
Спасибо

Вопрос задан более трёх лет назад
200 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Алан Гибизов @phaggi Куратор тега Python
Вообще-то скачивание происходит при помощи requests, а суп должен разбирать скачанное.
Но вот это:

class BeautyfulSoup: pass

подменяет только что импортированный суп пустым классом, и дальше ничего происходить не может.
Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Средний
Как сделать что бы pyrogram корректно получал id чата и сохранял в бд для будущего использования?
- 1 подписчик
- 8 часов назад
- 23 просмотра
0

ответов
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 12 часов назад
- 104 просмотра
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 21 час назад
- 74 просмотра
1

ответ
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 128 просмотров
0

ответов
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 74 просмотра
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 220 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 114 просмотров
1

ответ
Python

Простой
Почему AnaConda или MiniConda автоматически самоликвидируется на win10?
- 1 подписчик
- 22 июл.
- 102 просмотра
0

ответов
Python

+1 ещё

Простой
Почему форма не по центру экрана, как исправить?
- 1 подписчик
- 22 июл.
- 88 просмотров
0

ответов
Python

Простой
Как исправить Python error module 'win32crypt' has no attribute 'CryptProtectData' [closed]?
- 1 подписчик
- 21 июл.
- 78 просмотров
0

ответов
Показать ещё Загружается…

Python разработчик

Bell Integrator • Москва

Разработчик Python

Bell Integrator • Москва

Python developer

deeplay • Москва

Вообще-то скачивание происходит при помощи requests, а суп должен разбирать скачанное.
Но вот это:

class BeautyfulSoup: pass

подменяет только что импортированный суп пустым классом, и дальше ничего происходить не может.

Answer 1 · 2022-03-07 14:11:45

Что не так с кодом?

Вам написали, что не так:

SyntaxError: 'return' outside function

У вас return information вне функции.

И ещё куча других косяков.

Cкраппинг информации из PDF при помощи pyPDF4 / Beuatyfulsoup?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт