Как достать с pdf файла (с ссылки на pdf)?

Question

Fanerka @Fanerka

Python
PDF

Как достать с pdf файла (с ссылки на pdf)?

Мне нужно достать допусти для группы 3ИСИП-521 их пары
должно выводить т.к первой пары нет
Найдены следующие данные для группы 3ИСИП-521:
2 пара (10:10-11:40)
102 Абзалимов Ришат Рафикович
3 пара (12:20-13:50)
102 Абзалимов Ришат Рафикович
4 пара (14:00-14:45)
102 кл.час Абзалимов Ришат Рафикович
5 пара (15:00-16:30)
208 Записной Дмитрий Викторович
313 Попов Евгений Сергеевич
6 пара (16:40-18:10)
спорт.зал Киселев Алексей Сергеевич

А у меня выводит без какого либо порядка и без номера пары и времени, как вот сделать чтобы выводило по порядку?
Найдены следующие данные для группы 2ОИБАС-1022:
Ауд. спорт.зал Киселев Алексей Сергеевич
Ауд. 202 Маринич Анна Леонидовна

Вот код

import requests
import io
from telegram.ext import CommandHandler, Updater
from PyPDF2 import PdfReader

import config

def extract_data_from_text(text):
    data = []
    lines = text.split("\n")
    classroom = ""
    teacher_full = ""
    pair_num = ""
    start_index = 0  # Определите переменную start_index здесь

    for i, line in enumerate(lines):
        if "1 пара:" in line:
            pair_num = line.strip()  # Запоминаем текущий номер пары
            start_index = i + 1  # Устанавливаем значение start_index
        if i >= start_index:
            if "2ОИБАС-1022" in line:
                parts = line.split()
                if len(parts) > 3:
                    teacher_full = " ".join(parts[0:3])
                continue

            if teacher_full and "ауд." in line:
                parts = line.split()
                if len(parts) > 1:
                    classroom = parts[1]
                else:
                    classroom = ""

                data.append({'pair_num': pair_num, 'teacher': teacher_full, 'classroom': classroom})
                teacher_full = ""

    return data

def rasp_command(update, context):
    url = 'http://www.fa.ru/org/spo/kip/Documents/raspisanie/%d0%90%d1%83%d0%94%d0%98%d0%a2%d0%9e%d0%a0%d0%98%d0%98.pdf'
    response = requests.get(url)

    with io.BytesIO(response.content) as open_pdf_file:
        reader = PdfReader(open_pdf_file)
        num_pages = len(reader.pages)
        data = []

        for page_number, page in enumerate(reader.pages, start=1):
            text = page.extract_text()
            extracted_data = extract_data_from_text(text)
            if extracted_data:
                data.extend(extracted_data)

        if data:
            # Сортировка данных по номеру пары, если номер пары существует
            sorted_data = sorted(data, key=lambda x: int(x['pair_num'].split()[0]) if x['pair_num'] else 0)
            message = " Найдены следующие данные для группы 2ОИБАС-1022:"
            current_pair_num = None

            for entry in sorted_data:
                if entry['pair_num'] != current_pair_num:
                    current_pair_num = entry['pair_num']
                    message += f"\n{current_pair_num}"
                message += f"\n Ауд. {entry['classroom']} {entry['teacher']}"
        else:
            message = "Данные для группы 2ОИБАС-1022 не найдены"

    update.message.reply_text(message)

def main():
    updater = Updater(config.token, use_context=True)
    dispatcher = updater.dispatcher
    dispatcher.add_handler(CommandHandler("rasp", rasp_command))
    updater.start_polling()
    updater.idle()

if __name__ == '__main__':
    main()

Вопрос задан более двух лет назад
241 просмотр

3 комментария

Подписаться 1 Средний 3 комментария

Viktor T2 @Viktor_T2

Попробуйте либу Camelot https://camelot-py.readthedocs.io/en/master/user/q...

import camelot

url = 'http://www.fa.ru/org/spo/kip/Documents/raspisanie/%d0%90%d1%83%d0%94%d0%98%d0%a2%d0%9e%d0%a0%d0%98%d0%98.pdf'

tables = camelot.read_pdf(url, pages='all')

for table in tables:
    print(table.df)

Результат

Написано более двух лет назад

Максим Припадчев @Maksim_64

Viktor T2, Тоже дело и тоже по итогу pandas фрейм.

Написано более двух лет назад

Viktor T2 @Viktor_T2

spoiler

import camelot
import pandas as pd

url = 'http://www.fa.ru/org/spo/kip/Documents/raspisanie/%d0%90%d1%83%d0%94%d0%98%d0%a2%d0%9e%d0%a0%d0%98%d0%98.pdf'

tables = camelot.read_pdf(url, pages='all')

for table in tables:
    print(table.df)

whole_table = pd.concat([tables[0].df, tables[1].df])


# заменить заголовки на 1-ю строку
new_header = whole_table.iloc[0]   # взять первую строку для заголовка
whole_table = whole_table[1:]      # взять данные за вычетом строки с заголовком
whole_table.columns = new_header   # установить строку заголовка как заголовок датафрейма

# заменить индексы на первый столбец
whole_table = whole_table.set_index('Преподаватели')

# отфильтровать по 3ИСИП-521
result = whole_table[whole_table.eq('3ИСИП-521').any(1)]
# затереть не 3ИСИП-521
result = result.mask(result.ne('3ИСИП-521'), '')

  
# сбросить например в html 
html = result.to_html()
with open('ResultTable.html', 'w') as html_file:
    html_file.write(html)

spoiler

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

Fanerka @Fanerka Автор вопроса

то есть этот код я никак не смогу дописать своим путём, просто файл каждый день обновляется и вот хотел таким кодом написать себе расписание

Написано более двух лет назад
Fanerka @Fanerka Автор вопроса

Спасибо

Написано более двух лет назад
Максим Припадчев @Maksim_64

Fanerka, Можешь дописать, но принципиально направление решение задачи не правильное. Я не думаю, что кто то будет с ним тут возится. И я бы не рассчитывал, на автоматизацию парсинга pdf файла, они совершенно не для этого.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 256 просмотров
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 181 просмотр
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 273 просмотра
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 275 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 305 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 101 просмотр
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 117 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 126 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 483 просмотра
2

ответа
Показать ещё Загружается…

Python developer

ITK academy • Краснодар

от 220 000 до 300 000 ₽

Python Developer

ITK academy • Краснодар

от 75 000 ₽

Backend / Python Developer с опытом Reverse Engineering и спортивных данных

MST

от 1 000 до 1 500 $

Попробуйте либу Camelot https://camelot-py.readthedocs.io/en/master/user/q...

import camelot url = 'http://www.fa.ru/org/spo/kip/Documents/raspisanie/%d0%90%d1%83%d0%94%d0%98%d0%a2%d0%9e%d0%a0%d0%98%d0%98.pdf' tables = camelot.read_pdf(url, pages='all') for table in tables: print(table.df)

Результат
Viktor T2, Тоже дело и тоже по итогу pandas фрейм.
spoiler
import camelot import pandas as pd url = 'http://www.fa.ru/org/spo/kip/Documents/raspisanie/%d0%90%d1%83%d0%94%d0%98%d0%a2%d0%9e%d0%a0%d0%98%d0%98.pdf' tables = camelot.read_pdf(url, pages='all') for table in tables: print(table.df) whole_table = pd.concat([tables[0].df, tables[1].df]) # заменить заголовки на 1-ю строку new_header = whole_table.iloc[0] # взять первую строку для заголовка whole_table = whole_table[1:] # взять данные за вычетом строки с заголовком whole_table.columns = new_header # установить строку заголовка как заголовок датафрейма # заменить индексы на первый столбец whole_table = whole_table.set_index('Преподаватели') # отфильтровать по 3ИСИП-521 result = whole_table[whole_table.eq('3ИСИП-521').any(1)] # затереть не 3ИСИП-521 result = result.mask(result.ne('3ИСИП-521'), '') # сбросить например в html html = result.to_html() with open('ResultTable.html', 'w') as html_file: html_file.write(html)

spoiler

Answer 1 · 2023-09-13 21:36:02

Для таких задач тебе нужно спарсить этот pdf в pandas фрейм. Тогда твоя задача доставать из этой таблицы любые данные становится весьма тривиальной (В худшем случае несколько строк кода). Можно создать фрейм и используя твою библиотеку PyPDF2, но я предпочитаю tabula мощный парсер pdf таблиц (и он их парсит в фрейм по умолчанию), там возится особо не придется. https://tabula-py.readthedocs.io/en/latest/ там обрати внимание, нужно будет java поставить.

Гугли pdf table to pandas dataframe. И вперед вручную перебирать таблицы не нужно. Есть подходящие инструменты, которыми ты можешь и быстро и легко осуществлять выборки любой сложности.

Answer 2 · 2023-09-13 22:38:18

Фокус в том, что в PDF никакой таблицы нет.
Там тупо строчки по координатам, причем по координатам не центра ячейки, а начала строчки.
И любой перенос, а также смена шрифта (выделение полужирным, например) делит текст на несколько строчек.
Поэтому просто парсить текст не прокатит - несколько строчек развалятся, а пустые ячейки не определятся вовсе, и куда относится следующий после них текст - определить не получится.
На коленке можно попытаться сконвертировать PDF в более текстовый формат - EPS или SVG - и пытаться разобрать его, но это будет хоть и решаемой, но весьма трудоемкой задачей.
Предложенная выше библиотека, видимо, разбирает сам формат и пытается угадать по расположению строчек, как их собрать обратно в таблицу.
Других возможностей и каких-то простых решений можно не искать.

Кроме, разве что, возможности договориться получать там, где это расписание делается, не PDF, а DOCX/ODT, из которого его выгоняют ;)

Как достать с pdf файла (с ссылки на pdf)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт