Ответы пользователя по тегу PDF
  • Как достать с pdf файла (с ссылки на pdf)?

    Maksim_64
    @Maksim_64
    Data Analyst
    Для таких задач тебе нужно спарсить этот pdf в pandas фрейм. Тогда твоя задача доставать из этой таблицы любые данные становится весьма тривиальной (В худшем случае несколько строк кода). Можно создать фрейм и используя твою библиотеку PyPDF2, но я предпочитаю tabula мощный парсер pdf таблиц (и он их парсит в фрейм по умолчанию), там возится особо не придется. https://tabula-py.readthedocs.io/en/latest/ там обрати внимание, нужно будет java поставить.

    Гугли pdf table to pandas dataframe. И вперед вручную перебирать таблицы не нужно. Есть подходящие инструменты, которыми ты можешь и быстро и легко осуществлять выборки любой сложности.
    Ответ написан
  • С помощью какой библиотеки(python) можно конвертировать xml в pdf?

    Maksim_64
    @Maksim_64
    Data Analyst
    Я бы не использовал одну библиотеку здесь. Процесс, вряд ли будет протекать без проблемно.
    Я бы конвертировал xml в pandas фрейм, методом pd.read_xml() глянул бы на него, может чего подкорректировал, из фрейма уже конвертировал (по этапно) в pdf. Вот в этой статье https://www.alixaprodev.com/how-to-convert-pandas-... есть рабочий код три способа (один с использованием matplotlib), второй способ он использует конвертацию фрейма в html таблицу и оттуда уже в pdf, и третий там библиотеку он использует.

    Так вот я бы использовал способом pandas + matplotlib он даст мне больше всего контроля и свободы, как и в каком виде все это запишется в pdf, то есть я смогу кастомизировать + справится с потенциальными ошибками при записи. Рабочий пример (там фрейм создаетс, а не читается из xml это сделаешь сам pd.read_xml()) есть в статье по ссылке от которого уже можно оттолкнуться.
    Ответ написан
    1 комментарий
  • Как из pdf-файла спарсить таблицу, размещенную на двух страницах и сохранить в Excel?

    Maksim_64
    @Maksim_64
    Data Analyst
    Когда у вас есть два пандас фрейма конкатенируйте их с помощью pd.concat и записывайте объеденный фрейм напрямую в excel.
    псевдо код будет что то вроде этого.
    final_df = pd.concat([df1,df2], ignore_index=True)
    final_df.to_excel('имя файла')

    Все быстро и удобно без лишних записей в csv. Самое сложное это установка tabula бывает капризничает. Но в остальном все просто.
    Ответ написан