import camelot
pdffile = 'example.pdf'
# параметры которые можно подкрутить
camelotArgs = {
'flavor': 'lattice',
'process_background': False,
'line_tol': 3,
'joint_tol': 3,
'line_scale': 100,
'split_text': True
}
tables = camelot.read_pdf(pdffile, **camelotArgs)
for table in tables:
print(table.df)
# сбросить в эксель
tables[0].df.to_excel('1111.xlsx')
# символ, unicode
print(tables[0].df.iloc[0][0], ' ', tables[0].df.iloc[0][0].encode("unicode_escape"))
конвертор из pickle в json на пайтоне, котрый вы будете дергать из пыха.
pickle и json в пайтоне - часть стандартной библиотеки,
скрипт будет в несколько строк, скорость пострадает,
пайтон из пыха вполне дергается
upd https://stackoverflow.com/questions/3040872/python...