Задать вопрос
@domanskiy

Как в C# Windows Form прочитать названия сепараций в PDF файле?

Есть проект на C# Windows Form
Простая форма с кнопкой текстовым полем и компонентом COM Акробат Ридера для отображения PDF файла на форме.

private void button2_Click(object sender, EventArgs e)
            {
            string pFile = textBox1.Text;
                string filePath = @"\\TS\Obmen\Штампы\D\" + pFile + ".pdf";
                this.axAcroPDF1.LoadFile(filePath);
                this.axAcroPDF1.src = filePath;
                this.axAcroPDF1.setShowToolbar(true); // показать/отключить панель инструментов
                this.axAcroPDF1.setView("FitH");
                this.axAcroPDF1.setLayoutMode("SinglePage");
                this.axAcroPDF1.Show();
            }


Нужно прочитать названия сепараций из XMP данных PDF файла, записать в переменную массива и вывести массив в Label1 через запятую.
Как это реализовать и с помощью какой библиотеки.
  • Вопрос задан
  • 82 просмотра
Подписаться 1 Простой 1 комментарий
Пригласить эксперта
Ответы на вопрос 2
@rPman
В общем случае никак! pdf это считай картинка с опционально текстовой информацией.

В вашем случае можно попробовать конвертировать pdf файл в картинки, вырезать из определенной области кусок (imagemagic) и отправить его на распознавание с помощью того же tesseract.
Ответ написан
Комментировать
@domanskiy Автор вопроса
Я смог вытащить весь XMP код. Это по сути XML
PdfReader pdf = new PdfReader(filePath);
            string metadataXml = System.Text.Encoding.Default.GetString(pdf.Metadata);
            label1.Text = metadataXml;

Вот теперь гадаю, как вывести допустим по xpath из этого XML вытащить значение
//xmpmeta/RDF/Description/inks/Seq/li[1]/egname
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы