Какая есть литература про парсинг различных форматов данных?

Question

calculator212 @calculator212

IT-образование

Какая есть литература про парсинг различных форматов данных?

Есть ли литература в которой объясняется методика парсинга форматов типа pdf/doc/специфических бинарных форматов?

Вопрос задан более двух лет назад
343 просмотра

1 комментарий

Подписаться 3 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
ProductStar

Профессия Product Manager

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+1 ещё

Простой
Как лучше всего вкатиться в электронику?
- 5 подписчиков
- 08 нояб.
- 1010 просмотров
5

ответов
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 717 просмотров
2

ответа
IT-образование

Простой
Какой язык программирования выбрать после изучения GML?
- 1 подписчик
- 04 окт.
- 353 просмотра
4

ответа
IT-образование

Простой
Каким образом можно получить доступ к курсам cisco из России?
- 3 подписчика
- 02 окт.
- 404 просмотра
3

ответа
IT-образование

Простой
Как воспринимать преподавателя?
- 2 подписчика
- 15 сент.
- 516 просмотров
6

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 460 просмотров
3

ответа
IT-образование

Простой
Как учиться и практиковаться?
- 2 подписчика
- 07 сент.
- 538 просмотров
2

ответа
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 471 просмотр
3

ответа
JavaScript

+1 ещё

Простой
Существуют ли годные современные курсы по PIXI.js?
- 1 подписчик
- 31 июл.
- 281 просмотр
0

ответов
IT-образование

Простой
Стоит ли начинать готовиться к перечневым олимпиадам по информатике в 10 классе?
- 1 подписчик
- 29 июл.
- 331 просмотр
2

ответа
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Fullstack-разработчик

IT-hunter • Санкт-Петербург

До 300 000 ₽

John Whitington PDF Explained 2012
https://rutracker.org/forum/viewtopic.php?t=4601290

Answer 1 · 2023-02-24 11:31:16

GavriKos @GavriKos

Микропетпроджект - https://home-cloud.store/

У каждого формата есть спецификация - вот ее и читайте

Ответ написан более двух лет назад

Комментировать

Answer 2 · 2023-02-24 14:09:44

Есть ли литература в которой объясняется методика парсинга форматов типа pdf/doc/специфических бинарных форматов?

Единой методики нет. Для парсинга коммерческих форматов лучше брать коммерческие либы.
Так хоть будет гарантия что все сработает без ошибок.

Я использовал опенсорцсные библиотеки iText, Poi для pdf,doc. Но не столько для парсинга
сколько для генерации отчетов. А генерация обычно использует подмножество спеки.

https://poi.apache.org/

О том чтобы самому разбирать бинарный формат - забудь. Это будет просто пустая трата времени.
Можно разбирать простые бинарные форматы такие как BMP (bitmap) но для сложных нужно
потратить долгие месяцы и годы чтения спецификаций и то ты реализуешь не все а просто
какое-то подмножество формата. Сам создатель Microsoft форматов документа как-то писал
что они даже для него сложны.

Есть фреймворк Kaitai-Struct который пытается формализовать описание всех форматов
в виде некого DSL (в виде yaml). Я пробовал его использовать. Как по мне - он генерирует
слишком переусложеннные сериализаторы где много лишнего кода. Еслибы писать вручную
то очевидно что было-бы компактнее.

https://formats.kaitai.io/

Answer 3 · 2023-02-24 11:42:14

Литература - очень сомневаюсь в этом, уж больно много нюансов.
А вот ПО с открытым кодом (библиотеки и т.д.) - имеются. Допустим, Apache Tika.
Если для полнотекстового поиска нужно, то лучше взять готовое ПО: Apache Solr.

Какая есть литература про парсинг различных форматов данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт