Python + MS Word?

Добрый день.

Подскажите, пожалуйста, библиотеку для парсинга .doc и .docx для python 2.7. Это должен быть не OLE, так как будет крутиться на Linux. Желательно что бы на выходе я получал и картинки, может даже это будет html (что есть хорошо).
  • Вопрос задан
  • 13213 просмотров
Пригласить эксперта
Ответы на вопрос 3
Я думаю лучше глянуть на libre office + python (python-uno). Оно точно должно уметь экспоритить в pdf.
Ответ написан
NetBUG
@NetBUG
.docx является ZIP-контейнером, в нём есть document.xml, который без проблем разбирается. Наверняка где-то должны быть XSLT для его причёсывания в автоматическом режиме.

Для .doc есть unoconv, с помощью libreoffice в пакетном режиме умеет преобразовать форматы. Мне кажется, логичнее им преобразовать, чем искать специфичную библиотеку для Python.
Насколько я знаю, unoconv/python-uno умеет не только PDF выдавать. :)
Ответ написан
rvller
@rvller
У себя остановился на варианте OpenOffice + unoconv (python). Поддерживаемых форматов очень много (зависит от того, что стоит с OpenOffice), в т.ч. doc(docx) -> html(xhtml)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы