Python + MS Word?

Добрый день.

Подскажите, пожалуйста, библиотеку для парсинга .doc и .docx для python 2.7. Это должен быть не OLE, так как будет крутиться на Linux. Желательно что бы на выходе я получал и картинки, может даже это будет html (что есть хорошо).
  • Вопрос задан
  • 13214 просмотров
Пригласить эксперта
Ответы на вопрос 3
Я думаю лучше глянуть на libre office + python (python-uno). Оно точно должно уметь экспоритить в pdf.
Ответ написан
NetBUG
@NetBUG
.docx является ZIP-контейнером, в нём есть document.xml, который без проблем разбирается. Наверняка где-то должны быть XSLT для его причёсывания в автоматическом режиме.

Для .doc есть unoconv, с помощью libreoffice в пакетном режиме умеет преобразовать форматы. Мне кажется, логичнее им преобразовать, чем искать специфичную библиотеку для Python.
Насколько я знаю, unoconv/python-uno умеет не только PDF выдавать. :)
Ответ написан
rvller
@rvller
У себя остановился на варианте OpenOffice + unoconv (python). Поддерживаемых форматов очень много (зависит от того, что стоит с OpenOffice), в т.ч. doc(docx) -> html(xhtml)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы
SpectrumData Екатеринбург
от 150 000 до 200 000 ₽
Гринатом Москва
от 150 000 ₽
DIGITAL SECTOR Краснодар
от 150 000 до 250 000 ₽
24 июн. 2024, в 00:54
20000 руб./за проект
24 июн. 2024, в 00:32
300 руб./за проект
23 июн. 2024, в 23:51
10000 руб./за проект