Задать вопрос
Hateman31
@Hateman31
Делиться мыслями - это круто!

Как распарсить doc-файл на Python?

Файл - это типа несколько подряд идущих записей вида:
абзац1: Название
абзац2: <картинка>
абзац3: Описание
Нужно весь этот хлам занести в БД, но проблема в том, что шрифты и и переносы как зря( то бишь здесь Описание и Картинка подряд, а там между ними уже пустая строка, а вон там последняя строка описания граничит с новым названием и т.п.), а с режексами у меня грустно( я пока не вкурил толком их).

Какими модулями пользоваться( ссыли на маны приветствую) и какие режексы задействовать?
  • Вопрос задан
  • 6492 просмотра
Подписаться 2 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillfactory
    Профессия Python-разработчик
    9 месяцев
    Далее
  • Хекслет
    Python-разработчик
    10 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 2
Regex курить обязательно + любой сложный парсинг имеет ненулевой вариант погрешности
Можешь качнуть Xamarin Studio - мне там тестировалка Regex-оф встроенная понравилась - свою накорябать всё руки не доходят )
Ответ написан
Комментировать
@snowpiercer
Парсить doc-файл регулярными выражениями? Сомнительно (в таких случаях принято давать ссылку на stackoverflow.com/a/1732454/2402125).

Есть специальные бибилиотеки для парсинга doc-файлов (docx, на самом деле), например https://github.com/mikemaccana/python-docx/
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы