fzfx
@fzfx
18,5 дм

Как автоизвлечь все гиперссылки из документа в формате docx?

Имеется документ MS Word, сохранённый в формате docx.
Каким образом (с помощью какого ПО) из него можно извлечь все гиперссылки?
  • Вопрос задан
  • 131 просмотр
Пригласить эксперта
Ответы на вопрос 2
fzfx
@fzfx Автор вопроса
18,5 дм
Под Linux можно использовать утилиты unzip и perl. Для perl предварительно должен быть установлен пакет XML::LibXML.
Допустим, имя документа - ~/Document.docx.
Тогда:
unzip -p ~/Document.docx word/document.xml |\
perl -0e 'use XML::LibXML; use open ":encoding(utf8)"; open($fh, "</dev/stdin"); $dom = XML::LibXML->load_xml(IO => $fh); foreach ($dom->findnodes("//w:hyperlink")) { print $_->findvalue(".")."\n"; }'
Ответ написан
Комментировать
VadimSoloviev
@VadimSoloviev
Человек из касты создателей
63d7f5ab97f64283501604.jpeg
Это можно сделать при помощи надстроек kutools для Word.
Как скопировать все гиперссылки в Word?

how-to-extract-all-links-embeded-in-pdf.jpg
Либо сохранить его в PDF формат и извлечь из него все гиперссылки при помощи вот этой программы: PDF Link Editor Pro
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы