UndeadDragon
@UndeadDragon
Разработчик ПО на C++, Qt, Python и др.

Как очистить экспортированный из Google Docs HTML?

Кто-нибудь знает способы лучше tidy-html для очистки очень грязного HTML после выгрузки из Google Docs? Интересуют именно программные способы (желательно С++) без использования Google Scripts
Tidy чистит очень плохо, например 200 тыс. символов очистил до 195 тыс.
  • Вопрос задан
  • 147 просмотров
Пригласить эксперта
Ответы на вопрос 1
2ord
@2ord
Альтернативный способ, которым сам воспользовался:
скачал в формате ODT, при помощи установленного LibreOffice сконвертировал документ в формат DocBook, который по своей структуре напоминает HTML, но при этом полностью отсутствуют "красоты", то бишь стили.
Просматривать и редактировать DocBook можно в LibreOffice. Можно сконвертировать этот формат в другие: LaTeX, PDF, HTML, ...
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы