Задать вопрос

Очистка HTML кода от тегов Microsoft Word (2000-2007)?

Подскажите пожалуйста метод очистки HTML кода от тегов Word-a
Кода много, вручную не предлагать. (~10MB)

(юзер не использовал кнопку очистки от тегов в TinyMCE )


Необходимо обработать файл/базу для дальнейшего использования


пробовал: tidy, Word2003 web-filtered и еще пару инструментов, но результата ожидаемого не дало
  • Вопрос задан
  • 15419 просмотров
Подписаться 19 Оценить 1 комментарий
Решения вопроса 1
ipswitch
@ipswitch
IT-инженер
В своё время отлично работала функция HTML Cleanup — MS Word Cleanup в Dreamweaver MX, ещё от Macromedia, до этих Adobe Creative Suite. Умело само определять версию ворда (97, 2000, ХР/2003) и очень круто работало…
Ответ написан
Комментировать
Пригласить эксперта
Ответы на вопрос 10
Chieftec
@Chieftec
Родился и вырос
вот это www.artlebedev.ru/tools/technogrette/etc/reformator/ не смотрели? Мне Реформатор на ура помогал с такими вещами всегда.
Ответ написан
Комментировать
@vitstr
Front-end developer
держите макрос для MSO 2003 (в 2007-2010 не проверял на работоспособность)
старенький, но рабочий.
www.businesssite.ru/content.php?id=5
Ответ написан
4NATIC
@4NATIC
Для отдельных файлов, я раньше использовал вот этот сервис:
www.weare.ru/cgi-bin/clearhtml.cgi
Ответ написан
zorba_buddha
@zorba_buddha
IT
Ответ написан
Комментировать
вот сервис, прекрасно работает www.sh14.ru/utils/avtomaticheskaya-ochistka-html-k...
принцип работы - удаляет весь мусор от ворда и все запрещенные атрибуты(а не теги, поэтому работает корректно с html 5)
Ответ написан
Комментировать
Magir
@Magir
Посмотреть как работает очистка в tinymce, переписать на PHP и обработать все данные.
Ответ написан
maashaa
@maashaa
Вот еще один сервис, чистит почти все атрибуты тэгов
www.dataved.ru/2013/08/ms-word-document-filter.html
Ответ написан
Комментировать
prox
@prox Автор вопроса
опробую и отпишусь
Ответ написан
Комментировать
elky
@elky
Есть хорошее решение для Django, которое мы разработали и активно используем на своих сайтах, чтобы клиенты не «пачкали» сайт.
Ответ написан
Комментировать
stas_agarkov
@stas_agarkov
Я программист
странно что никто не додумался, но попробуй регулярные выражения
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы