Очистка HTML кода от тегов Microsoft Word (2000-2007)?

Подскажите пожалуйста метод очистки HTML кода от тегов Word-a
Кода много, вручную не предлагать. (~10MB)

(юзер не использовал кнопку очистки от тегов в TinyMCE )


Необходимо обработать файл/базу для дальнейшего использования


пробовал: tidy, Word2003 web-filtered и еще пару инструментов, но результата ожидаемого не дало
  • Вопрос задан
  • 15149 просмотров
Решения вопроса 1
ipswitch
@ipswitch
IT-инженер
В своё время отлично работала функция HTML Cleanup — MS Word Cleanup в Dreamweaver MX, ещё от Macromedia, до этих Adobe Creative Suite. Умело само определять версию ворда (97, 2000, ХР/2003) и очень круто работало…
Ответ написан
Пригласить эксперта
Ответы на вопрос 10
@vitstr
Front-end developer
держите макрос для MSO 2003 (в 2007-2010 не проверял на работоспособность)
старенький, но рабочий.
www.businesssite.ru/content.php?id=5
Ответ написан
Chieftec
@Chieftec
Родился и вырос
вот это www.artlebedev.ru/tools/technogrette/etc/reformator/ не смотрели? Мне Реформатор на ура помогал с такими вещами всегда.
Ответ написан
4NATIC
@4NATIC
Для отдельных файлов, я раньше использовал вот этот сервис:
www.weare.ru/cgi-bin/clearhtml.cgi
Ответ написан
вот сервис, прекрасно работает www.sh14.ru/utils/avtomaticheskaya-ochistka-html-k...
принцип работы - удаляет весь мусор от ворда и все запрещенные атрибуты(а не теги, поэтому работает корректно с html 5)
Ответ написан
Magir
@Magir
Посмотреть как работает очистка в tinymce, переписать на PHP и обработать все данные.
Ответ написан
elky
@elky
Есть хорошее решение для Django, которое мы разработали и активно используем на своих сайтах, чтобы клиенты не «пачкали» сайт.
Ответ написан
stas_agarkov
@stas_agarkov
Я программист
странно что никто не додумался, но попробуй регулярные выражения
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы