Уже весь мозг сломал.
Перерыл GitHub, Хабру, Гугл...
Но внятного адекватного решения так и не нашёл.
Суть задачи:
Необходимо вытащить из html страницы полезный контент с форматированием.
Для чего это всё надо?
Всё это нужно для одной простой (казалось бы) задачи, - альтернативное хранение страницы (типо закладки). Очень часто сохраняю что-то в закладках. Очень часто потом эти закладки становятся бесполезными, - то сервер не доступен, то картинки и аттачи умерли на free CDN, то вообще сайта такого больше нет.
Теряю процентов 20-30 закладок с полезной инфой...
Языки программирования:
Очень желательно php.
Так же возможно AS3 (flash), JS...
Плагин для FF был бы очень удобен.
Принципиальных требований к языку нет, если можно портировать на php or js or flash.
Какая инфа найдена:
В основном описывают "решения" тупыми регулярками. Такой подход невозможен, так как он не универсален, был бы мне нужен парсер, даже и не стал задавать бы вопрос.
Так же есть
PEAR Text_Diff для php, теоретически он подходит, практически же нужно переписывать и перестраивать под задачу.
Ещё есть
теоретические измышления, которые мне не понравились. Во первых теоретические, никаких исходников, во вторых теория провалится, если статья напичкана форматированием.
Примечание 1:Однажды мне встречался плагин для FF, который очень легко справлялся с задачей, но никак не могу его найти и даже приблизительно не помню названия. Давно встречал. При включенном плагине, любая страница в сети открывалась в едином стиле и на станице был только заголовок и отформатированный текст. Безо всякой ерунды, типо меню, баннеров, шапок, подвалов и прочего барахла.
Найти этот плагин было бы идеальным решением задачи!
Примечание 2:
Еще встречался плагин для FF, который по клику копировал выделенное с форматированием в Вордпресс (судя по описанию). Этот плагин я не ставил, понятия не имею как он работает, но есть предположение, что его можно использовать для моей задачи, если не найду более адекватного и быстрого решения. Тоже не помню как называется и в репозитории FF его точно нет.
Примечание 3:
Поисковики как-то обрабатывают и выделяют полезный текст. Как конкретно знать не могу. Предполагаю что делается это достаточно сложно с кучей формул и натаскиванием нейросети... Если это не так сложно, как мне кажется, буду благодарен за информацию.
Примечание 4:
Ещё один способ: копирование выделенного в браузере, затем вставка из буфера в ОпенОфис и последующее сохранение в HTML. Получается чистый красивый документ с форматированием, остается только вставить свои стили. Но это отнимает много времени. Вот по этому я вспомнил флеш, - он позволяет работать с буфером...
Заранее благодарю всех ответивших.