Фай переименовал - не помогло. Файл отдаётся с правильным расширением. На лету не генерится, файл просто загружается на сервера, в базу пишется имя файла, генерируется на лету, файл переименовывается, так как пользователь может грузить и с кириллическим названием файл. При загрузке файла берётся его имя и ищется в соответствующей директории.
Алексей Уколов: Если делать такой скриншот, то что Вы посоветуете, как подойти к этой проблеме?
Знаю о таком ресурсе www.thumbshots.ru, но может что-то есть проще?
Алексей Уколов: За идею со скриншотом спасибо, интересно.
>>> Я бы для решения этой задачи построил дерево документа
DomDocument или что Вы посоветуете?
>>>И пьюрифаить ничего не понадобится...
Htmlpurifier уже встроен в framework, поэтому решил его использовать.
Алексей Уколов: Мне нужен весь контент, начиная от шапки сайта и заканчивая подвалом. Заголовки разного уровня, списки, меню, таблицы, статьи, всё, что можно получить, Смысл этой затеи в том, что владелец сайта, вводит адрес сайта, отправляет форму, в ответ получает весь текст со своего сайта, который сохраняется в файл и базу. Далее этот текст должен проверяться корректорами на наличие ошибок.
На сайте уже используется HtmlPurifier, очищает все теги. Но в некоторых случаях библиотека не ставит пробелы, переводы строк. Ссылку на попытку реализации прикрепил к вопросу. Возможно ли в этом случае найти золотую середину, чтобы парсило любой сайт, без каких либо индивидуальных настроек?
К вопросу прикрепил ссылку на попытку реализации... Но не всегда работает как надо. На некоторых сайтах не расставляет пробелы(в некоторых местах), на некоторых не до конца забирает текст, но есть и такие, которые отлично парсятся. В моём случает можно найти "золотую середину"?
К вопросу прикрепил ссылку на попытку реализации... Но не всегда работает как надо. На некоторых сайтах не расставляет пробелы, на некоторых не до конца забирает текст, но есть и такие, которые отлично парсятся. В моём случает можно найти "золотую середину"?
Мне как раз надо получить только текст, сохранив орфографию и пунктуацию. Никаких тегов быть не должно. Js/Jquery тоже не надо получать, единственное, что надо получить из данных, подгружаемых js/jquery - содержание слайдеров, если там есть текст.
Благодарю, буду разбираться.
А пока решил таким способом https://jsfiddle.net/slo_nik/xx7dfax0/5/
Есть проблема, которую я не могу пока решить. Возникает тогда, когда удаляю текст через "bakcspace" и начинаю вводить новый, даже если ввожу адрес какого либо сайта, функция начинает подсчёт символов, а мне надо, чтобы не считались символы, когда ввожу адрес сайта.
Не подскажите как её решить?
Максим Тимофеев: Слово "теги" в вопросе присутствует и не раз. Вывести форматированный текст, значит вывести с тегами, которые могут быть в тексте. И вывести так, чтобы не показывало тег