Задать вопрос
@khodos_dmitry

Почему часть страницы парсится нормально, а часть кракозябрами?

Пытаюсь спарсить один сайт. Часть данных с него нормально скачиваются, но данные с некоторых блоков парсятся вот так:
5c332fba01601316386491.png
$spravka = iconv("windows-1251", "utf-8", $spravka); - после этого вообще ничего не остается.
  • Вопрос задан
  • 93 просмотра
Подписаться 2 Средний 4 комментария
Помогут разобраться в теме Все курсы
  • OTUS
    iOS Developer
    12 месяцев
    Далее
  • Stepik
    Парсинг на Python для начинающих
    2 недели
    Далее
  • AndroidSprint
    Попробуйте себя в роли разработчика за 10 дней
    1 неделя
    Далее
Решения вопроса 1
@andiges
Я кажется добрался до сути проблемы. Часть текста написана чистым utf8, часть написана при помощи numerical HTML encoding of the Unicode character.
Пример:
UTF8: Сбер
HTML: Сбер = Сбер

$doc->loadHTML(mb_convert_encoding($body, 'HTML-ENTITIES', 'UTF-8'));
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы