Задать вопрос
@khodos_dmitry

Почему часть страницы парсится нормально, а часть кракозябрами?

Пытаюсь спарсить один сайт. Часть данных с него нормально скачиваются, но данные с некоторых блоков парсятся вот так:
5c332fba01601316386491.png
$spravka = iconv("windows-1251", "utf-8", $spravka); - после этого вообще ничего не остается.
  • Вопрос задан
  • 95 просмотров
Подписаться 2 Средний 4 комментария
Помогут разобраться в теме Все курсы
  • Stepik
    4в1—Парсинг, Асинхронность, Многопоточность, Многопроцессорность
    2 месяца
    Далее
  • Хекслет
    Фронтенд-разработчик
    10 месяцев
    Далее
  • Stepik
    FullStack Developer and Data Scientist (Python+JS+Data+CookBook)
    4 месяца
    Далее
Решения вопроса 1
@andiges
Я кажется добрался до сути проблемы. Часть текста написана чистым utf8, часть написана при помощи numerical HTML encoding of the Unicode character.
Пример:
UTF8: Сбер
HTML: Сбер = Сбер

$doc->loadHTML(mb_convert_encoding($body, 'HTML-ENTITIES', 'UTF-8'));
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы