Почему в выходном .txt файле парсера кракозябры?

Question

Konyuh @Konyuh

Почему в выходном .txt файле парсера кракозябры?

Есть такой парсер карточки товара интернет-магазина https://ketmin.ru/catalog/futbolki_s_printom/~futb...

$header  = array
                    (
                      'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                      'Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3',
                      'Accept-Encoding: gzip, deflate',
                      'Content-type: application/x-www-form-urlencoded'
                    );

                    curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
                    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
                    curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0");
                    curl_setopt($ch, CURLOPT_ENCODING , "gzip");
                    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
                    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
                    curl_setopt($ch, CURLOPT_URL, 'https://ketmin.ru/catalog/futbolki_s_printom/~futbolka-detskaya-ketmin-funny-cvbelyj-3250754514');

                    $html = curl_exec($ch);
                    curl_close($ch);

                    $dom = new DOMDocument();
                    @$dom->loadHTML($html);
                    $xpath = new DOMXPath($dom);
                    $description = $xpath->query("//div[contains(@class, 'description')]/div[@class='title--min'][not(contains(text(), 'Таблица'))]/..");
                    $descriptionArr = iterator_to_array($description);
                    $descriptionTerm = null;
                    $Description = null;

                    foreach ($descriptionArr as $descriptions) { 
                        $descriptionTerm[] = $descriptions->nodeValue;
                    }

                    foreach ($descriptionTerm as $descriptions) {
                        $Description .= trim($descriptions);
                    }

                    $arrMainParams = array(
                        "description" => $Description
                    );

                    $jsonDataProduct = json_encode($arrMainParams, JSON_UNESCAPED_UNICODE);
                    file_put_contents("data_product.txt", $jsonDataProduct);

И вот, в выходной текстовый файл data_product.txt вместо русских символов попадают кракозябры вида Ð¥Ð°ÑÐ°ÐºÑÐµÑÐ¸ . В чем может быть причина? Кодировка на сайте UTF-8.

Вопрос задан более года назад
127 просмотров

2 комментария

Подписаться 1 Средний 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

3 комментария

Ипатьев @ipatiev Куратор тега PHP

Ð¥Ð°ÑÐ°ÐºÑÐµÑÐ¸

а где вы здесь увидели HTML, я стесняюсь спросить?

Написано более года назад
Ivan Ustûžanin @IvanU7n
Ипатьев, в принципе предложение может сработать, т.к. это очень похоже на utf-8, принятый за latin1 и закодированный в utf-8 ещё раз
всё же DomDocument::loadHTML понимает указание кодировки только через
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
, а не используемый сейчас <meta charset="utf-8">
Написано более года назад
Konyuh @Konyuh Автор вопроса

Заработало, спасибо!

Написано более года назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как отдать ответ клиенту без ожидания завершения скрипта?
- 1 подписчик
- вчера
- 373 просмотра
4

ответа
PHP

Простой
Как в PHP вернуть NULL по ссылке?
- 1 подписчик
- 21 дек.
- 147 просмотров
1

ответ
PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 18 дек.
- 140 просмотров
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 317 просмотров
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 303 просмотра
2

ответа
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 404 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 246 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 234 просмотра
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 180 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 163 просмотра
2

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

потому что просматриваете вы этот файл через программу, которая не умеет в UTF-8?
Смотрите содержимое файла в кодировке cp1252, переключите в просмотрщике кодировку на utf-8.

Answer 1 · 2024-02-16 12:35:04

Используйте mb_convert_encoding для преобразования HTML в UTF-8 перед его обработкой.

@$dom->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));

Почему в выходном .txt файле парсера кракозябры?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт