Что это за кодировка?

Question

Ankozar @Ankozar

PHP

Что это за кодировка?

На php собираю новости с сайта. Штук 15 сайтов уже парсятся нормально, сейчас столкнулся с проблемой кодировки текста на исходном сайте.

Получаю заголовки новостей отсюда: www.tyumen-judo.ru/news

Php мне выдаёт, например: ÐÐ½Ð´ÑÑÑÑÐ¸Ñ ÑÐ¿Ð¾ÑÑÐ°!

Погуглил - нашёл mb_convert_encoding.

Но прикол в том, что на сайте и так кодировка utf-8! Это прописано в мета. И мой php, через mb_detect_encoding, тоже говорит что это utf-8.

Вот нет идей, почему так отображается и как это пофиксить.

UPD: конвертация кракозябр в CP1252 даёт читаемый текст! Но php (и все декодеры) по-прежнему определяет исходную кодировку как utf-8. А мне, блин, надо чтобы универсальный алгоритм для парсинга текста был. То есть, для всех сайтов я в БД храню атрибут или селектор, по которому он на сайте ищет нужный элемент и вытаскивает из него данные. И все сайты в utf-8, вроде. Я бы написал условие, при котором нужно конвертить текст, но как тут поступить - хз.

Вопрос задан более трёх лет назад
226 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

5 комментариев

Ankozar @Ankozar Автор вопроса

А мне текст и не нужен. Мне только заголовки, картинки и ссылку на новость.

Я с самого начала думал про рсс. Но на некоторых сайтах их не видел.
Хм....

Придётся ещё раз про рсс читать.

А как получается, что значка рсс нет, а рсс есть? Как он формируется, можете в двух словах написать?

И как, например, вот тут найти рсс? https://depkult.admtyumen.ru/OIGV/culture/news/news.htm
И вот тут: https://xn--80aaahj7avhbcajldsgk4c.xn--p1ai/

Написано более трёх лет назад
Дмитрий @dtmse

Общего ответа тут вряд ли получится дать. Конкретно здесь я посмотрел html-код страницы, увидел, что движок - Drupal, и нагуглил дефолтный URL для RSS у этого движка. Это сработало.

Написано более трёх лет назад
Ankozar @Ankozar Автор вопроса

И, в общем, я остаюсь при своём методе... =(

Но некоторые сайты на рсс переведу, видимо. Спасибо вам!

Написано более трёх лет назад
Дмитрий @dtmse

Ankozar, есть RSS-лента для сайта - https://admtyumen.ru/ogv_ru/subscribe/news_rss.htm
Может и для сайта на поддомене получится URL подобрать

Написано более трёх лет назад
Ankozar @Ankozar Автор вопроса

Дмитрий, Вот конкретно эта лента выдаёт битые ссылки на новости. Она бесполезна получается. =( Ну или мне менять подход и ссылку давать на страницу с лентой новостей сайта. Но это получается всё равно два действия для юзверя: переход на ленту, потом на новость. А я хочу минимизировать путь к новости. И да - для каждого поддомена на этом сайте нужна своя лента =( Там штук 30 департаментов, каждый в свою категорию новостей попадает. Из общего rss их забирать неудобно.

В общем. rss - не панацея для меня, к сожалению.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как декодировать/закодировать спец символы в get запросе?
- 1 подписчик
- 3 часа назад
- 44 просмотра
1

ответ
PHP

Простой
Как вызвать curl и не ждать ответ?
- 1 подписчик
- 16 дек.
- 272 просмотра
2

ответа
PHP

Простой
Как сделать это?
- 1 подписчик
- 11 дек.
- 280 просмотров
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 240 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 225 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 175 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 154 просмотра
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 321 просмотр
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 292 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 446 просмотров
4

ответа
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

TeamLead PHP (Symfony)

AGIMA • Москва

от 210 000 ₽

Answer 1 · 2021-01-26 15:20:10

Нашёл: https://www.cyberforum.ru/php-network/thread226548...

Проблема в том что библиотека не может считать кодировку, сама на свое усмотрение что то делает с кодировкой.

На странице указана кодировка в таком формате
HTML5
<meta http-equiv="content-type" content="text/html;charset=utf-8">
Мне вот такая штука помогла:
$content = file_get_contents('https://sitename.com/?p=503810');
 $doc = phpQuery::newDocument('<meta charset="utf-8">' . $content);

Собсно, я вот это у себя написал:

$doc = phpQuery::newDocument('<meta charset="utf-8">' . $content);

И текст стал парситься как надо.

Answer 2 · 2021-01-26 14:42:31

Александр @StupidQuestion

Задаю глупые вопросы...

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2021-01-26 15:18:28

Есть принципиально другой, более унифицированный способ собирать контент с сайтов - RSS. Часто работает даже там, где явно не присутствует. В XML, насколько я вижу, с кодировками все в порядке, да и парсить их просто (правда, полный текст произвольной статьи так не получить):
www.tyumen-judo.ru/rss.xml

Что это за кодировка?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт