Почему получается неверная кодировка при парсинге html?

Question

Makanchor @Makanchor

Почему получается неверная кодировка при парсинге html?

Парсю страничку https://classinform.ru/fkko-2017.html.

В браузере все в порядке, при копировании руками тоже отлично копируется. Когда делаю UrlFetchApp.fetch(), кириллица превращается в �, при этом кодировка utf-8.

Параметры запроса

var options = {
  "method": "get",
  "headers": {},
}

ЧЯДНТ?

Вопрос задан более трёх лет назад
310 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
OTUS

iOS Developer

12 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 159 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 386 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 359 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 193 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 266 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 206 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 207 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 294 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 136 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 230 просмотров
3

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Разработчик JavaScript/NodeJS, специалист технической поддержки

A-Parser

от 600 до 800 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Answer 1 · 2020-02-12 10:19:34

Обычно, всегда при fetch нужно указывать кодировку. Но так сложилось, что все привыкли к UTF-8.

Укажите кодировку вашего контента при извлечении

const data = UrlFetchApp.fetch('https://classinform.ru/fkko-2017.html.');
console.log(data.getContentText('windows-1251'));

Answer 2 · 2020-02-12 09:58:32

Там страница в cp1251. Эта кодировка указана в специальном теге на странице:

<meta http-equiv="content-type" content="text/html; charset=windows-1251">

При копировании из браузера система учитывает эту кодировку и конвертирует её на лету. Вам следует конвертировать html-код в utf-8, перед парсингом, либо конвертировать отдельно вырезанные фрагменты.

Почему получается неверная кодировка при парсинге html?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт