Ответы пользователя по тегу Парсинг
  • Почему получается неверная кодировка при парсинге html?

    trapwalker
    @trapwalker
    Программист, энтузиаст
    Там страница в cp1251. Эта кодировка указана в специальном теге на странице:
    <meta http-equiv="content-type" content="text/html; charset=windows-1251">

    При копировании из браузера система учитывает эту кодировку и конвертирует её на лету. Вам следует конвертировать html-код в utf-8, перед парсингом, либо конвертировать отдельно вырезанные фрагменты.
    Ответ написан
    Комментировать