Берешь строку с сайта, проверяешь её на кодировку, далее в зависимости от выданной кодировки устанавливаешь себе такую же и уже полностью парсишь сайт.
Только надо подзаморочится с методами, на firefox раньше работали что-то типа, characterSet и actualEncoding.