Попробую разбить на части, но для меня это не выход - мне нужен весь массив данных. Проверял на соответствие - пишет utf-8. Почему я подумал на кривую кодировку, потому что при перекодировке из iso-8859 в utf-8 json создался только в кракозябрах, поэтому объем тут не при чем.
ThunderCat, Гигабайт на входе примерно. На выходе меньше намного. Ошибки нет никакой. Просто функция json_encode не отрабатывает из-за кодировки. Когда я пытался из iso-8859 перекодировать в utf-8 - json записался, но в кракозябрах. Это, конечно, не вариант.
SagePtr, А где я сказал, что текст невалидный? Он прекрасно читается, прекрасно записывается, просто он в ASCII. Я проверил кодировку на компе. Проблема в том, что мне надо на лету перекодировать текст в utf-8 а ни один перекодировщик не справляется - либо кракозябры, либо ничего. В итоге я не могу получить json, ради которого я и парсю сайт.
SagePtr, я намекаю на то, что ни mb_convert_encoding, ни iconv не перекодирует текст в utf-8, а т.к. мне надо перегнать этот текст (а точнее гигантский массив) в json, то этот номер у меня не проходит, потому что jsonencode понимает только utf-8.
При таком раскладе preg_match выдавил практически 99% информации. Хотя результат все равно гуляет. Без перекодировки из 100 страниц выкидывал до 6.