flashdix, при такой постановке вопроса могу дать только общий ответ. Валидируете HTML и все места в которых выдает ошибку обрабатываете через JSON.parse, увеличивая вырезаемый кусок до тех пор пока не достигнете конца файла или пока JSON.parse не сработает успешно
вот пример, но без валидации:
PS: о минусах такого подхода я тут рассказывать не буду)
PPS: python-а не знаю, потому демонстрация на js. На python-е подход тот же, но вместо JSON.parse используйте питонячий аналог)