Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?

Question

Роман Кофф @Zarinov

C#

Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?

Есть битый json с информацией, которую надо десериализировать хотя бы частично. Как обойти ошибки?
Например, может быть не закрыта фигурная скобка в конце или внутри текстового значения кавычки заэкранированы не \", а "\.
Из таких мутантских файлах на входе надо как-то вытащить хотя бы часть информации...

Вроде у Newtonsoft.Json в опциях было свойство Error, которое позволяло настроить обработчик ошибок и там их обходить, а как такое можно сделать для System.Text.Json?

При этом сами VS и VSC такие файлы разбирают, с ругательствами, конечно, но все же...

Вопрос задан 29 янв.
287 просмотров

11 комментариев

Подписаться 3 Средний 11 комментариев

Василий Банников @vabka

А что мешает использовать newtonsoft json?
Как вариант можно использовать Utf8JsonReader - он выдаёт поток элементов и не пытается спарсить всё сразу.

Написано 30 янв.
rPman @rPman

может быть не закрыта фигурная скобка в конце
можно привести пример? а как вы как человек можете этот файл прочитать?

Нужно составить список всех проблем и решать их вручную по одной, пока не починишь документ.

Написано 30 янв.
Роман Кофф @Zarinov Автор вопроса

rPman. Это файлы описаний пакетов от внешних разрабов. И они, к сожалению, бывают криворукими. Пока из около 1000 файлов было выявлено две ошибки: с неправильным экранированием кавычек внутри строки и с незакрытой скобкой в конце документа, но там может быть все, что угодно.

Видимо так и придется сделать...

Написано 30 янв.
Роман Кофф @Zarinov Автор вопроса

Василий Банников, ну, как бэ, думал, что это можно решить нативным способом без дополнительных внешних зависимостей...

Написано 30 янв.
rPman @rPman

точно обработка сломаных файлов не нативна
p.s. уже вижу как я бы 1000 файлов с глюками разбирал бы с помощью llm модели, просить ее проанализировать файл, найти ошибку, описать ее, разработать код для исправления этой ошибки, выполнить его, и так для каждого

Написано 30 янв.
shurshur @shurshur

Роман Кофф, исправление json в общем случае абсолютно нереально и не имеет однозначного решения. Более того, повреждённый json может остаться валидным. Например, вот такой json:

{"name1":"value1", "name2": "value2"}

Он может быть результатом искажения через потерянные слеши вот такого json:

{"name1\":\"value1\", \"name2": "value2"}

Наблюдая первый json, мы не можем не быть уверены, что на самом деле изначально это был не второй. И оба при этом валидны!

Если у нас в качестве значения внутри json выступает другой json (как строка), особенно сложный то при опускании слешей может начаться какой угодно хаос. В том числе новый json может оказаться валидным или "почти валидным", исправимым каким-то другим способом, к которому может прийти и алгоритм.

Поэтому для реального исправления нужно хорошо разобраться в том, как именно произошло искажение. Плюс понимание особенностей данных: валидные имена ключей, валидация значений и их типов (можно написать json-схему и на разные попытки исправления её прогонять).

Вообще, с подобной задачей народ сталкивался на кривых csv. Там реально всё ещё хуже, потому что формат очень нестрогий, а запятые в неэкранированном значении делают абсолютно неоднозначным способ разделения строки на поля. В том числе крайне тяжёлым. Например, пусть в файле рядом адрес регистрации и адрес фактического проживания и значения не закавычены. Определить запятую, которая разделяет значения с семантикой "адрес", довольно сложно, учитывая, что адреса часто пишут довольно неформальным способом. И это ещё можно как-то угадать, понимая семантику значения - что это адрес. А если там просто перечисления и идентификация невозможна? Если рядом любимые блюда и нелюбимые блюда, то как понять, что уже закончился список любимых и начался список нелюбимых?

Написано 30 янв.
rPman @rPman

shurshur, csv строгий, просто его неофиты делают через тупой print без простейшего replace, а еще там \n внутри строг разрешено, вот где жесть.

по поводу неоднозначности распознования json с ошибками, да конечно с академической точки зрения распознать нельзя, но на практике по самим данным много что можно понять, т.е. человек глазами, взглянув на реальных json (а не созданный специалистом 'для прикола') вполне может понять где ошибка, не говоря о том что если такие файлы создавались автоматически, ошибка будет не в одном месте.

поэтому я и сказал, было бы очень интересно натравить на такие испорченные json ИИ, по указанному выше пайплайну.

Написано 30 янв.
shurshur @shurshur

rPman, "строгий csv" реализуют как попало и в том же модуле csv в python есть даже специальное понятие "диалекта". Из вопиющего, что встречал - Oracle SQL Developer не может импортировать собственный экспорт csv, если в значении поля встречается перенос строки.

Да и генерят csv часто без каких-то решений, просто тупой записью значений через запятую (или другой разделитель). Да чего уж там - я сам так делаю, когда надо быстро и просто и я уверен, что это не вызовет проблем.

Написано 30 янв.
Василий Банников @vabka

Роман Кофф,

Это файлы описаний пакетов от внешних разрабов. И они, к сожалению, бывают криворукими.

Может тогда автоматизировать процесс и когда принимаете эти описания пакетов - валидировать их и выдавать этому внешнему разрабу список ошибок, которые нужно исправить?

Легче изначально не допустить брака, чем потом его исправлять костылями.

А пока руками их поправить. Их много?

По изначальному описанию подумал, что у вас там жёсткий диск в ядерном реакторе побывал

Написано 30 янв.
Роман Кофф @Zarinov Автор вопроса

Василий Банников, да нет))) Файлы вообще ко мне отношения не имеют. Я их никак контролировать не могу. Только скачивать.
Это метафайлы описаний пакетов расширений для игры-песочницы. Их публикует кто угодно и как угодно. Но если эти пакеты нормально съедает игровой движок, то и я должен иметь возможность их нормально забирать.
(когда посмотрел, что там разрабы фигачат, если честно, волосы дыбом встали...)

Написано 31 янв.
shurshur @shurshur

Роман Кофф, если такие файлы не просто генерятся, но и кем-то систематически читаются, то логично, что надо не просто файлики исправить, а найти/написать нормальный их читатель. Вероятно даже, там не надо json-читалку привлекать, потому что превращать "это" в json слишком накладно и сложно, а сами файлы, вероятно, не требуют реализации всей логики json.

Вообще, если бы был показан пример такого файла, советы могли бы быть более целенаправленными.

Написано 01 февр.

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 212 просмотров
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 145 просмотров
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 375 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 119 просмотров
1

ответ
C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 109 просмотров
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 200 просмотров
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 317 просмотров
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 2 подписчика
- 14 мар.
- 411 просмотров
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 129 просмотров
1

ответ
Показать ещё Загружается…

А что мешает использовать newtonsoft json?
Как вариант можно использовать Utf8JsonReader - он выдаёт поток элементов и не пытается спарсить всё сразу.
может быть не закрыта фигурная скобка в конце
можно привести пример? а как вы как человек можете этот файл прочитать?

Нужно составить список всех проблем и решать их вручную по одной, пока не починишь документ.
rPman. Это файлы описаний пакетов от внешних разрабов. И они, к сожалению, бывают криворукими. Пока из около 1000 файлов было выявлено две ошибки: с неправильным экранированием кавычек внутри строки и с незакрытой скобкой в конце документа, но там может быть все, что угодно.

Видимо так и придется сделать...
Василий Банников, ну, как бэ, думал, что это можно решить нативным способом без дополнительных внешних зависимостей...
точно обработка сломаных файлов не нативна
p.s. уже вижу как я бы 1000 файлов с глюками разбирал бы с помощью llm модели, просить ее проанализировать файл, найти ошибку, описать ее, разработать код для исправления этой ошибки, выполнить его, и так для каждого
shurshur, csv строгий, просто его неофиты делают через тупой print без простейшего replace, а еще там \n внутри строг разрешено, вот где жесть.

по поводу неоднозначности распознования json с ошибками, да конечно с академической точки зрения распознать нельзя, но на практике по самим данным много что можно понять, т.е. человек глазами, взглянув на реальных json (а не созданный специалистом 'для прикола') вполне может понять где ошибка, не говоря о том что если такие файлы создавались автоматически, ошибка будет не в одном месте.

поэтому я и сказал, было бы очень интересно натравить на такие испорченные json ИИ, по указанному выше пайплайну.
rPman, "строгий csv" реализуют как попало и в том же модуле csv в python есть даже специальное понятие "диалекта". Из вопиющего, что встречал - Oracle SQL Developer не может импортировать собственный экспорт csv, если в значении поля встречается перенос строки.

Да и генерят csv часто без каких-то решений, просто тупой записью значений через запятую (или другой разделитель). Да чего уж там - я сам так делаю, когда надо быстро и просто и я уверен, что это не вызовет проблем.
Роман Кофф,

Это файлы описаний пакетов от внешних разрабов. И они, к сожалению, бывают криворукими.

Может тогда автоматизировать процесс и когда принимаете эти описания пакетов - валидировать их и выдавать этому внешнему разрабу список ошибок, которые нужно исправить?

Легче изначально не допустить брака, чем потом его исправлять костылями.

А пока руками их поправить. Их много?

По изначальному описанию подумал, что у вас там жёсткий диск в ядерном реакторе побывал
Василий Банников, да нет))) Файлы вообще ко мне отношения не имеют. Я их никак контролировать не могу. Только скачивать.
Это метафайлы описаний пакетов расширений для игры-песочницы. Их публикует кто угодно и как угодно. Но если эти пакеты нормально съедает игровой движок, то и я должен иметь возможность их нормально забирать.
(когда посмотрел, что там разрабы фигачат, если честно, волосы дыбом встали...)
Роман Кофф, если такие файлы не просто генерятся, но и кем-то систематически читаются, то логично, что надо не просто файлики исправить, а найти/написать нормальный их читатель. Вероятно даже, там не надо json-читалку привлекать, потому что превращать "это" в json слишком накладно и сложно, а сами файлы, вероятно, не требуют реализации всей логики json.

Вообще, если бы был показан пример такого файла, советы могли бы быть более целенаправленными.

Answer 1 · 2026-01-30 00:30:43

В System.Text.Json нет такой фичи: https://github.com/dotnet/runtime/issues/38049
Поэтому используйте библиотеку Newtonsoft и аттрибут OnError: https://www.newtonsoft.com/json/help/html/Serializ...
Реальный пример: https://github.com/VoidVolker/LockScreen/blob/80c0...

Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт