Как обработать 10гб текстовый файл?

Question

CityzenUNDEAD @CityzenUNDEAD

C#

Как обработать 10гб текстовый файл?

Доброго дня!
Уже 2й день пытаюсь найти варианты как можно обработать огромный текстовый файл.
Суть задачи такова:
Мне приходит огромный текстовый xml файл размером около 10гб
Файл имеет такую структуру:

<organization typeof="Organization" about="http://opendata.trudvsem.ru/7710538364-organizations/organizations.xml#315910200403678">
		<region rel="dc:references" resource="http://opendata.trudvsem.ru/7710538364-regions/regions.xml#9100000000000"/>
		<name property="name">АЛИМЕНКО ДМИТРИЙ НИКОЛАЕВИЧ</name>
		<creationDate>2022-03-05</creationDate>
		<legalName>АЛИМЕНКО ДМИТРИЙ НИКОЛАЕВИЧ</legalName>
		<companyStructureHidden>false</companyStructureHidden>
		<ogrn>315910200403678</ogrn>
		<inn>910504080415</inn>
		<addressCode>9100000000000</addressCode>
		<firstRateCompany>Не относится к крупнейшим компаниям</firstRateCompany>
		<businessSize>SMALL</businessSize>
		<source>EMPLOYMENT_SERVICE</source>
		<innerInfo>
			<codeExternalSystem>CZN</codeExternalSystem>
			<dateModify>2022-03-13</dateModify>
			<deleted>false</deleted>
			<isModerated>true</isModerated>
			<moderationTime>2022-03-13</moderationTime>
			<registrationStatus>Получена по интеграции</registrationStatus>
			<status>Одобрено</status>
			<disableImportInfo>false</disableImportInfo>
			<disableImportVacancy>false</disableImportVacancy>
			<disableJoinCompany>false</disableJoinCompany>
			<disableJoinManager>false</disableJoinManager>
		</innerInfo>
	</organization>
<organization>
...
</organization>

То есть в этом файле перечислено огромное кол-во организаций.
Мне нужно обработать этот файл, и реализовать что бы каждая организация находилась в отдельном файле.
То есть разделить этот огромный файл на большое число небольших файлов.
Сложность заключается в том, что обрабатывать этот файл целиком не получается.
Нужно как-нибудь считывать этот файл кусками, то есть прочел кусок, записал в файл, читаю след. кусок.

Вопрос - есть ли возможность прочитать файл только до первого попавшегося текста </organization>, выделить этот кусок данных записать в файл, и с остановившегося места продолжать читать дальше?
Может быть есть другие варианты решения задачи, но пока додумался только до описанного выше, то есть что бы в памяти процесса держались только небольшие обрабатываемые куски данных. Только я не знаю как это реализовать.

Вопрос задан более трёх лет назад
158 просмотров

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

OTUS

C# Developer. Professional

6 месяцев

Далее
Ulearn.me

Основы программирования на примере C#. Часть 1

1 неделя

Далее
Software-testing.ru

Программирование на C# для тестировщиков

10 недель

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+1 ещё

Простой
Как создать копию предмета и добавить ему компонент?
- 1 подписчик
- 08 нояб.
- 114 просмотров
1

ответ
C#

+1 ещё

Простой
Как сделать постраничную навигацию в Avalonia UI MVVM?
- 2 подписчика
- 08 нояб.
- 84 просмотра
0

ответов
C#

Простой
Почему одинаковые делегаты работают по разному, В 10 Раз разница в скорости?
- 1 подписчик
- 27 окт.
- 268 просмотров
0

ответов
C#

+1 ещё

Простой
Почему не работает обратная привязка в Avalonia UI?
- 1 подписчик
- 22 окт.
- 136 просмотров
1

ответ
C#

+1 ещё

Средний
При каких входных данных моя программа работает неверно и как мне научиться самому это понимать? Как научиться искать ошибки?
- 2 подписчика
- 20 окт.
- 351 просмотр
3

ответа
C#

+2 ещё

Простой
Как универсализировать обычный ViewList в WPF C# XAML?
- 1 подписчик
- 20 окт.
- 88 просмотров
2

ответа
C#

+1 ещё

Простой
Как проверить, наследует ли объект в обобщённом методе?
- 1 подписчик
- 16 окт.
- 112 просмотров
1

ответ
C#

+1 ещё

Средний
Пермач после авторизации [WTelegram,TDLib] как исправить?
- 1 подписчик
- 10 окт.
- 316 просмотров
0

ответов
C#

+1 ещё

Простой
Как в VSCode для C#-кода сгенерировать или посмотреть только структуру?
- 1 подписчик
- 01 окт.
- 140 просмотров
1

ответ
C#

+1 ещё

Простой
Почему VSCode панель Outline view не показывает классы и функции из C# кода?
- 1 подписчик
- 01 окт.
- 144 просмотра
1

ответ
Показать ещё Загружается…

C# WinForms .Net разработчик

Ляпунов и Резниченко • Санкт-Петербург

от 350 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

QA Automation Engineer (C#)

Centicore Group • Москва

До 300 000 ₽

Answer 1 · 2022-03-22 13:30:35

2 варианта
правильный сложный - гуглить: stream xml parser c#
первый же результат

второй простой и тупой - если тег organization это один из элементов огромного списка и файл отформатирован (а это можно сделать другими средствами потоково, например консольным редактором регуляркой sed, вставив переводы на новую строку после закрытия тега organisation или же в своей программе) то можно быстрыми средствами поиском подстроки или построчной загрузкой файла грузить каждую organization в свою строку и анализировать уже привычными не потоковыми парсерами

Как обработать 10гб текстовый файл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт