Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Question

slovo @slovo

Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Вкратце, необходимо обрабатывать очень большой объем текстовой информации, после чего сохранять на жесткий диск в виде zip архивов. Задача усложняется тем, что обработка должна происходить многопоточно.
Пользователь класса ZipSaver

...
ZipSaver saver = new ZipSaver(10000); // 10000 - это количество элементов, когда надо сохранять архив на жесткий диск
Parallel.ForEach(source, item => {
    string workResult = ModifyItem(item);
    saver.AddItem(workResult);
});

Часть класса ZipSaver (использует библиотеку Ionic ZipFile)

private ConcurrentQueue<ZipFile> _pool;
public void AddItem(string src){
    ZipFile currentZipFile;
    if(_pool.TryDequeue(out currentZipFile) == false){
        currentZipFile = InitNewZipFile(); // если в пуле нет свободных архивов, создаем новый
    }
    currentZipFile.AddEntry(path, src); // добавление элемента в архив. path - просто путь в архиве
    // если после добавления элемента в архив, достигнуто максимальное количество элементов,
    // которое задается в конструкторе, сохраняем этот архив на жесткий диск,
    // иначе - возвращаем архив в общий пул
    if(currentZipFile.Enties.Count > _maxEntries){
        SaveZip(currentZipFile); // выполняется порядочно времени
    }else{
         _pool.Enqueue(currentZipFile);
    }
}

Можно, конечно, поиграть с цифрой максимального количества элементов в архиве, но от этого напрямую зависит и размер выходных архивов, что, в идеале, должно настраиваться. Сейчас ситуация такова, что при большом количестве элементов в исходной коллекции, которая обрабатывается в цикле, создается множество потоков, практический каждый из которых имеет "свой" инстанс ZipFile, что, естественно, приводит к переполнению оперативной памяти. Все работает неплохо, когда элементов мало, но, скажем с миллионом, оперативы может изыматься до 10 Гб.

Страшно подумать, что произойдет, если приложение запустить на машине с 4 Гб...
Вопрос к более опытным коллегам: как улучшить данный механизм сохранения, учитывая перечисленные недостатки?

Вопрос задан более трёх лет назад
3356 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

Средний
Как в Automapper можно отследить на каком уровне вложенности маппится dto?
- нет подписчиков
- 7 часов назад
- 12 просмотров
0

ответов
C#

+2 ещё

Средний
Какой есть бесплатный Unity ассет, чтобы строить Voxel карты с текстурами?
- 1 подписчик
- 13 часов назад
- 25 просмотров
0

ответов
Алгоритмы

Простой
Как можно еще уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- вчера
- 130 просмотров
1

ответ
Алгоритмы

Простой
Как можно уменьшить количество комбинаций в игре крестики нолики?
- 1 подписчик
- 19 авг.
- 135 просмотров
2

ответа
C#

+2 ещё

Простой
Как добавить данные из БД в отредактированный DataGrid (C# WPF)?
- 2 подписчика
- 18 авг.
- 106 просмотров
1

ответ
C#

Простой
Как добавить обработчки каллбеков в Telegram.Bot?
- 1 подписчик
- 17 авг.
- 64 просмотра
1

ответ
Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 209 просмотров
3

ответа
C#

+1 ещё

Средний
Почему свойство IsVisible всегда возвращает false (C# WPF)?
- 1 подписчик
- 10 авг.
- 110 просмотров
0

ответов
C#

Средний
Ошибка сценария в веб браузере c#. Почему?
- 1 подписчик
- 06 авг.
- 117 просмотров
2

ответа
C#

+1 ещё

Средний
Где найти чистые исходники мобильного сервера SAMP / CRMP?
- 1 подписчик
- 06 авг.
- 156 просмотров
1

ответ
Показать ещё Загружается…

Разработчик C# (WPF, EF+SQL) | Удаленно | Автоматизация ЖД

Railog

от 180 000 до 200 000 ₽

Заместитель начальника отдела разработки ПО и АСУ (Team Lead)

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 100 000 до 130 000 ₽

.NET Тимлид

DevCube Innovations

от 3 060 до 3 910 $

Answer 1 · 2014-03-04 20:34:30

IO лучше в нескольких потоках не делать. Seek'и будут долгими.
Попробуйте реализовать сжатие многопоточно в памяти, а запись в файл сжатой информации уже последовательно, по одному файлу.

Посмотрите в сторону чего нибудь вроде TPL Dataflow. Он как раз для задач подобной вашей создавался.

Как улучшить мой алгоритм сохранения данных на жесткий диск? (C#)

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт