Как повысть скорость записи случайных блоков?

Question

MilkyCoder @MilkyCoder

Гений

C#
.NET

Как повысть скорость записи случайных блоков?

В указанном коде, если убрать махинации с курсором файла, скорость записи мегабайта составляет 20мс. Но если записывать блоки случайно, тогда запись мегабайта происходит за не приличные 800мс, почти секунда и это при то что у меня навороченный SSD. Не помогает даже шаманство с FileOptions.RandomAccess. При последовательной записи тоже меняется Position, почему если я его меняю вручную, тогда так сильно падает производительность. Разница в 40 раз. Посоветуйте что нибудь плз.

static string path = @"...\ConsoleApplication10\bin\Debug\1.dat";
        static int count = 1;
        static int len = 1024 * 1024;

        static void Test()
        {
            var rnd = new Random();
            var sw = Stopwatch.StartNew();

            var b = new byte[4];
            var fs = new FileStream(path, FileMode.OpenOrCreate, FileAccess.ReadWrite, FileShare.ReadWrite, 4096, FileOptions.RandomAccess | FileOptions.SequentialScan);

            if (fs.Length == 0)
            {
                fs.SetLength(len);
            }
            
            Console.WriteLine("Test started");

            for (var i = 0; i < len / 4; ++i)
            {
                var ind = 20;

                b[0] = (byte)ind;
                b[1] = (byte)(ind >> 8);
                b[2] = (byte)(ind >> 16);
                b[3] = (byte)(ind >> 24);

                //fs.Position = i * 4;
                //fs.Seek(i * 4, SeekOrigin.Begin);
                fs.Seek(rnd.Next(0, len / 4) * 4, SeekOrigin.Begin);

                fs.Write(b, 0, 4);
            }

            fs.Close();

            Console.WriteLine("Test end time - " + sw.ElapsedMilliseconds);
        }

Вопрос задан более трёх лет назад
2582 просмотра

2 комментария

Подписаться 2 Оценить 2 комментария

Решения вопроса 1

3 комментария

MilkyCoder @MilkyCoder Автор вопроса

Спасибо за инфу. Честно говоря не хотел бы прибегать к таким мерам. Получается после каждого обновления записи мне придется делать новую запись в лог. При этом старая запись будет какое то время висеть в этом же файле, пока файл не перезапишется, для этого нужно будет делать специальный алгоритм. Придется держать отдельный индекс, который мапит код на смещение в этом логе. Вобщем я еще морально не готов к этому :)

Написано более трёх лет назад
mayorovp @mayorovp

MilkyCoder: Зато таким образом вы вплотную приближаетесь к ACID-транзакциям :) Хотя, конечно же, время они отжирают только так...

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

mayorovp но честно говоря ваш ответ, это пока единственный выход.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

12 комментариев

MilkyCoder @MilkyCoder Автор вопроса

Смешно но этот пост как раз появился в результате того, что я переписываю код, что бы отказаться от отображенных в память файлов. MMF годится только тогда, когда вы один раз отрыли файл, и делает много изменений. А когда вы очень часто открываете и закрываете, все это дело работает очень медленно, и к тому же система начинает глючить.

Написано более трёх лет назад
mayorovp @mayorovp

MilkyCoder: А зачем часто открывать-закрывать файл?..

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

mayorovp: Потому что файлы большие и в память они не влезают, отсюда и частые мапинги в память, открытие и закрытие MMF имеет большие накладные расходы. Что касается глюков, то я использую указатель для работы с этой памятью, так вот где внутрях ядра нарушается учет полученных ссылок, и в какой то момент происходит эксепшн. Свой код я проверил правильно освобождаю указатели, видимо освобождение указателя происходит асинхронно, поэтому они успевают накопиться до критического уровня.

Написано более трёх лет назад
mayorovp @mayorovp

MilkyCoder: Зачем для смены отображенного блока закрывать файл?..

Написано более трёх лет назад
mayorovp @mayorovp

MilkyCoder: В том же примере, который привел Алексей Немиро - ничего не мешает пересоздать accessor, не пересоздавая map. Ровно также как и ничего не мешает создать несколько accessor для одной map. Кстати, ОС в таком случае гарантирует синхронность изменений в них.

Кстати, что за исключение происходит там внутрях? Не проще ли разобраться с ним?

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

>> Зачем для смены отображенного блока закрывать файл?

Я не правильно выразился, создание нового представления map.CreateViewAccessor(....) с параметрами. Думаю нет. Не проще. Дело еще не только в этом, создание и уничтожение представления имеет большие накладные расходы. Я могу дать вам функции которые я использую в продакшене для этого, если интересно:
public static MemoryMappedFile CreateMMF(this FileStream fs, string key)
{
var obj = null as MemoryMappedFile;

//Debug.Write(key);
//Debug.Write(" : ");
//Debug.WriteLine(fs.Name);

//Console.Write(key);
//Console.Write(" : ");
//Console.WriteLine(fs.Name);

int step = 0;

while (true)
{
step++;

//Debug.WriteLine("Step: " + step);
//Console.WriteLine("Step: " + step);

try
{
//Debug.Write("Try create: ");
//Console.Write("Try create: ");

obj = MemoryMappedFile.CreateFromFile
(
fs,
key,
fs.Length,
MemoryMappedFileAccess.ReadWrite,
null,
HandleInheritability.Inheritable,
true
);

//Debug.WriteLine("Done");
//Console.WriteLine("Done");

break;
}
catch (Exception e0)
{
//Debug.WriteLine("Fail");
Debug.WriteLine(e0.Message);

//Console.WriteLine("Fail");
//Console.WriteLine(e0.Message);

try
{
//Debug.Write("Try open: ");
//Console.Write("Try open: ");

obj = MemoryMappedFile.OpenExisting
(
key,
MemoryMappedFileRights.ReadWrite,
HandleInheritability.Inheritable
);

//Debug.WriteLine("Done");
//Console.WriteLine("Done");

break;
}
catch (Exception e1)
{
//Debug.WriteLine("Fail");
//Debug.WriteLine(e1.Message);

//Console.WriteLine("Fail");
//Console.WriteLine(e1.Message);
}
}

System.Threading.Thread.Yield();
}

//Debug.WriteLine("");
//Console.WriteLine("");

return obj;
}

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

mayorovp:
public static byte* Pointer(this MemoryMappedViewAccessor acc, long offset)
{
var num = offset % Info.dwAllocationGranularity;

byte* tmp_ptr = null;

RuntimeHelpers.PrepareConstrainedRegions();

acc.SafeMemoryMappedViewHandle.AcquirePointer(ref tmp_ptr);

tmp_ptr += num;

return tmp_ptr;
}

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

public static SYSTEM_INFO Info;

[DllImport("kernel32.dll", SetLastError = true)]
internal static extern void GetSystemInfo(ref SYSTEM_INFO lpSystemInfo);

public struct SYSTEM_INFO
{
internal int dwOemId;
internal int dwPageSize;
internal IntPtr lpMinimumApplicationAddress;
internal IntPtr lpMaximumApplicationAddress;
internal IntPtr dwActiveProcessorMask;
internal int dwNumberOfProcessors;
internal int dwProcessorType;
internal int dwAllocationGranularity;
internal short wProcessorLevel;
internal short wProcessorRevision;
}

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

Использование:

void InitFile()
{
if (body != null)
{
body.SafeMemoryMappedViewHandle.ReleasePointer();
body.Dispose();
}
if (file != null)
{
file.Dispose();
}

length = fs.Length;
this.file = fs.CreateMMF(key);

body = file.CreateViewAccessor(0, length, MemoryMappedFileAccess.ReadWrite);

bodyPtr = (long*)body.Pointer(0);
}

А да забыл сказать, если вы поменяли размер файла с помощью FileStream.SetLength тогда MMF тоже надо пересоздать.

Написано более трёх лет назад
mayorovp @mayorovp

MilkyCoder: Я бы попросил в следующий раз код выкладывать куда-нибудь, где сохраняется его форматирование.

Метод Pointer выглядит как ошибочный. Почему-то у offset используется только младшая часть, а старшая игнорируется. Кроме того, нет никаких проверок выхода за границу выделенной области. Даже если тут все правильно, ситуация, когда один алгоритм размазан по разным методам - это нехорошо.

Кстати, вы не привели код, который создает MemoryMappedViewAccessor. Ну и, наконец, большие накладные расходы имеет создание отображения только если его создавать на каждый запрос. Надо кешировать это отображение.

Написано более трёх лет назад
mayorovp @mayorovp

PS что там насчет варианта с WAL?

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

>> алгоритм размазан по разным методам

Это только инициализация.

>> Кстати, вы не привели код, который создает MemoryMappedViewAccessor

Посмотрите на 300 пикселей выше вашего поста :)

>> Почему-то у offset используется только младшая часть

Не очень понял поясните.

>> PS что там насчет варианта с WAL?

Пока что самый вменяемый вариант.

Написано более трёх лет назад

5 комментариев

MilkyCoder @MilkyCoder Автор вопроса

Использование FileOptions.WriteThrough ухудшило производительность еще на два порядка. Я даже не дождался результата прошло более двух минут. Отличный ликбез по SSD. Но я же использую .net какой нафиг Trim и привязки к железу? :). FileStream все что мы можем юзать. :)

>> вычитать все данные, модифицировать, записать на диск.

Речь идет об очень больших файлах, в которые нужно записывать часто по случайным позициям.

Написано более трёх лет назад
Denis Antonenko @dabrahabra

Верно, именно так и должен сработать FileOptions.WriteThrough =)) - фактически без него система всёравно использует кеширование, что немного сглаживает ситуацию, когда Вы делаете изменения в пределах одного блока. А с этим флагом вы заставляете отправлять данные на диск при каждом Write.
.NET хорошо, но реализацию в железе никуда не денешь, TRIM есть, и за него отвечает операционная система. Попробуйте вариант без FileOptions.WriteThrough + увеличте буфер в FileStream, по умолчанию он равен 4kb. Сравните как это повлияет на производительность.

Написано более трёх лет назад
Denis Antonenko @dabrahabra

Если вы не видите других решений, и random write единственный вариант, то для начало нужно проанализировать насколько он random, может получится загружать и модифицировать более или менее крупные блоки. Как альтернативу могу предложить такой вариант: создавать временный файл и переписывать содержимое старого файла в новый попутно изменяя данные, тогда вместо random write Вы получите sequential read+write. Если изменений много то этот вариант выиграет у random write. Но это зависит от того сможете ли Вы реализовать такой алгоритм.

Написано более трёх лет назад
MilkyCoder @MilkyCoder Автор вопроса

Denis Antonenko: Мне нравится ваш оптимизм :). Менять позицию блоков в файле нельзя, а random там действительно непредсказуемый т.к. зависит от действий пользователей. Размер буфера мало на что влияет. Есть же тест в топике, попробуйте сами. ) Мне видится один выход, попробовать поюзать WIN API, есть подозрения что FileStream реализован через жо, что не редкость в .Net к сожалению.

Написано более трёх лет назад
Denis Antonenko @dabrahabra

Всё в .NET неплохо реализовано. Удачи с WinAPI

Написано более трёх лет назад

Комментировать

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+2 ещё

Средний
Почему не работают bindings в MassTransit(RabbitMQ)?
- 1 подписчик
- 48 минут назад
- 14 просмотров
0

ответов
C#

+2 ещё

Простой
Как добавить данные из БД в отредактированный DataGrid (C# WPF)?
- 1 подписчик
- 9 часов назад
- 52 просмотра
1

ответ
C#

Простой
Как добавить обработчки каллбеков в Telegram.Bot?
- 1 подписчик
- вчера
- 46 просмотров
0

ответов
C#

+1 ещё

Средний
Почему свойство IsVisible всегда возвращает false (C# WPF)?
- 1 подписчик
- 10 авг.
- 98 просмотров
0

ответов
C#

Средний
Ошибка сценария в веб браузере c#. Почему?
- 1 подписчик
- 06 авг.
- 108 просмотров
2

ответа
C#

+1 ещё

Средний
Где найти чистые исходники мобильного сервера SAMP / CRMP?
- 1 подписчик
- 06 авг.
- 147 просмотров
1

ответ
C#

+1 ещё

Средний
Как получить упорядоченный список элементов графического интерфейса внешнего приложения на c#?
- 2 подписчика
- 05 авг.
- 278 просмотров
2

ответа
C#

+1 ещё

Средний
Как сделать систему сохранений в Unity?
- 1 подписчик
- 05 авг.
- 133 просмотра
1

ответ
C#

Простой
Как лучше всего возвращать ответы?
- 1 подписчик
- 31 июл.
- 127 просмотров
1

ответ
C#

Средний
Как работает TaskCompletionSource, когда возникает исключение?
- 1 подписчик
- 29 июл.
- 99 просмотров
2

ответа
Показать ещё Загружается…

C# разработчик

AMBIM

от 240 000 до 300 000 ₽

Разработчик C# (WPF, EF+SQL) | Удаленно | Автоматизация ЖД

Railog

от 180 000 до 200 000 ₽

Заместитель начальника отдела разработки ПО и АСУ (Team Lead)

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 100 000 до 130 000 ₽

Расскажите больше о задаче. Что за формат файла, от каких именно действий пользователя зависит порядок записи в него, какие глюки вызывали MMF...

PS откройте для себя BitConverter или BinaryWriter. Скорости не прибавится, но код станет проще.
Это NoSQL база данных, стоит ли говорить о причинах рэндома? :)

Answer 1 · 2015-01-30 10:33:45

В SqLite используется WAL (write-ahead log) для ускорения записи в БД. Вы можете сделать так же, превратив тем самым рандомные записи в последовательные.

Answer 2 · 2015-01-29 19:26:00

Можно попробовать использовать MemoryMappedFile:

string path = @"1.dat";
int len = 1024 * 1024;

var rnd = new Random();
var sw = Stopwatch.StartNew();

var b = new byte[4];

Console.WriteLine("Test started");

using (var map = MemoryMappedFile.CreateFromFile(path, FileMode.Create, path, len))
{
  using (var accessor = map.CreateViewAccessor())
  {
    for (var i = 0; i < len / 4; ++i)
    {
      b[0] = (byte)rnd.Next(0, 255);
      b[1] = (byte)rnd.Next(0, 255);
      b[2] = (byte)rnd.Next(0, 255);
      b[3] = (byte)rnd.Next(0, 255);

      accessor.WriteArray(rnd.Next(0, len / 4) * 4, b, 0, 4);
    }
  }
}
      
Console.WriteLine("Test end time - " + sw.ElapsedMilliseconds);
Console.ReadKey();

Answer 3 · 2015-01-29 18:39:03

Вы можете попробовать обойти кэш системы использую флаг WriteThrough: MSDN
НО! SSD дает огромную производительность в random read, но не очень дружит с random write.
Да, по сравнению с HDD он будет быстрее, но Вы заплатите продолжительностью его жизни. И вот почему (не гарантирую 100% точности):

SSD хранит данные блоками по N байт
если нужно изменить один байт в блоке: вычитывается весь блок в память, изменяется байт, очищается блок на SSD, из памяти блок записывается на SSD
для повышении производительности и равномерного изнашивания при стирании и записи блока SSD записывает его по новому местоположению
есть специальная команда TRIM которая дает SSD знать какие блоки уже не используются (были стерты) и могут быть переиспользованы

Соответственно когда Вы принуждаете диск к работе в random write - фактически он оперирует большими блоками, даже если вы пишете по байту.

На Вашем месте я бы положился на кэширование - вычитать все данные, модифицировать, записать на диск.

Answer 4 · 2015-01-30 01:50:34

не знаю точно суть задачи, но если нужна высокая скорость можно смонтировать RAM диск нужного размера и гадить в него со скростью 8Гб в секунду и практически нулевыми задержками(ибо оно висит в RAM), после того как издевательства над файлом заканчиваются его можно сбросить на диск (уже последовательно и максимально быстро, насколько возможно диску)

Answer 5 · 2015-01-30 19:28:58

Seek() назад гораздо медленнее Seek() вперед. Попробуйте заменить
fs.Seek(rnd.Next(0, len / 4) * 4, SeekOrigin.Begin);
на
fs.Seek(len-4*i, SeekOrigin.Begin);
, совсем разочаруетесь.

Если очень нужно "зарандомить" случайные блоки, вычисляем вероятность "зарандомливания", и последовательно пробегаем файл, "рандомя" блоки с вычисленной вероятностью. Время алгоритма будет процентов на 25 длиннее обычного последовательного прогона (в худшем случае).

Как повысть скорость записи случайных блоков?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт