Почему сравнение файлов по содержимому существенно медленнее для сетевых шар, чем для USB?

Question

tictac17 @tictac17

Почему сравнение файлов по содержимому существенно медленнее для сетевых шар, чем для USB?

Имеется домашний NAS на базе Windows 10 Pro и процессора i3 на сокете 1150, с 8 ГБ ОЗУ. Расшарено 5 жестких дисков 2-3 ТБ с приличными скоростями - серии WD Black, Seagate Constellation. Подключение к основному компьютеру напрямую через 2.5 Гбит/с адаптеры (больше тогда DAS, чем NAS).

Копирование файлов и их чтение идет на полной скорости жестких дисков, тут претензий нет (до 170 МБ/с). Но вот когда делаю сравнение по содержимому через FreeFileSync или Total Commander, скорость сравнения не поднимается выше 60 МБ/с. Для внешних жестких дисков, подключенных по USB 3.0, скорость сравнения доходит до 100 МБ/с, и это 2.5-дюймовые модели.

И вопрос с жирной звездочкой - почему так и что делать? Известно (через ProcMon), что обе программы читают файлы мелкими блоками по 250 кБ примерно, с флагом "без кэша". Для USB это похоже по барабану, но вот сеть видимо дает задержку где-то. Может есть у кого подобный опыт, параметры для реестра, что-нибудь.. 10 ТБ данных сравнить та еще задача, а периодически делать приходится, файлы важные, раз в год бывает один битый да обнаружится (на NAS).

Вопрос задан 27 нояб. 2024
937 просмотров

12 комментариев

Подписаться 3 Сложный 12 комментариев

alexalexes @alexalexes

Задержки между запросами блоков.
По сети ведь маршрутизировать пакеты нужно, а это стоит времени.
USB тоже не прост, но там маршрутизация всего по 128 потенциальным узлам и нет подсетей, в отличие от сетевых протоколов.

Написано 27 нояб. 2024
Adamos @Adamos

Например, выкинуть с NAS винды и использовать для поставленной задачи не виндокомбайны, а rsync, который не гоняет по сети файлы, обходясь достаточными для сравнения чексуммами. Ну, и папки читает на месте, а не перечитывает постоянно - вдруг удаленная изменилась.

Написано 27 нояб. 2024
Akina @Akina

когда делаю сравнение по содержимому через FreeFileSync или Total Commander, скорость сравнения не поднимается выше 60 МБ/с.

Ну сразу вопрос - оба сравниваемых файла находятся на дисках NAS, или один там, а второй локальный?

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

Adamos, мне винду с NAS не выкинуть. Это для дома, Linux там избыточен и потенциальный источник проблем, которые не хочется решать, дом не работа всё-таки. Взять хотя бы имена файлов - 140 знаков на кириллице и на Linux с винды такой файл не скопируется, ищи их потом и переименовывай. Плюс наличие винды дает мне возможность в случае чего прогнать викторию и другие привычные виндовые утилиты. И т.д. и т.п. Сравнение по содержимому делаю раз в полгода, хочется понять как ускорить.

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

Akina, первый файл на локальном SATA HDD, второй на NAS. Бэкаплю домашний комп на NAS.

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

alexalexes, а это можно как-то ускорить? Jumbo-фреймы вот к примеру я пробовал, разницы не увидел. Зато разница на несколько МБ/с была при смене гигабита на 2.5G.

Написано 27 нояб. 2024
Владимир Дубровин @z3apa3a

Какие диски вы используете при подключении по USB? Файлы сравниваете с одного диска или между двумя дисками?

Написано 27 нояб. 2024
Владимир Дубровин @z3apa3a

> обе программы читают файлы мелкими блоками по 250 кБ примерно, с флагом "без кэша"

при таком подходе вы сильно зависите от многих параметров, включая конкретные тайминги между операциями чтения, размеры дорожек, алгоритмы кеширования и размер кеша в самом диске и даже расположение файла по дорожкам, алгоритмов упреждающего чтения на диске и в системе (в частности установки флага SEQUENTIAL_READ).

суть примерно в следующем - когда приходит очередная команда чтения, то, насколько быстро вы сможете считать данные даже при последовательном чтении будет зависеть от текущего угла поворота диска (а при непоследовательном еще и от позиции головки). Если вам повезло, вы попадаете на нужный угол и начинаете считывать данные практически сразу, если не повезло - то придется ждать полного проворота диска и даже при последовательном чтении скорость падает в разы (разные дорожки имеют разный размер в зависимости от удаления от центра и на дорожку может приходиться несколько мегабайт, вместо чтения которых вы ждете проворота). Вполне может быть что на более мелком диске и при локальном подключении вы попадаете удачно, а на большом диске при подключении по сети ждете когда он провернется. При этом задержка при подключении по сети всегда будет выше (потому что расстояния больше) и вполне может быть что диск успевает провернуться на следующий сектор и вам приходится ждать полный оборот, когда при локальном подключении не успевает и вы считываете неприрывно. Эту проблему должно смягчать упреждающее чтение, но видимо как-то с ним не повезло.

Написано 27 нояб. 2024
Aetae @Aetae

Могу предположить что с USB он просто сразу читает, а по сети он качает, пишет на диск, читает с диска. И, соответственно, надо искать решения которые работают сразу напрямую с потоком из сети без промежуточных шагов.
Но сначала проверить так ли это, само собой, ибо не поручусь.:)

Написано 28 нояб. 2024
tictac17 @tictac17 Автор вопроса

Aetae, там только реалтайм сравнение, напрямую

Написано 28 нояб. 2024
tictac17 @tictac17 Автор вопроса

Владимир Дубровин, по USB обычная механика, только в 2.5 форм-факторе. Сравнение между локальным внутренним SATA и внешними USB / NAS.

Написано 28 нояб. 2024
Владимир @kext

Попробуйте RoboCopy использовать. Мой пример для тех же задач (robocopy D:\ E:\ * /Z /mir /XD D:\$RECYCLE.BIN )

Написано 28 нояб. 2024

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Merion Academy

Администрирование MS Windows Server

1 месяц

Далее
Skillbox

Специалист по кибербезопасности 2.0/ Этичный хакер

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

5 комментариев

tictac17 @tictac17 Автор вопроса

Контрольные суммы (я пользуюсь HashCheck Shell Extension) хотел оставить на крайний случай, т.к. хоть и с околонулевой вероятностью, но возможны коллизии, а сравнение "байт с байтом" гарантирует 100% надежность. И чуть больше лишних телодвижений нужно проделать, в отличии от скрипта на FreeFileSync.

Написано 27 нояб. 2024
Zettabyte @Zettabyte

tictac17,
хоть и с околонулевой вероятностью, но возможны коллизии

Вероятность того, что вы проведёте незабываемую ночь с несколькими победительницами крупных традиционных конкурсов красоты одновременно и бесплатно, очень многократно выше, чем вероятность коллизии для случайного изменения случайных (т.е. реальных) файлов.

Написано 27 нояб. 2024
youngMaster @youngMaster

Zettabyte, я бы не был так категоричен, лично я видел минимум 3 разных торрента с одинаковыми хешами, а у меня их точно и 10 тысяч не наберётся.

Написано 05 дек. 2024
Zettabyte @Zettabyte

youngMaster,
я бы не был так категоричен, лично я видел минимум 3 разных торрента с одинаковыми хешами

Некогда разбираться глубже, но у торрентов хэшируются далеко не файлы:
- https://stackoverflow.com/questions/28140766/hash-...
- https://stackoverflow.com/questions/19749085/calcu...

Иначе вы могли бы взять один из тех торрентов и раздавать под видом другого.

Написано 21 дек. 2024
youngMaster @youngMaster

Zettabyte, Сути не меняет, коллизии хэшей бывают и совсем не так редко как хотелось бы.

Написано 21 дек. 2024

12 комментариев

Adamos @Adamos

Демон rsync уже много лет успешно срезает эти углы, вообще-то.

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

Через FreeFileSync, как я писал, тоже самое. Там чтение в один поток на диск. Хочется понять, почему USB быстрее быстрой сети в два раза именно и только на сравнении файлов. Там даже не случайный доступ же.

Написано 27 нояб. 2024
Ivan Ustûžanin @IvanU7n

tictac17, ну так USB ЕМНИП 5Gb/s, а сеть у вас 2.5Gb/s, вот в два раза и получается

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

Ivan Ustûžanin, но простое копирование идет одинаково быстро. А сравнение идет с разницей в два раза. А HDD - это бутылочное горлышко с лимитом 170 МБ/с (или 1300 МБит/с) и медленным случайным доступом. Что-то не сходится, совсем не сходится, сеть в два раза по пропускной способности перекрывает возможности диска)

Написано 27 нояб. 2024
mayton2019 @mayton2019

Adamos, может быть rsync использует квантовую телепортацию фотонов? Или запускает
процесс в окрестности черной дыры?

Не знаю. Но алгоритм comparison по прежденму требует наличия всех байтов всех файлов
для процессинга.

Написано 27 нояб. 2024
Adamos @Adamos

mayton2019, rsync разбивает файлы на блоки, считает от них контрольные суммы - и гоняет по сети только их. Соответственно, работает со скоростью локального диска.

Написано 27 нояб. 2024
Ziptar @Ziptar

Adamos,

разбивает файлы на блоки, считает от них контрольные суммы - и гоняет по сети только их. Соответственно, работает со скоростью локального диска.

для этого на обоих хостах должны быть агенты, которые будут заниматься разбивкой, это не срезание углов, это другая процедура с более сложной организацией

Написано 27 нояб. 2024
Adamos @Adamos

Ziptar, поэтому я и написал - "демон rsync". Он берет на себя эту задачу на удаленном хосте.
Но при этом не требует каких-то хитростей, покупок и настроек - штатно запускается на любой Убунте.
Уж если на удаленном сервере создано какое-то хранилище, завести там этого демона - совершенно не проблема.

Написано 27 нояб. 2024
mayton2019 @mayton2019

Adamos, я думаю что автору с его конфигурацией это не пригодится.

Написано 27 нояб. 2024
Adamos @Adamos

mayton2019, ну, вообще-то, можно поискать, в каком объеме инфраструктура rsync портирована на винды и обязательны ли костыли типа cygwin...
Или, возможно, кто-то повторил технологию в своем Win-продукте.
Но мне-то оно точно не надо ;)

Написано 27 нояб. 2024
mayton2019 @mayton2019

Все эти демоны, которые строят дерово Меркла по факту - промышленные конфигурации.
И если у парня просто лежат телесериалы или проекты фотошопа то нет ему никакого
смысла эту избыточность подимать. Раз в год сравнить файлы и так нормально.

Иногда простая конфигурация лучше чем сложная. Я себе дома и zfs поднимал и БД Oracle у меня
крутился круглосуточно. Потом все равно все это снес потому что домашний десктоп он - домашний.
И лишние активности пингование диска мне незачем.

Написано 27 нояб. 2024
tictac17 @tictac17 Автор вопроса

mayton2019, совершенно верно.

Написано 28 нояб. 2024

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+1 ещё

Средний
Как задать приоритет трафика в локальной сети на OpenWRT?
- 2 подписчика
- 13 часов назад
- 125 просмотров
1

ответ
Windows

Простой
Как ассоциировать файл .fb2 с okular?
- 1 подписчик
- 17 часов назад
- 100 просмотров
0

ответов
Windows

+1 ещё

Простой
Удаление кэшированного пароля Windows — как?
- 3 подписчика
- 14 нояб.
- 354 просмотра
3

ответа
Компьютерные сети

+2 ещё

Средний
Есть ли РЕАЛЬНЫЕ способы обойти блок при беспилотной опасности?
- 6 подписчиков
- 13 нояб.
- 2863 просмотра
2

ответа
Компьютерные сети

+1 ещё

Простой
Какой самый дешевый роутер взять, чтобы подключить USB модем к нему и читать входящие смски?
- 1 подписчик
- 11 нояб.
- 450 просмотров
6

ответов
Компьютерные сети

Простой
Отключается ли при БПЛА проводной интернет?
- 1 подписчик
- 11 нояб.
- 757 просмотров
3

ответа
Компьютерные сети

+3 ещё

Средний
Какие есть варианты для получения ploam из gpon'a мгтс ts-4000?
- 1 подписчик
- 11 нояб.
- 215 просмотров
2

ответа
Windows

Простой
Как решить ошибку StartupRepairOffline если она появилась из-за сна на клавиатуре?
- 1 подписчик
- 10 нояб.
- 111 просмотров
0

ответов
Компьютерные сети

+2 ещё

Простой
К внутреннему серверу можно подключиться только из вне. Почему?
- 1 подписчик
- 10 нояб.
- 346 просмотров
1

ответ
Windows

Простой
Какую в Windows стороннюю программу для копирования использовать?
- 1 подписчик
- 06 нояб.
- 341 просмотр
6

ответов
Показать ещё Загружается…

Специалист первой линии поддержки

Ай Ти без проблем • Санкт-Петербург

от 55 000 до 90 000 ₽

Инженер по безопасности ИТ-инфраструктуры

SMALL

от 2 800 до 3 800 $

Специалист технической поддержки (чат)

WebSoft

от 50 000 до 70 000 ₽

Задержки между запросами блоков.
По сети ведь маршрутизировать пакеты нужно, а это стоит времени.
USB тоже не прост, но там маршрутизация всего по 128 потенциальным узлам и нет подсетей, в отличие от сетевых протоколов.
Например, выкинуть с NAS винды и использовать для поставленной задачи не виндокомбайны, а rsync, который не гоняет по сети файлы, обходясь достаточными для сравнения чексуммами. Ну, и папки читает на месте, а не перечитывает постоянно - вдруг удаленная изменилась.
когда делаю сравнение по содержимому через FreeFileSync или Total Commander, скорость сравнения не поднимается выше 60 МБ/с.

Ну сразу вопрос - оба сравниваемых файла находятся на дисках NAS, или один там, а второй локальный?
Adamos, мне винду с NAS не выкинуть. Это для дома, Linux там избыточен и потенциальный источник проблем, которые не хочется решать, дом не работа всё-таки. Взять хотя бы имена файлов - 140 знаков на кириллице и на Linux с винды такой файл не скопируется, ищи их потом и переименовывай. Плюс наличие винды дает мне возможность в случае чего прогнать викторию и другие привычные виндовые утилиты. И т.д. и т.п. Сравнение по содержимому делаю раз в полгода, хочется понять как ускорить.
Akina, первый файл на локальном SATA HDD, второй на NAS. Бэкаплю домашний комп на NAS.
alexalexes, а это можно как-то ускорить? Jumbo-фреймы вот к примеру я пробовал, разницы не увидел. Зато разница на несколько МБ/с была при смене гигабита на 2.5G.
Какие диски вы используете при подключении по USB? Файлы сравниваете с одного диска или между двумя дисками?
Могу предположить что с USB он просто сразу читает, а по сети он качает, пишет на диск, читает с диска. И, соответственно, надо искать решения которые работают сразу напрямую с потоком из сети без промежуточных шагов.
Но сначала проверить так ли это, само собой, ибо не поручусь.:)
Aetae, там только реалтайм сравнение, напрямую
Владимир Дубровин, по USB обычная механика, только в 2.5 форм-факторе. Сравнение между локальным внутренним SATA и внешними USB / NAS.
Попробуйте RoboCopy использовать. Мой пример для тех же задач (robocopy D:\ E:\ * /Z /mir /XD D:\$RECYCLE.BIN )

Answer 1 · 2024-11-27 15:56:28

когда делаю сравнение по содержимому через FreeFileSync или Total Commander, скорость сравнения не поднимается выше 60 МБ/с

Возможно, идёт какое-то неоптимальное параллельное чтение, порождающее "двойную параллель" - и в передаче по сети, и при чтении с дисков.

и что делать?

Рассмотрите как вариант создание файлов-списков с контрольными суммами (хэшами).

Существует немало программ для этого, вот пара вариантов, точно поддерживающих много папок, в т.ч. вложенных:

Answer 2 · 2024-11-27 16:35:10

Total Commander - это хитрая штука. Она например может копировать файлы в несколько сессий.
Иногда это дает буст к скорости копирования а иногда может оказать "медвежью услугу" для некоторых
источников которые плохо параллелятся.

Провертье настройки Total Commander.

Вообще comparison требует сравнения всего содержимого файлов поэтому по сложности он эквивалентен
копированию "со всех шар" к себе в память. И срезать здесь углы нигде невозможно.

Почему сравнение файлов по содержимому существенно медленнее для сетевых шар, чем для USB?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт