Как проверить 500 000 файлов word,exel,pdf ,txt что они не битые?

Question

aleks-th @aleks-th

Как проверить 500 000 файлов word,exel,pdf ,txt что они не битые?

Немного сумбурно излагаю, но возникла задача глупая.

Есть файлопомойка, много много файлов огромное дерево каталогов со сложной иерахией, куда юзеры пишут файло лет 10 наверное.
В принципе бекапы файлов есть, все работает.
Где-то всего там лежит гигов 500 всякого.
---
Тут произошел инцидент на днях, пользователь скопировал одну папку саму в себя.
Винда честно ругнулась что все сломает, юзер честно сказал - ломай.
Соотвественно от файлов остались название и нечитаемое содержимое, файл читается но там абракодабра.
Я как обычно когда ломается, из бекапа вытащил эту папку ничего не потерялось, но заставило сильно призадумался.
Заела меня паранойя.
---
Всегда проверяли выборочно архив путем развертывания и проверки что файлы есть и читаются.
Естественно выборочно, так как 500000 файлов никто проверить в здравом уме не сможет.
---
Но в данном случае если юзер ничего не скажет, а файло уйдет в архив и условно через полгода, в архивах останутся только битые файлы в какой-то папке которую не заметили и пропустили.
---
Как бы придумать как проверять файлы именно на читаемость содержимого в автомате, чтоб скажем раз в месяц прогонять копию, чтобы проверить открываются эти файлы или нет.

Вопрос задан 25 сент. 2024
4195 просмотров

5 комментариев

Подписаться 5 Простой 5 комментариев

xotkot @xotkot

Как бы придумать как проверять файлы именно на читаемость содержимого в автомате, чтоб скажем раз в месяц прогонять копию, чтобы проверить открываются эти файлы или нет.

файл читается но там абракодабра

я так понимаю что пользователь/и имеют полный доступ к базе, а это значит что документы могут быть в любой момент произвольно изменены, то есть, открытие файла и/или наличие в нём абракадабры это пол беды которая сразу укажет на проблему, а вот если там будет читаемая но немного искаженная информация ? возможно в таком случае стоит ввести какое либо версионирование содержимого

Написано 25 сент. 2024
aleks-th @aleks-th Автор вопроса

xotkot,
---
менять документы маловероятно что кто-то будет, выгоду он от этого не получит.
Смысла как бы нет .
Есть документ ворд, есть pdf на случай если ворд сохранят с другими данными.
Есть переписка с клиентом где идет обмен этими доками.
Есть бумажная копия - в двух разных местах - в архиве и у клиента в конце концов.
И главный документ как раз бумажная копия с подписями и печатями в архиве.
---
А доки в базе, как бы на основе них генерируют новые доки в основном.
Как только документ подписал клиент, и бумажная копия положилась в архив , этот файл становится неактуальным, архивным и что-то с ним делать - нет смысла.

Ну даже если предположить что злоумышленник поменял что-то, когда дело дойдет до разбирательств обе стороны вытащат именно бумажную версию, и на основе бумажных версий будет разбирательство , нет смысла что-то подделывать в электронной...
--
Как раз проверять именно архив который потом уйдет в долгосрочное хранение нужно на то, что файлы просто живые и открываются, перед тем как их в архив запаковать.

Написано 26 сент. 2024
swoopspb @swoopspb

"Как только документ подписал клиент, и бумажная копия положилась в архив , этот файл становится неактуальным, архивным"
Ну так и оставьте пользователям доступ только на чтение

Написано 27 сент. 2024
aleks-th @aleks-th Автор вопроса

swoopspb, если бы сложное наследие решилось таким простым способом.
А об этом долго думал, пришел к выводу что на данном этапе этого не получится.

Как итого рано или поздно переведу их на базу данных, чтобы с файловой системой они не работали, но пока сложившуюся за годы практику ломать нельзя пока нет альтернативы.

Написано 27 сент. 2024
Денис _______________ @LuchS-lynx

aleks-th,
Для Вашей задачи есть специализированные файловые системы на базе Линукса, та же ZFS и BTRFS
https://ru.wikipedia.org/wiki/ZFS
https://ru.wikipedia.org/wiki/Btrfs
Кроме того для минимизации потерь на серверах рекомендуется использовать ECC память. Вручную можно сравнивать через хэш-суммы, например тот же Total Commander/Double Commander позволяют сосчитать хэши для файлов во всем дереве папок и вывести их в текстовый файл. В notepad++ есть плагин compare, однако есть и другие инструменты, позволяющий(ие) сравнивать содержимое двух файлов между собой.
Так же эту проблему можно решать через бэкапы, через виртуализацию, через БД... т.е. есть множество инструментов. Но, как по мне, смена ОС с windows на linux будет максимально эффективно.

Написано 28 сент. 2024

Решения вопроса 3

Комментировать

2 комментария

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

4 комментария

aleks-th @aleks-th Автор вопроса

Не получится, файлы редактируют юзеры, добавляют меняют, они будут менятся., и контрольные суммы будут менятся.

Если бы они были неизменные я бы им на папки права дал readonly и проблемы бы просто не стало.

Хотя кстати PDF можно выделить и считать у них контрольную сумму, а вот во всякие доки и тексты надо лезть будет.

Написано 27 сент. 2024
mxelgin @mxelgin

aleks-th, Если редактируются значит рабочие. вам надо не рабочие так сверяйтесь по контрольной сумме. Все что надо знать время инцидента

Написано 03 окт. 2024
kisskin @kisskin

считать контрольную сумму на порядок трудозатратней в сравнении с проверкой сигнатур типа 10 байтов в начале и 10 байтов в конце файла, только в сравнении с проверкой архиватором будет выигрыш...

Написано 04 окт. 2024
swoopspb @swoopspb

kisskin, вообще не затратно просто проверять архивный атритут файлов :)

Написано 04 окт. 2024

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows Server

+2 ещё

Простой
Как проверять резервные копии виртуальных машин Hyper-V?
- 1 подписчик
- 10 часов назад
- 37 просмотров
1

ответ
Резервное копирование

Простой
Как лучше всего бекапить общие папки?
- 1 подписчик
- 13 февр.
- 105 просмотров
2

ответа
1С-Битрикс

+3 ещё

Простой
Удаленный документ доступен на сайте Bitrix?
- 1 подписчик
- 11 февр.
- 65 просмотров
0

ответов
Резервное копирование

+1 ещё

Простой
Где дешевле всего купить 10 Тб облачного места?
- 5 подписчиков
- 28 янв.
- 9145 просмотров
8

ответов
Ubuntu

+2 ещё

Простой
Как правильно дать все права для Immich на Ubuntu?
- 1 подписчик
- 23 янв.
- 190 просмотров
0

ответов
Хранение данных

+1 ещё

Простой
Как бюджетно создать хранилище и сервер для камер видеонаблюдения?
- 2 подписчика
- 23 янв.
- 6004 просмотра
9

ответов
1С

+1 ещё

Средний
Как автоматически проверять резервные копии БД 1С?
- 1 подписчик
- 20 янв.
- 195 просмотров
3

ответа
WordPress

+4 ещё

Простой
Почему при полностью идентичном содержимом файлов (*.js, *.php, *.css) они могут иметь разный вес/размер?
- 1 подписчик
- 17 янв.
- 522 просмотра
2

ответа
Хранение данных

+1 ещё

Средний
Программа для агрегации переписок, звонков и данных, событий с временными метками из разных источников в один таймлайн?
- 1 подписчик
- 17 янв.
- 121 просмотр
1

ответ
JavaScript

+2 ещё

Средний
Как анализировать JS и PHP ошибки на своем сайте?
- 1 подписчик
- 16 янв.
- 246 просмотров
3

ответа
Показать ещё Загружается…

Преподаватель курса по информационной безопасности

Eltex • Новосибирск

от 130 000 ₽

Java Quantitative Developer

Dijkstra Markets

от 200 000 до 400 000 ₽

Web Разработчик / Fullstack

AvanChange

от 300 000 до 700 000 ₽

Парсинг доски объявлений (ав…)

20 февр. 2025, в 05:25

20000 руб./за проект

Телеграм бот (Python, FastAPI, Mssql)

20 февр. 2025, в 05:00

15000 руб./за проект

Натянуть верстку на Bitrix

19 февр. 2025, в 21:51

50000 руб./за проект

Как бы придумать как проверять файлы именно на читаемость содержимого в автомате, чтоб скажем раз в месяц прогонять копию, чтобы проверить открываются эти файлы или нет.

файл читается но там абракодабра

я так понимаю что пользователь/и имеют полный доступ к базе, а это значит что документы могут быть в любой момент произвольно изменены, то есть, открытие файла и/или наличие в нём абракадабры это пол беды которая сразу укажет на проблему, а вот если там будет читаемая но немного искаженная информация ? возможно в таком случае стоит ввести какое либо версионирование содержимого
xotkot,
---
менять документы маловероятно что кто-то будет, выгоду он от этого не получит.
Смысла как бы нет .
Есть документ ворд, есть pdf на случай если ворд сохранят с другими данными.
Есть переписка с клиентом где идет обмен этими доками.
Есть бумажная копия - в двух разных местах - в архиве и у клиента в конце концов.
И главный документ как раз бумажная копия с подписями и печатями в архиве.
---
А доки в базе, как бы на основе них генерируют новые доки в основном.
Как только документ подписал клиент, и бумажная копия положилась в архив , этот файл становится неактуальным, архивным и что-то с ним делать - нет смысла.

Ну даже если предположить что злоумышленник поменял что-то, когда дело дойдет до разбирательств обе стороны вытащат именно бумажную версию, и на основе бумажных версий будет разбирательство , нет смысла что-то подделывать в электронной...
--
Как раз проверять именно архив который потом уйдет в долгосрочное хранение нужно на то, что файлы просто живые и открываются, перед тем как их в архив запаковать.
"Как только документ подписал клиент, и бумажная копия положилась в архив , этот файл становится неактуальным, архивным"
Ну так и оставьте пользователям доступ только на чтение
swoopspb, если бы сложное наследие решилось таким простым способом.
А об этом долго думал, пришел к выводу что на данном этапе этого не получится.

Как итого рано или поздно переведу их на базу данных, чтобы с файловой системой они не работали, но пока сложившуюся за годы практику ломать нельзя пока нет альтернативы.
aleks-th,
Для Вашей задачи есть специализированные файловые системы на базе Линукса, та же ZFS и BTRFS
https://ru.wikipedia.org/wiki/ZFS
https://ru.wikipedia.org/wiki/Btrfs
Кроме того для минимизации потерь на серверах рекомендуется использовать ECC память. Вручную можно сравнивать через хэш-суммы, например тот же Total Commander/Double Commander позволяют сосчитать хэши для файлов во всем дереве папок и вывести их в текстовый файл. В notepad++ есть плагин compare, однако есть и другие инструменты, позволяющий(ие) сравнивать содержимое двух файлов между собой.
Так же эту проблему можно решать через бэкапы, через виртуализацию, через БД... т.е. есть множество инструментов. Но, как по мне, смена ОС с windows на linux будет максимально эффективно.

Answer 1 · 2024-09-25 21:54:23

"Новые" офисные форматы (.docx, .xlsx, ...) - это по факту zip-архивы.

Новый (пустой) документ Excel распакуется в виде, ЕМНИП, шести папок и примерно десятка файлов.

Соответственно, их целостность можно проверить с помощью 7-Zip.

Но с .pdf такой фокус не пройдёт.

Текстовые файлы можно проверить с помощью анализа энтропии. Но тут вам потребуется понимание этого дела и, с определённой вероятностью, базовое умение программировать.

Анализаторы энтропии встроены в некоторые инструменты для data recovery, но они работают немного по-другому и с накопителями в целом.
Утилиты для отдельных файлов я сходу не назову, хотя почти уверен, что она должна существовать. Поищите в составе инструментов для forensic в духе Kali Linux и подобного.
Также посмотрите что используют те, кто анализируют прошивки, дампы чипов, и занимаются подобным реверс-инжинирингом.

Когда мне несколько лет назад потребовалась схожая программа, отображающая энтропию, я подходящего ничего не нашёл, в итоге писал не самый прямой костыль сам.

Answer 2 · 2024-09-25 23:58:56

Я-бы поделил файлы word,exel,pdf ,txt на группы.

1) Aрхивы docx, xlsx. Как выше заметил один джентльмен их можно проверить любой
утилитой которая умеет читать zip и делать zip -t (test) с выводом статуса в errorlevel.
Автоматизировать можно либо bash либо python скриптом.

Если архив целый (контрольные суммы совпали) то и документ почти 100% не поврежден.

2) Офисные документы старого формата (doc/xls). Здесь я-бы парсил их через apache POI
(это java библиотека). Это разработка. Но простая. На 1 story point. Я думаю
любой первокурсник напишет.

3) Adobe документы. Масса вариантов. Есть автоматизация с помощью bash/python
и консольными тулзами. Я перечислю тулзы которые есть под линукс и которые читают
pdf.

- pdfimages
- pdfextract
- pdftoppm

Напомню что почти все они должны в случае неуспеха генерировать статус код не нулевой.
Это будет критерий проверки.

4) Прочие текстовые документы. Неструктурированные. Я тут честно не знаю как их проверять.
Но допустим если они содержат текст в кодировке win-1251 то любой криптохакер
с cryptohack вам быстро напишет скриптик для проверки что гистограмма или биграмма
соотвествует примерно тексту и национальным признакам. Если файл будет в нулях
или в рандомном шуме то какой-то критерий не сработает. Здесь надо подумать
и просто глазами посмотреть на эти документы. Возможно большая часть из них
это бланки - и тогда надо чекать наличие просто каких-то шаблонов.

Answer 3 · 2024-09-25 21:14:12

Макросы msword, их даже с нуля писать не придется, так как там есть механизм записи макроса - запускаешь запись, делаешь какие то действия, останавливаешь - он показывает сгенерированный код макроса, выполняющий эти действия, добавляешь в код проверки на ошибку, заворачиваешь в цикл и готово - код простейший - взять следующее имя файла из списка, открыть файл, проверить на ошибку, закрыть файл, повторять до окончания списка.

Так же можно делать все то же самое из любого другого языка программирования, я помню делал что то похожее на c# в visual studio, это удобнее чем писать на vbscript.
https://learn.microsoft.com/ru-ru/dotnet/csharp/ad...

Answer 4 · 2024-09-26 22:45:19

у doc/xls есть стандартный заголовок. Его наличие не гарантирует, что остальное целое, но с вероятностью 1E+12
гарантирует что там был офисный документ.

у pdf тоже есть и заговолок и маркер конца.

Тектстовые файлы проверять на попадание в диапазон текстовых и т.п. символов. Либо на отсутствие непечатных символов. Можно регистры текста проверять, но тут будет немало ложных срабатываний.

Такие варианты проверок будут самыми быстрыми, но софт придется самому делать, хотя тут делов на один вечер.

Answer 5 · 2024-09-27 13:01:35

Самый простой и универсальный для всех типов файлов способ - ежедневно/еженедельно сверять контрольную сумму и сигнализировать если она изменилась.
Ещё можно играться с архивным атрибутом файлов.
Всё это гораздо менее ресурсозатратно чем тестировать каждый документ архиватором.
Да, на абракадабру не проверит, но это можно сделать вторым этапом

Answer 6 · 2024-09-27 15:56:12

Нет смысла возиться, сделай слепок текущий рабочий и забейте, если надо вернётесь к нему он никуда не денется

Answer 7 · 2024-09-27 14:59:16

Вдогонку методам проверки текстовых файлов, как уже говорили присутвующие, простой способ - узнать, если ли в тексте нечитаемые или системные символы, кроме часто используемых в тексте, типа пробела или переноса строки. Большое их количество по отношению к размеру будет явным критерием повреждения осмысленного текста.

Как проверить 500 000 файлов word,exel,pdf ,txt что они не битые?

Войдите, чтобы написать ответ

Как проверять резервные копии виртуальных машин Hyper-V?

Как лучше всего бекапить общие папки?

Удаленный документ доступен на сайте Bitrix?

Где дешевле всего купить 10 Тб облачного места?

Как правильно дать все права для Immich на Ubuntu?

Как бюджетно создать хранилище и сервер для камер видеонаблюдения?

Как автоматически проверять резервные копии БД 1С?

Почему при полностью идентичном содержимом файлов (.js, .php, *.css) они могут иметь разный вес/размер?

Программа для агрегации переписок, звонков и данных, событий с временными метками из разных источников в один таймлайн?

Как анализировать JS и PHP ошибки на своем сайте?

Минуточку внимания

Как проверить 500 000 файлов word,exel,pdf ,txt что они не битые?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт