Я писал, что до 2005 алгоритмов умышленного построения не было — это говорит о многом.
Ваш термин «лавинный эффект» я называю «парадоксом дней рождения», как это принято в криптографии (см. раздел «Приложения»). Его действие учтено мною — я отдельно это подчеркнул в посте про расчет вероятности первой случайной коллизии.
На моей выборке 17051 уникальных MD5 и 17051 уникальных SHA-1 из 18569 файлов. Файлы примерно однотипные, длиной от 3000 до 15000 байт.
Если я правильно понял последнее сообщение, Вы указываете на то, что случайно может сформироваться коллизия из-за того, что хеш — суть детерминированный алгоритм и если его применить над слегка отличающимися данными, то возможны совпадения?
Поверьте, ученые 14 лет (с 1991 по 2005) искали возможность умышленно построить ну хоть какие-нибудь коллизии к MD5 — безуспешно.
По «парадоксу дней рождения» для появления первой коллизии с вероятностью 1/2 для хеш-функции разрядностью 128 бит, необходимо создать 2^64 объектов (в нашем случае файлов).
Если каждый житель земли (2^33) будет создавать ежесекундно днем и ночью по одному файлу, то первая коллизия на земном шаре произойдет примерно через 64 года.
P.S. Кстати, как Вы себе представляете базу на (2^64) файлов? Если каждая картинка хотя бы 10 байт, то Вам потребуется 167.772.160 Терабайт.
Минимальная идентификация клиента нужна для исполнения норм Гражданского Кодекса при заключении любого договора, не важно на хостинг или на оптовую продажу колбасы.
Полная идентификация нужна согласно 115-ФЗ в случаях, когда перечисляемые денежные средства превышают в последней редакции 15.000 рублей (раньше было 60.000). Что именно собирается по 115-ФЗ — написано в самом законе, но и соответственно сбор в его исполнение выпадает из-под зоны ответственности 152-ФЗ. А хранить собираемые по 115-ФЗ данные нужно 5 лет после последней сделки с клиентом.
Обработка персональных данных разрешается без уведомления РКН и без получения согласия, если обработка производится во исполнение ФЗ, однозначно определяющего «цель, условия получения персональных данных и круг субъектов, персональные данные которых подлежат обработке, а также определяющего полномочия оператора».
Попадает ли 126-ФЗ «О связи» под все эти 4 условия — не знаю, нужно читать его нормы. Пока я ни одного из пунктов в его тексте не вижу.
Ну Вы же наверняка и 22-ую статью тогда читали про исключения при отправке Уведомления.
А хостинг скорее всего закроется п.2, т.к. договор у Вас с ним есть, а третьим лицам он Ваши данные не передает.
Получаются Ваши конклюдентные действия по передаче ему Ваших персональных данных для оказания Вам услуги.
А если Вы вдруг индивидуальный предприниматель, то — вообще бесправное в отношении 152-ФЗ лицо, т.к. это явно указано в статье 1.
Вот этого я кстати тоже не понимаю. Почти все мои статьи проходили через короткий минусовой интервал в самом начале голосования. С чем он связан — для меня загадка…
Методика, если ее можно назвать таковой, предельно проста и конечно может вызвать множество нареканий от профессионалов в этой области. Собственно поэтому я и задал этот вопрос (отвечаю на вопрос artyomst) и поэтому привел методику в самом вопросе:
В сети (в основном конечно в форумах с просьбой «полечить») я нашел 3200 ссылок на прошедшие на VirusTotal-е анализы, скачал результаты wget-ом, обработал. Получил 2500 фактов, когда как минимум 8 антивирусных движков сказали на экземпляре «фас» и выяснил, что именно это были за движки (отсортировал их по частоте срабатывания).
1. Да, я понимаю, что факт отправки экземпляра на VT обычно представляет собой где-то начало или середину временного периода ознакомления антивирусных компаний с экземпляром. Поэтому, через неделю-две на этот же экземпляр срабатываний будет гораздо больше. Но мне собственно и интересен рейтинг именно в середине этого процесса — чьи аналитики раньше/быстрее получают экземпляры из feedback либо чьи эвристики являются более жесткими.
2. Я понимаю, что есть проблема ложных срабатываний (это к вопросу об эвристиках больше). Сейчас порог выбран в 8 движков, признающих экземпляр вирусом. Давайте еще жестче загрубим планку — например, в 12-15 срабатываний? Тогда я думаю сомнений не останется в отсеивании 99% false positive.
3. Я понимаю риск наличия условных вероятностей и зависимостей, из-за того, что я не сам отправлял на анализ экземпляры, а выбрал готовые результаты из Инета за 2010 и 2011 год. Однако, считаю, что сам объем выборки в 3200 штук всё же делает эту проблему менее актуальной и переводит исследование в разряд репрезентативных.
Теперь, собственно по Вашему вопросу: я проводил исследование для себя. Воспринимайте его как один из множества альтернативных. Своей цели я достиг — для себя результатом доволен. Именно из-за непрочности методики я вынес вопрос «интересны ли подобные результаты Хабру ?» в Q/A. А серьезная критика — это всегда хорошо. Я постарался максимально снизить риски корреляций и ошибок, насколько это позволяют мои входные данные. Был бы рад увидеть Ваши конструктивные предложения по улучшению этого процесса здесь или в личной почте.
По ЦПУ Microsoft не тормозит — я согласен, но с ним проблема в том, что он очень много забирает ОЗУ и похоже наш сервер начинает достаточно много сбрасывать в swap. С Симантеком наоборот — приемлемо по ОЗУ, но показатели суммарной загрузки ЦПУ просто ужасны.