Zettabyte, ну, раз уж пошли терки за аккуратность обобщений, замечу, что в вашем случае имеет место "ошибка выжившего наоборот". Вы не видите тех клиентов, у которых все хорошо, и ведете статистику только по проблемным. Так что она неизбежно перекошена в негатив.
Впрочем, само наличие такой статистики, конечно, в основном подтверждает сказанное вами.
smir11, по вопросу было "при передаче", а теперь про чтение.
Не пишу на питоне, но могу предположить, что бинарный файл в нем, как и в других языках, читается немножко иначе, чем текстовый, и кодировки тут просто ни при чем.
Раз вопрос теоретический, то стоит учесть теоретическую возможность того, что контактный телефон будет не международной записью мобильного (у которой, кстати, тоже есть нюансы), а "8 (4922) 33-33-33 доб. 114, звонить строго с 8 до 17, позвать Аделаиду".
Да и мобильный в реальности может оказаться с ограничением "пиши в вайбер, на хрена мне платить за ваши входящие".
holllop, во-первых, это вообще другая задача, не имеющая ничего общего с "есть 4 одинаковых массива".
Во-вторых, осмысленность таким комбинациям дают связи между данными, для обработки которых, внезапно, придуманы реляционные базы данных.
А в-нулевых, вас так кидает по вопросу, что, похоже, отвечать на него не имеет смысла, поскольку вопроса просто-напросто нет. Теория всего какая-то, а скорее - просто каша в голове вместо задачи.
holllop, вы ищете какое-то абстрактное решение непонятно чего.
А в этой конкретной предметной области все упирается в словарь.
Не имеющий никакой логики, кроме собственно конечного списка.
holllop, мы предлагаем решения той задачи, которую вам удалось сформулировать. Угадывать, что у вас осталось за вопросом, никто не будет. Пока формулировка достаточно дикая, чтобы вменяемого решения не ожидать.
И уж в любом случае - статистика в лингвистике так не работает, можете не натягивать. Ни на буквах, ни на словах.
holllop, вам слово "перебор" запретили или как?
Ну, составьте списки в памяти: слов, которые накрываются каждым из массивов, если он будет первым; слов, которые накрываются каждым вариантом второго массива, третьего и четвертого. Получите полный набор вариантов без перебора.
holllop, по моему опыту работы с буквенными головоломками - на фоне комбинаций из 32 букв все эти частности про пробелы и твердые знаки - щебень и экономия на спичках. Только запутывает код.
Но задача все-таки выворачивается от "перебрать все сочетания букв из всех массивов и каждое прогнать по словарю". Можно разобрать сам словарь и делать перебор только массивов - выбрать, какие из них могут быть первыми, потом к ним вторые, третьи и четвертый, если требуется. Без сверки строк, на пересечении битовых масок, в которые 32 буквы укладываются идеально.
holllop, так вам уже написали - чтобы выяснить, какие комбинации букв дают слова, достаточно эти слова из словаря разложить по буквам. Перебор массивов с попытками что-то из него составить и не нужен.
Только никакой статистики тут не будет.
holllop, при чем тут статистика и закономерности, если все упирается в то, есть слово из таких букв в словаре или нет? Среднестатистически в ваших примерах "мап".
Во-первых - зачем.
Шифровать данные целыми разделами, как правило, на хрен никому не нужно, критичные данные легко влезают в небольшой файл, а Линукс позволяет накидать симлинков, куда надо, и не шифровать общеизвестное.
После которых, в отличие от высокооплачиваемых видосиков, сюда с примитивными вопросами не прибегают.