Раз вопрос теоретический, то стоит учесть теоретическую возможность того, что контактный телефон будет не международной записью мобильного (у которой, кстати, тоже есть нюансы), а "8 (4922) 33-33-33 доб. 114, звонить строго с 8 до 17, позвать Аделаиду".
Да и мобильный в реальности может оказаться с ограничением "пиши в вайбер, на хрена мне платить за ваши входящие".
holllop, во-первых, это вообще другая задача, не имеющая ничего общего с "есть 4 одинаковых массива".
Во-вторых, осмысленность таким комбинациям дают связи между данными, для обработки которых, внезапно, придуманы реляционные базы данных.
А в-нулевых, вас так кидает по вопросу, что, похоже, отвечать на него не имеет смысла, поскольку вопроса просто-напросто нет. Теория всего какая-то, а скорее - просто каша в голове вместо задачи.
holllop, вы ищете какое-то абстрактное решение непонятно чего.
А в этой конкретной предметной области все упирается в словарь.
Не имеющий никакой логики, кроме собственно конечного списка.
holllop, мы предлагаем решения той задачи, которую вам удалось сформулировать. Угадывать, что у вас осталось за вопросом, никто не будет. Пока формулировка достаточно дикая, чтобы вменяемого решения не ожидать.
И уж в любом случае - статистика в лингвистике так не работает, можете не натягивать. Ни на буквах, ни на словах.
holllop, вам слово "перебор" запретили или как?
Ну, составьте списки в памяти: слов, которые накрываются каждым из массивов, если он будет первым; слов, которые накрываются каждым вариантом второго массива, третьего и четвертого. Получите полный набор вариантов без перебора.
holllop, по моему опыту работы с буквенными головоломками - на фоне комбинаций из 32 букв все эти частности про пробелы и твердые знаки - щебень и экономия на спичках. Только запутывает код.
Но задача все-таки выворачивается от "перебрать все сочетания букв из всех массивов и каждое прогнать по словарю". Можно разобрать сам словарь и делать перебор только массивов - выбрать, какие из них могут быть первыми, потом к ним вторые, третьи и четвертый, если требуется. Без сверки строк, на пересечении битовых масок, в которые 32 буквы укладываются идеально.
holllop, так вам уже написали - чтобы выяснить, какие комбинации букв дают слова, достаточно эти слова из словаря разложить по буквам. Перебор массивов с попытками что-то из него составить и не нужен.
Только никакой статистики тут не будет.
holllop, при чем тут статистика и закономерности, если все упирается в то, есть слово из таких букв в словаре или нет? Среднестатистически в ваших примерах "мап".
Во-первых - зачем.
Шифровать данные целыми разделами, как правило, на хрен никому не нужно, критичные данные легко влезают в небольшой файл, а Линукс позволяет накидать симлинков, куда надо, и не шифровать общеизвестное.
Zettabyte, дело как раз в человеческом факторе.
Формула "рейд - это надежность" лишает мотивации обеспечивать реальную надежность ;)
Отсутствие рейда на хранилище заставляет более трезво оценивать риски и аккуратнее делать бэкапы.
Только на случай выхода диска из строя. Риск этого события гораздо ниже, чем, скажем, шаловливых ручек самого пользователя, испортивших данные вместе к копией на рейде.
Вообще-то самое простое, что по-прежнему актуально на сегодняшний день - это таки логин с паролем.
Социалки, гуглояндексы, телефоны - это не способы авторизации, а способы деанонимизации.
Очень удобные ошейники, не требующие лишних усилий.
Виктор Кожухарь, заботы о возможности вернуться к "сделано через жопу" - пустое увеличение энтропии.
Обозначенный ТС процесс уже даже Битрикс прошел, стюардесс пора закопать.