Поскольку в теме топика речь не идет о конкретном мессенджере а об множестве - то и решение может быть только обобщенное. Наверное в рамках изменний в ОС или в неком звуковом драйвере который перехватывает голос и пишет. Не знаю как в СНГ но в США считается незаконным писать голос людей без согласования с ними. Иначае - это вроде как слежка или какая-то детективная деятельность. Вобщем вас засудят если будете это публиковать.
Я когда-то искал софт который просто пишет разговор в GoogleMarket но ничего не находил. Такое ощущение что Google выпиливал все такие приложения из магазина.
Насколько оно осмысленно? Первая цифра (4) маркирует систему VIZA следующие 5 или 6 - это банк. После замены у вас там будет 99% одинаковых номеров. Несколько банков. И какой вам толк в логах хранить очевидную инфу? Можно тогда сразу этот ID удалить из логгирования.
А если нужна какая-то шумящая цифра чтоб давал равномерное распределение - то берите последнюю. Контрольная сумма. Или 4 последних.
Если смотреть на нее машинным зрением в базисе яркости - то можно видеть серый фон.
Правда до конца здесь эта формула не сработала. Не учли коэффициенты RGB. Поэтому если сделать де-колоризацию (я делал в Gimp) то всё-таки кое-что видно как в негативе.
Я не думаю что их много. И возможно это просто штучная логистическая проблема. Закупили слишком много игровых плат под ноуты. Поняли что столько не надо. Ноуты берут вяло. Дешево и сердито сменили конфигурации на офисные.
sergeyfilippov4, ну дай бох. Только у тестеров-автоматизаторов часто возникают вопросы совместимости. Ну тоесть я не был бы 100% уверен что селениум открывает вообще любые веб-ресурсы. Щас веб - это такой себе бутерброд технологий. И старый AdobeFlash. И Unity. И WebGL. Вот что вы будете делать с таким контентом? Это почти ОС в миниатюре.
Adamos, давай английское пари. Спорим на бутылку Виски что я загружу туда 150 млн поисковых ответов. И мне не нужен будет вычислительный кластер. Достаточно моего AMD/Ryzen с 16Гб памяти.
Dp00qer, нужно эмулировать действия браузера. Тоесть если сервер вернул redirect - то отработать его. Если сервер вернул html с JavaScript - то выполнить все скрипты.
Я еще не встречал ни одного экземпляра софта который бы на 100% воспроизводил-бы поведение браузера. Тоесть твою задачу можно решить в каких-то частных случаях (допустим что нет капчи).
Тогда вот такой алгоритм.
1) Строим справочнк доменов (domains_dict). Нумеруем их от 1 до 10 000 000.
2) Строим квадратную матрицу 10 на 10 миллионов счетчиков. Каждый счетчик означает - количество встреч двух доменов в одном поиске. Изначально матрица инициализирована нулями.
3) Процессим исходную таблицу (назовем ее domains_search). Ну и на каждую строку соотв - наращиваем счетчики на +1 на пересечениях. Симметрично. К примеру для (38, 9) ячейки тоже будет увеличена (9, 38).
Матрица выглядит толстой. Но это не страшно. Она - разрежённая. В основном состоит из пустоты. Домены обычно группируются по предметной области. Для таких дырявых матриц есть алгоритмы сжатого хранения. Compressed sparse row (CSR). Библиотек - полно. Любая математическая либа всегда тащит в себе такую матричку.
Ну и для количества встреч - просто берем нужную строку и вуаля. Ответ готов.
Альтернативный алгоритм - на графовой БД. Просто так мне хотелось. Чистая эстетика. Хотя оба варианта рабочие. В графах вершинами будут домены. А на рёбрах будут счетчики встреч. Граф удобен тем что его можно визуализировать и нарисовать скопления доменов.