Если смотреть на нее машинным зрением в базисе яркости - то можно видеть серый фон.
Правда до конца здесь эта формула не сработала. Не учли коэффициенты RGB. Поэтому если сделать де-колоризацию (я делал в Gimp) то всё-таки кое-что видно как в негативе.
Я не думаю что их много. И возможно это просто штучная логистическая проблема. Закупили слишком много игровых плат под ноуты. Поняли что столько не надо. Ноуты берут вяло. Дешево и сердито сменили конфигурации на офисные.
sergeyfilippov4, ну дай бох. Только у тестеров-автоматизаторов часто возникают вопросы совместимости. Ну тоесть я не был бы 100% уверен что селениум открывает вообще любые веб-ресурсы. Щас веб - это такой себе бутерброд технологий. И старый AdobeFlash. И Unity. И WebGL. Вот что вы будете делать с таким контентом? Это почти ОС в миниатюре.
Adamos, давай английское пари. Спорим на бутылку Виски что я загружу туда 150 млн поисковых ответов. И мне не нужен будет вычислительный кластер. Достаточно моего AMD/Ryzen с 16Гб памяти.
Dp00qer, нужно эмулировать действия браузера. Тоесть если сервер вернул redirect - то отработать его. Если сервер вернул html с JavaScript - то выполнить все скрипты.
Я еще не встречал ни одного экземпляра софта который бы на 100% воспроизводил-бы поведение браузера. Тоесть твою задачу можно решить в каких-то частных случаях (допустим что нет капчи).
Тогда вот такой алгоритм.
1) Строим справочнк доменов (domains_dict). Нумеруем их от 1 до 10 000 000.
2) Строим квадратную матрицу 10 на 10 миллионов счетчиков. Каждый счетчик означает - количество встреч двух доменов в одном поиске. Изначально матрица инициализирована нулями.
3) Процессим исходную таблицу (назовем ее domains_search). Ну и на каждую строку соотв - наращиваем счетчики на +1 на пересечениях. Симметрично. К примеру для (38, 9) ячейки тоже будет увеличена (9, 38).
Матрица выглядит толстой. Но это не страшно. Она - разрежённая. В основном состоит из пустоты. Домены обычно группируются по предметной области. Для таких дырявых матриц есть алгоритмы сжатого хранения. Compressed sparse row (CSR). Библиотек - полно. Любая математическая либа всегда тащит в себе такую матричку.
Ну и для количества встреч - просто берем нужную строку и вуаля. Ответ готов.
Альтернативный алгоритм - на графовой БД. Просто так мне хотелось. Чистая эстетика. Хотя оба варианта рабочие. В графах вершинами будут домены. А на рёбрах будут счетчики встреч. Граф удобен тем что его можно визуализировать и нарисовать скопления доменов.
EVGENIJ NEFEDOV, мне кажется что вашу бизнес-задачу нужно еще грумить. Что-то в ней... сырое. Ну тоесть вы ее поставили с точки зрения user story. Но нужен хороший техно-писатель который задаст вам больше вопросов и перепишет ее более техничным языком. Без этих уродских таблиц на 50 колонок. Которые по сути - денормализация.
По сути есть датасет. Учитывая объемы - это бигдата. И надо сделать какой-то глубокий анализ.
EVGENIJ NEFEDOV, кидайте ссылку. Но она будет адресована не лично мне а всему сообществу qna.habr. Не обещаю что я буду что-то там скачивать и изучать.