Есть мастерсервер. Я хочу получить все ip-адрес с этого мастер-сервера вручную и скачать все сайты с этих Ip-адресов. Часто сайты просто не проиндексированы поисковыми системами. Таких сайтов в среднем примерно 600 на каждом мастер-сервере по количеству серверов.
Меня интересуют популярные универсальные поисковые роботы/краулеры, способы полного парсинга сайтов, оффлайн-браузеры и прочие способы как скачать сайт целиком по html (копирование html). Почему именно поисковые роботы? Популярные поисковые системы способны сделать кэшированную копию всего проиндексированного сайта. Если есть универсальный оффлайн-браузер - тоже напишите. Они не смотрят robot.txt. Может быть и снапшот сайта.
Что такое "мастер-сервер"?
Каким образом вы собираетесь получить список IP-адресов с сервера? Он сам его отдаёт? Вам нужны IP или домены сайтов?
На одном IP может висеть несколько сайтов, и вы никак не сможете их вытащить, не зная доменов, или не имея прямого доступа к файлам на сервере.
PyNen, вы совсем не ответили на вопросы.
Даже Яндекс/Гугл ничего не сможет сделать, если не будет знать доменные имена - он тупо не сможет попросить у сервера страницу для конкретного сайта.
Если сайт не проиндексирован, то Яндекс о нём узнает или по прямой наводке от вебмастера, который засабмиьит ссылку на такой сайт, или по ссылкам с других сайтов, или благодаря какому-нибудь Яндекс.Браузер’у, который передаст инфу, что кто-то перешёл на такую-то страницу сайта, который не проиндексирован.
Как ещё поисковик может догадаться, что есть какой-то сайт, который можно проиндексировать?
Вы много бесплатных и с открытым кодом поисковиков уровня Яндекса видели?
Дмитрий Рублёв, если бы модератор позволил бы, я бы дополнил вопрос инфой про кэширование. Но он не позволил cdn кэширование - такое же кэширование сайта.
Можно пробить инфу, какие домены на каких ip-адресах.
В мастер сервере как раз указаны ip-адрес. Это обычные мастер серверы Counter Strike. Эта информация не важна, ip-адрес там есть. Мастер-сервер - это такая программа типо сайта (сайт тоже у неё есть), по которой ищутся игровые сервера. Я это разъяснять не должен. Это обычный мониторинг серверов. Я не виноват в том, что Вы не знаете, что такое мастер-сервер.
А если даже я способен пробить, на каком ip-адрес висит какой домен, Яндекс и подавно с этим справится. Яндекс индексирует сайт самостоятельно, даже если не указано тегов.
А мне нужен способ просто прокэшировать сайт, без индексации.
Вы данные со своих серверов кешировать хотите? Или скопировать контент с чужого?
Просто, для не-фаната Counter Strike- вообще непонятно, зачем и что вы хотите сделать. Формулировка вопроса очень расплывчатая.
Можно и обычный nginx на сервере для кеша использовать, и CDN полноценный прикрутить - смотря какой бюджет.
Индексация - уже другое дело, и ее работает так просто, как вы описываете. То, что Яндекс, по вашему мнению, может делать всё необходимое, ещё не значит, что будут популярные опенсорсные краулеры, которые «из коробки» это умеют.
Если бы были - я уверен, тут бы уже была куча комментариев с вариантами.
Придётся самостоятельно писать реализацию, используя какие-нибудь недо-краулеры вроде Sphider-plus, или вообще с нуля, попутно разбираясь, как вообще работают поисковые системы.
Нет, не со своих. Мне никто сайты отсылать не будет, а если бы отослал, необходимости кэшировать не было бы. Я собираюсь делать маркетинговой исследование рынка определённого мастер-сервера. Сначала чужого (и найду надоедливые программы взлома, которые портят мою любимую сборку кс (на всех серверах вылетает один сервер с плохой порезанной видеокартой графикой, окошко модх лагает (а я на этом модх хотел зарабатывать), скачивается ботнет и автоматически идёт обрубленное Касперским подключение), и соберу информацию о предпочтениях в зомби-моде (но установлю по своему вкусу), и скачаю сразу все файлы с вирусами).
Вирусов будет много. Но мне не хватает плагинов и рыскать по карте сайта не удобно. Я, к примеру, нашёл карты, а потом потерял, и найти не могу. А так в локальной копии наудаляю похожих вкладок.
Потом своего. Посмотрю, с каких серверов будет больше прибыль и почему.
Почему это делать - локальная редактируемая полноценная копия и маркетинговой исследование. Вирусы мне не нужны. Найду актуальные и популярные вирусы для интереса. Проверка сайта на вирусы.
если бы модератор позволил бы, я бы дополнил вопрос инфой про кэширование.
Вы вправе редактировать свой вопрос в любое время, причем тут модератор?
Можно пробить инфу, какие домены на каких ip-адресах.
Это не так легко, как вам кажется. В общем случае можно и не пробить.
В мастер сервере как раз указаны ip-адрес. Это обычные мастер серверы Counter Strike.Я это разъяснять не должен.
Должны. Мастер сервер это не есть какой-то общий стандарт. Сразу стоило указать в вопросе, что это мастер-сервер именно для CS, и желательно указать версию.
Если Valve делала какой-то API Для своих мастер-серверов - ищите в документации для CS.
Опять же, "сайт у нее есть" - не обязательно все сайты есть именно на мастер-сервере. Многие приватные сервера могут иметь сайт на отдельном домене и на отдельном IP адресе.
Я не виноват в том, что Вы не знаете, что такое мастер-сервер.
Никто не виноват, что вы не знаете как сканировать мастер сервер, про который вы знаете.
А если даже я способен пробить, на каком ip-адрес висит какой домен
Все не сможете. Множество доменов висят без бэк-резолва, и это нормально. Не всем нужно регистрировать in.addr.arpa, особенно если это небольшой сервер. Советую почитать что такое бэк резолв и как он работает, прежде чем утверждать, что вы любой IP можете пробить на домен.
Saboteur, https://2ip.ru/lookup/ - можно пробить любой домен.
Модератор запретил редактировать вопрос.
И про сайт, - я про мониторинг серверов, а Вы про Велв.
Да мне не важен способ получения мастер-сервера. Бек резолв с ошибками почты. Тот же самый Gmail не регистрируется на бек резолв. Или регистрируется?
Ну вот я попытался пробить свой - не пробило.
Еще раз говорю - почитайте что такое бэк резолв, и что по айпишнику пробить домен можно только тогда, когда об этом позаботился владелец домена.
PyNen, если вы ищете помощи, то постарайтесь составлять вопросы так, чтобы было понятно, что вам нужно.
Чот за окошко модх? Не гуглится. На MODX вообще сайты делают. Может motd?
Что за вирусы, зачем?
Рассказы, как вы найдёте надоедливые способы взлома и скачаете файлы с вирусами - вообще веет каким-то инфантилизмом подростковым, вы уж простите. Ничего личного, но пока впечатления не очень.
Такие посты порождают ещё больше вопросов, никак не проясняют ситуацию, и не помогают ответить на изначальный вопрос (в чём вопрос вообще?).
Я с удовольствием постараюсь помочь, если мне помогут понять проблему. Я пока вижу непонимание базовых принципов, как всё работает.
Правда motd. Вирусы - различные ботнеты зомби сетей. Хочу забанить их на своём мастер-сервера при аутентификации. Этот ботнет ложит мастер-сервер. Ну а мне нужен ботнет на PHP. Его не выкладывают в сети. Он устанавливается на VDS. Это не троян, не червь. Четырех таких VDS хватит на то, чтобы создать ddos-атаку на 10 000 гб/с. Нужна, чтобы блокировать доступ определенных игроков на игровой сервер. Название где-то в истории поиска. Потом найду. Это не реклама ботнета.
А вирусов на самом деле полно. Хоть вскрывать код. С плагинами такой проблемы не будет после маркетингого исследования. Я собираюсь сделать хостинг игровых серверов.
А вопрос только в том, как скачать 600 сайтов в виде html страниц. Это может быть cdn.
Я не подросток.