@3Cube

Персональный гугл, если ли?

Есть ли такое в мире OpenSource в виде готового продукта? Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил. Задаю ему запрос и через некоторое время получаю список страниц с наиболее релевантными данными, которые прошли фильтр на SEO мусор и бесполезность.
  • Вопрос задан
  • 415 просмотров
Решения вопроса 1
Daemon23RUS
@Daemon23RUS
Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил

Боюсь, что ответ Вашего частного поисковика придется долго ждать. Обратимся к цифрам: сейчас порядка 2 млрд. сайтов ( обратите внимание на то что это сайты, а не страницы, коих на многих сайтах десятки, сотни, тысячи а на части на порядки больше) предположим, что ваш краулер пожирает сайты по 10 шт в секунду (со всеми страницами), так вот ждать ответа придется лет 7.
И это мы опустили трафик, который сожрет краулер. А там все за гранью не то что домашнего сервера, а не все страны потребляют такой объем.
P.S. Тут вопрос не в алгоритмах или коде, вопрос в объеме "перевариваемой" информации
Ответ написан
Пригласить эксперта
Ответы на вопрос 7
sergey-gornostaev
@sergey-gornostaev
Седой и строгий
Google - это прежде всего инфраструктура, а не софт. Как только сможете позволить себе потратить десятки миллиардов долларов на постройку ЦОДов, можно и персональный Google будет завести.
Ответ написан
shurshur
@shurshur
Сисадмин, просто сисадмин...
Для того, чтобы просканить интернет, нужно для начала иметь список интернет-сайтов и страниц на них. Это уже огромный объём информации, которую поисковики накапливали годами и поддерживают в актуальном состоянии.

Но даже если такой список есть - по нему ещё надо пройтись. Потратив уйму времени на скачивания этих миллиардов страниц. И возможно в итоге получить 0 результатов. А на следующий запрос начинать скачивать всё то же самое заново повторно.

Надеюсь, общий ход мысли теперь понятен? "Персональный поисковик" имеет смысл в лучшем случае для поиска по ограниченному подмножеству сайтов. Вероятно, узкоспециализированной тематики. Например, занимаешься вопросами производства изделий из титановых сплавов, заводишь себе список сайтов по тематике: форумы, блоги, сайты производителей, сайты научных журналов по теме... И даже для такого имеет смысл строить собственный поисковый индекс, а не качать тысячи страниц на каждый запрос.

А искать по всему интернету в личных целях могут только настоящие поисковики. Ну вот можно разве пытаться их результаты обрабатывать и фильтровать, но это уже не будет поиск своими силами.
Ответ написан
@Everything_is_bad
такого нет, хотя теоретически возможно, покупаешь гугл, тогда у тебя будет такая возможность, а ну да, весь можно не покупать, только определенную часть, чтобы можно было осуществят минимально влияние на компанию.
Ответ написан
Можно вот так. Хотя чуток не дотягивает до уровня Гугля. Но не беда, ибо кода совсем мало и можно доработать под свои нужды.
Ответ написан
msHack
@msHack
Есть проект YaCy
Ответ написан
Комментировать
mindtester
@mindtester
http://iczin.su/hexagram_48
я бы выбрал другую стратегию.. типа ИИ экспериментирующего с запросами (а там много фишек синтаксиса запроса ;).. если владеете питоном (да в общем то любой язык с поддержкой функциональной парадигмы) .. думаю по дешевле будет ))
.. хотя поисковики борются с ботами.. но и пути обхода существуют ;))
Ответ написан
Комментировать
OCTAGRAM
@OCTAGRAM
Я пользовался Яндекс.Сервером и где-то даже сохранил сборки для Windows и Linux. Умеет ходить по HTTP, качать pdf и в них искать. По прямому назначению это нужно использовать для своего сайта. У него обход один, и новая информация только после полного обхода появляется. Может петлять где не надо, и пока петляет, это всё считается, что обход не закончен, и инфа новая не появилась. Мне приходилось через прокси корректировать поведение, перенаправления свои ему вставлять.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы