@3Cube

Персональный гугл, если ли?

Есть ли такое в мире OpenSource в виде готового продукта? Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил. Задаю ему запрос и через некоторое время получаю список страниц с наиболее релевантными данными, которые прошли фильтр на SEO мусор и бесполезность.
  • Вопрос задан
  • 431 просмотр
Решения вопроса 1
Daemon23RUS
@Daemon23RUS
Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил

Боюсь, что ответ Вашего частного поисковика придется долго ждать. Обратимся к цифрам: сейчас порядка 2 млрд. сайтов ( обратите внимание на то что это сайты, а не страницы, коих на многих сайтах десятки, сотни, тысячи а на части на порядки больше) предположим, что ваш краулер пожирает сайты по 10 шт в секунду (со всеми страницами), так вот ждать ответа придется лет 7.
И это мы опустили трафик, который сожрет краулер. А там все за гранью не то что домашнего сервера, а не все страны потребляют такой объем.
P.S. Тут вопрос не в алгоритмах или коде, вопрос в объеме "перевариваемой" информации
Ответ написан
Пригласить эксперта
Ответы на вопрос 7
sergey-gornostaev
@sergey-gornostaev
Седой и строгий
Google - это прежде всего инфраструктура, а не софт. Как только сможете позволить себе потратить десятки миллиардов долларов на постройку ЦОДов, можно и персональный Google будет завести.
Ответ написан
shurshur
@shurshur
Сисадмин, просто сисадмин...
Для того, чтобы просканить интернет, нужно для начала иметь список интернет-сайтов и страниц на них. Это уже огромный объём информации, которую поисковики накапливали годами и поддерживают в актуальном состоянии.

Но даже если такой список есть - по нему ещё надо пройтись. Потратив уйму времени на скачивания этих миллиардов страниц. И возможно в итоге получить 0 результатов. А на следующий запрос начинать скачивать всё то же самое заново повторно.

Надеюсь, общий ход мысли теперь понятен? "Персональный поисковик" имеет смысл в лучшем случае для поиска по ограниченному подмножеству сайтов. Вероятно, узкоспециализированной тематики. Например, занимаешься вопросами производства изделий из титановых сплавов, заводишь себе список сайтов по тематике: форумы, блоги, сайты производителей, сайты научных журналов по теме... И даже для такого имеет смысл строить собственный поисковый индекс, а не качать тысячи страниц на каждый запрос.

А искать по всему интернету в личных целях могут только настоящие поисковики. Ну вот можно разве пытаться их результаты обрабатывать и фильтровать, но это уже не будет поиск своими силами.
Ответ написан
@Everything_is_bad
такого нет, хотя теоретически возможно, покупаешь гугл, тогда у тебя будет такая возможность, а ну да, весь можно не покупать, только определенную часть, чтобы можно было осуществят минимально влияние на компанию.
Ответ написан
2ord
@2ord
Можно вот так. Хотя чуток не дотягивает до уровня Гугля. Но не беда, ибо кода совсем мало и можно доработать под свои нужды.
Ответ написан
msHack
@msHack
Есть проект YaCy
Ответ написан
Комментировать
mindtester
@mindtester
http://iczin.su/hexagram_48
я бы выбрал другую стратегию.. типа ИИ экспериментирующего с запросами (а там много фишек синтаксиса запроса ;).. если владеете питоном (да в общем то любой язык с поддержкой функциональной парадигмы) .. думаю по дешевле будет ))
.. хотя поисковики борются с ботами.. но и пути обхода существуют ;))
Ответ написан
Комментировать
OCTAGRAM
@OCTAGRAM
Я пользовался Яндекс.Сервером и где-то даже сохранил сборки для Windows и Linux. Умеет ходить по HTTP, качать pdf и в них искать. По прямому назначению это нужно использовать для своего сайта. У него обход один, и новая информация только после полного обхода появляется. Может петлять где не надо, и пока петляет, это всё считается, что обход не закончен, и инфа новая не появилась. Мне приходилось через прокси корректировать поведение, перенаправления свои ему вставлять.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы