Персональный гугл, если ли?

Question

3Cube @3Cube

Персональный гугл, если ли?

Есть ли такое в мире OpenSource в виде готового продукта? Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил. Задаю ему запрос и через некоторое время получаю список страниц с наиболее релевантными данными, которые прошли фильтр на SEO мусор и бесполезность.

Вопрос задан более года назад
448 просмотров

4 комментария

Подписаться 2 Простой 4 комментария

d'Ivan @2ord

прошли фильтр на SEO мусор и бесполезность.
Гугль плохо старается и не заинтересован в качественных результатах?
Как определить что есть мусор?

Написано более года назад
Владислав Лысков @Vlatqa

Иерокопус Таманский, легко, куча статей с машинным переводом

Написано более года назад
d'Ivan @2ord

Владислав Лысков, что легко? Я про выявление мусора, про определение факта

Написано более года назад
dobromin @dobromin

Думаю лучше смотреть в сторону фильрации выдачи поисковиков. В итоге у вас мусор будет скрываться из запроса а нужное появляться. К примеру запрос сделали, чистый Я выдаст первую страницу с чушью, скрипт это очищает и вы в итоге видите первую страницу с нормальными данными которые могли быть в чистов виде только на 10 и 20 страницах Я или иного другого поисковика.

Написано более года назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 1

3 комментария

Владимир Куц @fox_12

Ну, - справедливости ради, можно не самому искать, а делать запросы через поисковики. Что мешает краулеру сделать запросы в тот же гугл, яндекс, бинг, дакдакго и иже с ними, и фильтровать уже их ответы в соответствии с запросами автора, - запросов для этого нужно сделать гораздо меньше. Сделать эдакий метапоисковик...

Написано более года назад
Daemon23RUS @Daemon23RUS

Владимир Куц, А смысл ? получить "модифицированный" (кривой) граф от поисковика, применить на него некие (какие - ?) фильтры. Которые, причем, зависят от контекста поиска, заметим, что при разных запросах этот самый контекст - разный. С этой задачей прекрасно справляется биологическая нейросеть заполняющая полости костей черепа, при получении информации от первоисточника (гугл, яндекс, бинг, дакдакго и иже с ними) ввиду прямой связи с вышеупомянутым контекстом.

Написано более года назад
Владимир Куц @fox_12

Daemon23RUS, я тоже не вижу в этом смысла.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 7

3 комментария

1 комментарий

9 комментариев

3Cube @3Cube Автор вопроса

Слабо верится, что нет.
Я перелопатил много ресурсов, нашел кучу self-hosted поисковиков, но их цели избежать трекинга гугла, а не свой настоящий поисковик.

Печально, если умные люди не сделали этого до сих пор. Ведь сделали же Linux...

Написано более года назад
Drno @Drno

3Cube, как только Вы начнете просчитывать человеко-часы, и как следствие цену - вопрос почему нет отпадет)
Линукс монетизируется. А это слишком узкое направление. Тем более занятое

Написано более года назад
3Cube @3Cube Автор вопроса

YaCy с вами не согласится. Им нужно только добавить немного функционала...

Написано более года назад
Василий Банников @vabka

3Cube, что за YaCy?

Написано более года назад
Владислав Лысков @Vlatqa

Василий Банников, https://yacy.net/ думаю это

Написано более года назад
Владислав Лысков @Vlatqa

3Cube, ну да, пару функций допилить и можно хоронить гугл, а как красиво ребята начинали

Написано более года назад
3Cube @3Cube Автор вопроса

Владислав Лысков, Вы немножечко путаете теплое с мягким.

Технология одна и та же, только гугл монетизирует свой индекс и обслуживает триллионы запросов.
Для персонального "гугла" этого не требуется.
Тот же YaCy вполне хорошо работает в локалке, а вот с белым интернетом у него значительно хуже дела обстоят с настройкой источников поиска. Хотя казалось бы, ну убери ограничения у краулера с серых IP на белые и вот оно счастье...

Написано более года назад
Владислав Лысков @Vlatqa

3Cube, не спорю, тогда поясните

Написано более года назад
# @mindtester

3Cube, вы точно о масштабах не забыли?

Написано более года назад

6 комментариев

3Cube @3Cube Автор вопроса

Да, читал на хабре про эти 80 строк, но это всего лишь 80 строк кода...

Написано более года назад
d'Ivan @2ord

3Cube,

но это всего лишь 80 строк кода...
да, но каких строк! Очень ёмких. Это нисколько не должно смущать.

Написано более года назад
# @mindtester

Иерокопус Таманский, смущает питон, и предстоящие объемы..
(лаконичность и выразительность питона и создали его популярность, бесспорно.. но это интерпретатор..
ладно запросы - они тоже не мгновенны, но обработка результатов...

Написано более года назад
d'Ivan @2ord

#,
Разумеется. Поскольку он игрушечный и на нём можно делать много экспериментов, это даёт большой простор воображению для различных реализаций.

Написано более года назад
d'Ivan @2ord

Для тех кто не понял, фраза

Хотя чуток не дотягивает до уровня Гугля.
была написана в шутку.

Написано более года назад
# @mindtester

Иерокопус Таманский, .. зал аплодирует ;))

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Информационная безопасность

+1 ещё

Простой
Безопасно ли использовать OpenSource продукты от крупных корпораций?
- 3 подписчика
- 17 окт.
- 475 просмотров
7

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 202 просмотра
0

ответов
Поисковая оптимизация

+3 ещё

Средний
Yandex не индексирует изображения на сайте, почему?
- 2 подписчика
- 01 июл.
- 856 просмотров
2

ответа
Поисковая оптимизация

+2 ещё

Средний
Нужно ли как-то решать проблему в файле robots (Правило, которое не учитывается Googlebot: host)?
- 1 подписчик
- 25 июн.
- 239 просмотров
2

ответа
Поисковая оптимизация

+1 ещё

Простой
Улучшают ли позиции в ПС разные «оптимизаторы» текстов?
- 1 подписчик
- 19 июн.
- 138 просмотров
3

ответа
Поисковые системы

Простой
Как подменить домен в поисковике?
- 2 подписчика
- 27 мая
- 155 просмотров
2

ответа
Поисковые системы

Простой
Какие книги посоветуете для изучение того как работает поисковая система?
- 1 подписчик
- 02 апр.
- 153 просмотра
1

ответ
Поисковые системы

Средний
Как найти информацию о файле?
- 1 подписчик
- 25 мар.
- 89 просмотров
0

ответов
Open Source

+1 ещё

Простой
Опенсорс ПО для склада, какие есть варианты?
- 2 подписчика
- 20 мар.
- 288 просмотров
4

ответа
Open Source

Средний
Платное open-source приложение?
- 1 подписчик
- 10 мар.
- 242 просмотра
3

ответа
Показать ещё Загружается…

Инженер по средствам защиты информации

SMALL

от 4 200 до 5 700 $

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

Аналитик 1С (телеком)

LIAN • Москва

от 270 000 до 300 000 ₽

прошли фильтр на SEO мусор и бесполезность.
Гугль плохо старается и не заинтересован в качественных результатах?
Как определить что есть мусор?
Иерокопус Таманский, легко, куча статей с машинным переводом
Владислав Лысков, что легко? Я про выявление мусора, про определение факта
Думаю лучше смотреть в сторону фильрации выдачи поисковиков. В итоге у вас мусор будет скрываться из запроса а нужное появляться. К примеру запрос сделали, чистый Я выдаст первую страницу с чушью, скрипт это очищает и вы в итоге видите первую страницу с нормальными данными которые могли быть в чистов виде только на 10 и 20 страницах Я или иного другого поисковика.

Answer 1 · 2024-02-10 01:19:40

Краулер, который ходит по интернетам и ищет сам, то о чём я его попросил

Боюсь, что ответ Вашего частного поисковика придется долго ждать. Обратимся к цифрам: сейчас порядка 2 млрд. сайтов ( обратите внимание на то что это сайты, а не страницы, коих на многих сайтах десятки, сотни, тысячи а на части на порядки больше) предположим, что ваш краулер пожирает сайты по 10 шт в секунду (со всеми страницами), так вот ждать ответа придется лет 7.
И это мы опустили трафик, который сожрет краулер. А там все за гранью не то что домашнего сервера, а не все страны потребляют такой объем.
P.S. Тут вопрос не в алгоритмах или коде, вопрос в объеме "перевариваемой" информации

Answer 2 · 2024-02-09 23:41:52

Google - это прежде всего инфраструктура, а не софт. Как только сможете позволить себе потратить десятки миллиардов долларов на постройку ЦОДов, можно и персональный Google будет завести.

Answer 3 · 2024-02-10 01:05:31

Для того, чтобы просканить интернет, нужно для начала иметь список интернет-сайтов и страниц на них. Это уже огромный объём информации, которую поисковики накапливали годами и поддерживают в актуальном состоянии.

Но даже если такой список есть - по нему ещё надо пройтись. Потратив уйму времени на скачивания этих миллиардов страниц. И возможно в итоге получить 0 результатов. А на следующий запрос начинать скачивать всё то же самое заново повторно.

Надеюсь, общий ход мысли теперь понятен? "Персональный поисковик" имеет смысл в лучшем случае для поиска по ограниченному подмножеству сайтов. Вероятно, узкоспециализированной тематики. Например, занимаешься вопросами производства изделий из титановых сплавов, заводишь себе список сайтов по тематике: форумы, блоги, сайты производителей, сайты научных журналов по теме... И даже для такого имеет смысл строить собственный поисковый индекс, а не качать тысячи страниц на каждый запрос.

А искать по всему интернету в личных целях могут только настоящие поисковики. Ну вот можно разве пытаться их результаты обрабатывать и фильтровать, но это уже не будет поиск своими силами.

Answer 4 · 2024-02-09 23:01:49

такого нет, хотя теоретически возможно, покупаешь гугл, тогда у тебя будет такая возможность, а ну да, весь можно не покупать, только определенную часть, чтобы можно было осуществят минимально влияние на компанию.

Answer 5 · 2024-02-10 00:43:04

Можно вот так. Хотя чуток не дотягивает до уровня Гугля. Но не беда, ибо кода совсем мало и можно доработать под свои нужды.

Answer 6 · 2024-02-10 09:05:45

Руслан @msHack

Есть проект YaCy

Ответ написан более года назад

Комментировать

Answer 7 · 2024-02-10 12:01:48

я бы выбрал другую стратегию.. типа ИИ экспериментирующего с запросами (а там много фишек синтаксиса запроса ;).. если владеете питоном (да в общем то любой язык с поддержкой функциональной парадигмы) .. думаю по дешевле будет ))
.. хотя поисковики борются с ботами.. но и пути обхода существуют ;))

Answer 8 · 2024-02-15 16:29:55

Я пользовался Яндекс.Сервером и где-то даже сохранил сборки для Windows и Linux. Умеет ходить по HTTP, качать pdf и в них искать. По прямому назначению это нужно использовать для своего сайта. У него обход один, и новая информация только после полного обхода появляется. Может петлять где не надо, и пока петляет, это всё считается, что обход не закончен, и инфа новая не появилась. Мне приходилось через прокси корректировать поведение, перенаправления свои ему вставлять.

Персональный гугл, если ли?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт