Какой движок заюзать для поисковика по html коду?

Question

rodion-dev @rodion-dev

Какой движок заюзать для поисковика по html коду?

Какой движок заюзать для поисковика по html коду ?
т.е. например мне нужно по запросу < a class="link-class-href"
получить все данные где есть эта инфа.

объем предполагается около 1-10млрд документов
с таким объемом хорошо справится сфинкс, но там насколько я помню нет возможности поиска по html.

Вопрос задан более трёх лет назад
820 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

6 комментариев

rodion-dev @rodion-dev Автор вопроса

на какой яве ? сфинкс на C++ хорошо справляется с миллиардами документов

Написано более трёх лет назад
rodion-dev @rodion-dev Автор вопроса

или ты подумал что мне нужны селекторы типа как у jquery ?
мне нужен поиск по подстроке по миллиарду+ документов

Написано более трёх лет назад
maaGames @maaGames

rodion-dev: Ну сам же тэиг поставил: С++ Программирование Python Java Поисковые технологии
В реальном времени С++ не справится с линейным поиском в миллиардах документов.

Написано более трёх лет назад
rodion-dev @rodion-dev Автор вопроса

maagames.ru:
так поиск не линейный, а по индексу + не на одном сервере происходит поиск по такому объему документов, а минимум на 5 одновременно.

Написано более трёх лет назад
maaGames @maaGames

rodion-dev: Какой движок заюзать для поисковика по html коду ?

html код по определению является неупорядоченным текстовым файлом.
Если данные индексированные, то постановка задачи совсем иная.

Написано более трёх лет назад
rodion-dev @rodion-dev Автор вопроса

не на входе именно html. нужно как-то из него сделать индекс.
с помощью поискового движка я получаю ID всех документов, а потом уже делаю выборку этих документов с серверов хранения где они в оригинальном виде хранятся.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 79 просмотров
1

ответ
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 45 просмотров
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 48 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 312 просмотров
0

ответов
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 125 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 138 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 107 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 118 просмотров
2

ответа
Программирование

+4 ещё

Простой
На сколько плох мой GitHub?
- 1 подписчик
- 03 июл.
- 1039 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-03-13 20:40:05

Парсить 10 МИЛЛИАРДОВ страниц в реальном времени и на Яве? Не смешите мои тапочки!
Вам нужно проиндексировать тэги(или классы, что вы там будете искать) всех страниц (в офлайне, на любом языке), а уже потом искать в этих таблицах. Т.е. искать будете не по самим HTML, а по базе данных тэгов(классов). С линейным поиском в 10 миллиардах страниц не справится даже ассемблер. Если конечно пользователь не готов подождать пару часов до получения результата.

Answer 2 · 2015-03-13 21:45:57

хотя 1млрд страниц на одном серваке это конечно не будет работать
нужно хотябы 20 нод с хорошей конфигурацией

Answer 3 · 2015-03-14 09:55:06

Я знаю что вы собираетесь спарсить ;) Я бы не советовал складывать страницы в индекс, а советовал бы каждый раз обращаться к сайту потому что данные могут измениться. На хабре блог яндекса гляньте там у них парсер парсит со скоростью 240 тыс. в минуту это значит что на 1 миллиард у вас уйдёт 69 часов. Это если со скорость С++ парсить
Если средняя страница весит 30кб то на 1 млрд страниц у вас уйдёт 27 террабайт места ))

Answer 4 · 2015-03-13 22:26:28

Александр Маджугин @Suntechnic

xapian неплохо себя показал когда я пробовал

Ответ написан более трёх лет назад

Комментировать

Какой движок заюзать для поисковика по html коду?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт