Как проиндексировать html на Sphinx без написания сложных скриптов?

Question

see613 @see613

Как проиндексировать html на Sphinx без написания сложных скриптов?

Насколько я знаю, sphinx может индексировать html, но готового драйвера, как для sql нет.
То есть нужно самому парсить и подготавливать текст.
Подскажите, нет ли какого-то готового решения, чтобы подружить sphinx и html, желательно на php?

Вопрос задан более трёх лет назад
2535 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

5 комментариев

see613 @see613 Автор вопроса

имеешь ввиду xml pipe и Tab Separated Values pipe или есть более общая pipe?

Написано более трёх лет назад
Сергей @begemot_sun

Автор ответа имеет ввиду что вы можете:
html ---> скрипт по преобразованию в формат pipe (xml например) ---> sphinx

Написано более трёх лет назад
see613 @see613 Автор вопроса

Ок. Может подскажете по поводу уникальных id? В доках в разделе ограничений на источник данных есть строка: ALL DOCUMENT IDS MUST BE UNIQUE UNSIGNED NON-ZERO INTEGER NUMBERS (32-BIT OR 64-BIT, DEPENDING ON BUILD TIME SETTINGS). В данном случае тогда нужно генерить такой id самому? Если да, то как избежать коллизий при многократном индексировании в течении длительного времени?

Написано более трёх лет назад
Пума Тайланд @opium

да самому
легко генерьте их по очереди 1 2 3 4 5
таким образом очень сложно создать коллизию

Написано более трёх лет назад
Сергей @begemot_sun

да самому. использовать например перманентный использовать счетчик, например в ввиде файла или в виде записи в бд,
можете использовать unix_time с точностью до миллисекунды.

Написано более трёх лет назад