Как проиндексировать html на Sphinx без написания сложных скриптов?
Насколько я знаю, sphinx может индексировать html, но готового драйвера, как для sql нет.
То есть нужно самому парсить и подготавливать текст.
Подскажите, нет ли какого-то готового решения, чтобы подружить sphinx и html, желательно на php?
Ок. Может подскажете по поводу уникальных id? В доках в разделе ограничений на источник данных есть строка: ALL DOCUMENT IDS MUST BE UNIQUE UNSIGNED NON-ZERO INTEGER NUMBERS (32-BIT OR 64-BIT, DEPENDING ON BUILD TIME SETTINGS). В данном случае тогда нужно генерить такой id самому? Если да, то как избежать коллизий при многократном индексировании в течении длительного времени?
да самому. использовать например перманентный использовать счетчик, например в ввиде файла или в виде записи в бд,
можете использовать unix_time с точностью до миллисекунды.