RT индексы позволяют. но у них есть свои ограничения — sphinxsearch.com/docs/current.html#rt-caveats
В плане обновления MVA атрибуты тоже не очень. Обновленные значения не сохраняются, в отличии от простых атрибутов:
«Due to internal technical difficulties, currently it is not possible to store (flush) any updates on indexes where MVA were updated; though this might be implemented in the future. In the meantime, MVA updates are intended to be used as a measure to quickly catchup with latest changes in the database until the next index rebuild; not as a persistent storage mechanism.»
Два атрибута в индексе (не обязательно для них делать столбцы в таблице товаров, если размер базы позволяет вычислять их на этапе индексации) всё же меньше по ресурсам, чем два mva атрибута. Особенно если количество комментариев к товару будет расти.
Данные без пробелов хранятся в базе или формируются на этапе индексации?
Отдельно проиндексировать подозрительные записи и поискать по ним пробовали?
У меня пока не воспроизводится: pastebin.com/qV6VkJK6
> включить параллельно с дефолтным ранкером параллельно
Если в смысле разные ранкеры для разных запросов — да. Ранкер устанавливается для каждого запроса (видно в примере запроса в ссылке на пастебин). Т.е строить отдельный индекс не нужно, все запросы, в которых явно не указан ранкер будут продолжать использовать PROXIMITY_BM25.
Если в рамках одного запроса — нет, не смешиваются.
Согласен, ошибся. Кворум с 1 по логике идентичен "|". Более того, кворум явным образом преобразовывается в «или» с целью оптимизации (sphinx.cpp, TransformQuorum).
А дальше играют роль ранкеры и понимание релевантности. Например, в приведенном примере под описание автора подходит ранкер wordcount (http://pastebin.com/pwahurUV ), но не факт, что он так же хорошо подойдет на всей выборке, нужно смотреть поведение разных ранкеров на конкретных данных.
имеет смысл, если у автора поиск ведется только по серийным номерам, иначе, для обычных текстов, добавлять пробел в ignore_chars нельзя, а по условию нужно «без учета пробелов и тире».
Насколько я понимаю, VT-d есть только в Q67, а в P67 опции для разгона. Если компьютер домашний, но временами крутятся виртуалки, имеет ли смысл брать Q67? Насколько ощутима разница от наличия/отсутствия VT-d? Удаленное управление и всякие фичи по безопасности не актуальны ввиду того, что комп домашний, встроенная графика тоже не интересует.
Ну, требования по универсальности не выдвигались, контекст задачи не описан. Потому я предложил решение, позволяющее проверять уникальность в 5 раз меньшего количества элементов, без заморочек на то, что символов может стать не 4 а 40, и алфавит не русский, а греческий, и не миллион а 10 и не вставить а удалить и не на php а на c#)
Как писал Андрей в анонсе новой версии (http://habrahabr.ru/blogs/sphinx/118892/) про строковые атрибуты:
> Приделали поддержку ORDER BY и GROUP BY над строковыми атрибутами, давно пора.
> (Осталось приделать WHERE, однако при наличии поиска по словам, это не самая насущная потребность.)
Так что строковые атрибуты не решают вопрос фильтрации в текущей версии. Если нет возможности заменить строковые атрибуты числовыми, то работать нужно через полнотекстовый поиск.
Флеш уже индексируется, если явно это не запрещать. Делал как-то сайт с флеш играми, так пока не прописал в robots — получил в выдаче по сайту кучу текста из игр. Закладки реализуются через якоря (которые после решетки). Основной минус флеша, как мне кажется, — захват клавиатуры (например, F5 не сработает как ожидалось) и проблема на iУстройствах.