@edo1h

Как правильно поддерживать арабский язык в manticore?

Пробую переносить конфиг сфинкса в manticore.
Строки есть на разных языках, хочется максимально универсальный конфик.

Что было в сфинксе:
# chinese lang setting
ngram_len = 1
ngram_chars = U+3000..U+2FA1F
        
# ignore arabic chars
ignore_chars = U+0640, U+064B..U+065F,U+06D6..U+06DC,U+06DF..U+06E8,U+06EA..U+06ED

charset_table = /много-много кодов из разных языков/


На sphinxsearch.com/wiki/doku.php?id=charset_tables#arabic сказано:
Its necessary to add ignore_chars to ignore vowels, black space and other Arabic signs


В документации к manticore, рекомендуемый конфиг компактнее:
ngram_len = 1
ngram_chars = cjk
charset_table = non_cjk


Вопрос: не поломает ли отсутствие ignore_chars поиск по арабскому языку?
  • Вопрос задан
  • 60 просмотров
Решения вопроса 1
ManticoreSearch
@ManticoreSearch
Может поломать. Если качество поиска по арабским текстам чрезвычайно важно, то лучше оставить, как в сфинксе.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы