Задать вопрос
@Xokare

Как добавить символ в белый список токенизатора?

Есть текстовое поле, на него назначен custom analyzer, у него токенизатор standard, этот токенизатор избавляется от всех знаков пунктуации, это мне и необходимо, но, он также считает за две морфемы числа разделённые слэшем, например 23/45 это два токена, "23" и "45", а мне нужно, чтобы они считались за один токен, т.е. "23/45", в остальной части поведение токенизатора меня устраивает. Как можно изменить это поведение токенизатора? Я пытался заменить / на слово фильтром, но тогда не получится вернуть его обратно. Заранее спасибо
  • Вопрос задан
  • 13 просмотров
Подписаться 1 Средний Комментировать
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Мидл Python-разработчик
    6 месяцев
    Далее
  • Merion Academy
    Курс по NoSQL. Нереляционные базы данных
    1 месяц
    Далее
  • Яндекс Практикум
    Аналитик SOC
    4 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 1
@siri0s
Заменили на "слово" и нужно вернуть обратно. А зачем в токене возвращать "слово" обратно в "/" ? Токен - объект только для поиска, пусть там лежит "слово". При поиске фраза с таким же "словом" будет сравниваться со значением в токене.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы