Как обрабатывать слова написанные разным способом?
К примеру у автомобился есть гидроусилитель руля,в тексте он может быть написан полностью или например ГУР, как извлекать из текста такие слова и классифицировать их?
Я вижу только создать небольшую базу вариантов написания каждого слова, правильно ли это?
Можно смотреть первые буквы (и несколько первых букв, и выбрать лучший вариант по совпадениям) во всех корнях в подряд идущих слов, учитывая предлоги между ними с вероятностью в 50% (проверять с предлогами и без, и выбирать лучшее совпадение).
Это покроет большинство случаев.
И свой словарь для нескольких частных случаев - тоже можно сделать: чем больше классификаторов - тем лучше.