Задать вопрос

toxa_1995

Антон @ Лялин @toxa_1995

Начинающий...

java

Как работает лемматизация в Apache OpenNLP???

Данная библиотека предназначена для обработки текста. Мне нужно вытащить лемму из слов. Репозиторий подсоединил.

Вот код этого класса, который по видимому и занимается лемматизацией

public class SimpleLemmatizer implements DictionaryLemmatizer {

  public final Set<String> constantTags = new HashSet<String>(Arrays.asList("NNP","NP00000"));
  private HashMap<List<String>,String> dictMap;


  public SimpleLemmatizer(InputStream dictionary) {
        dictMap = new HashMap<List<String>,String>();
        BufferedReader breader = new BufferedReader(new InputStreamReader(dictionary));
        String line;
        try {
            while ((line = breader.readLine()) != null) {
                String[] elems = line.split("\t");
                dictMap.put(Arrays.asList(elems[0],elems[1]),elems[2]);
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
  }


  private List<String> getDictKeys(String word, String postag) {
        List<String> keys = new ArrayList<String>();
        if (constantTags.contains(postag)) {
            keys.addAll(Arrays.asList(word,postag));
        }
        else {
            keys.addAll(Arrays.asList(StringUtil.toLowerCase(word),postag));
        }
        return keys;
    }

  public String lemmatize(String word, String postag) {
    String lemma = null;
    List<String> keys = getDictKeys(word, postag);
    //lookup lemma as value of the map
    String keyValue = dictMap.get(keys);
    if (keyValue != null) {
        lemma = keyValue;
    }
    else if (keyValue == null && constantTags.contains(postag)) {
        lemma = word;
    }
    else if (keyValue == null && word.toUpperCase() == word) {
        lemma = word;
    }
    else {
        lemma = StringUtil.toLowerCase(word);
    }
    return lemma;
  }
}

Не могу понять, как использовать данный класс. На вход берет поток данных, InputStream, это ясно. Но как он будет вытаскивать лемму из слова???
Возможно есть и другие методы поиска леммы, которыми пользуетесь вы??

Вопрос задан более трёх лет назад
647 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Skillbox

Java-разработчик

8 месяцев

Далее
Нетология

Java-разработчик с нуля

12 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Android

+1 ещё

Средний
Сервис Android (aidl) с системными правами (в прошивке) может быть доступен для несистемного приложения?
- 1 подписчик
- 18 нояб.
- 71 просмотр
1

ответ
Java

+1 ещё

Простой
В чем моя ошибка при deploy maven?
- 1 подписчик
- 26 окт.
- 130 просмотров
1

ответ
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 156 просмотров
2

ответа
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 154 просмотра
0

ответов
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 284 просмотра
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 114 просмотров
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 110 просмотров
0

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 441 просмотр
3

ответа
Java

Простой
Как эффективно реализовать балансировку очереди запросов на Java?
- 1 подписчик
- 03 сент.
- 212 просмотров
1

ответ
Java

Простой
Как работает ForkJoinPool.ManagedBlocker?
- 1 подписчик
- 25 авг.
- 127 просмотров
0

ответов
Показать ещё Загружается…

Инженер по автоматизации тестирования (AQA Java)

DCloud

До 250 000 ₽

Automation QA Engineer (Java)

ITK academy

от 90 000 ₽

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽