Судя по всему, Вас интересует Deep Learning, а именно Machine Translation (seq2seq). Есть туториал для TensorFlow. Но в качестве начала, советую попробовать высокоуровневую библиотеку Keras.
Судя по всему Вам нужен doc2vec. После того как обучите модель, можно будет использовать метод n_similarity. Идея в том, чтоб представить тексты ввиде векторов, после чего можно будет посчитать их cosine similarity.
Вы создаете питоновский скрипт, который будет загружать сохраненную модель и делать предсказания. А из java запускаете этот питоновский скрипт.
Из недостатков - работает медленно. Каждый раз происходит инициализация всех питоновских библиотек и загрузка самой модели. Подходит, когда делаете предсказания редко на каком-нибудь батче.
Используете, например, Flask и создаете REST API, которая, используя сохраненную модель, делает предсказания.
Из недостатков, нужно хостить отдельный сервис.