Задача называется Semantic Similiarity. Я с этим направлением не работал вообще, но интуитивно могу предположить LSTM/CNN и разные вариации на тему Siamese/Triplet networks.
Это почти нейронка. Представьте, что каждое число в ячейке - это коэффициент 64х мерной прямой. По сути, здесь происходит аппроксимация функции оптимального поведения с помощью генетических алгоритмов.