Необходимо по изображению подобрать доменную зону из newGTLD. Например - девушка в купальнике - домен .SEXY, человек с бокалом вина на фото - .WINE, человек в деловом костюме - .BUSINESS. На данный момент прототип работает на основе Google Vision Api, полученный набор признаков изображения сравнивается на схожесть с вручную составленным словарем синонимов каждой доменной зоны с помощью word2vec. Результаты субьективно не очень. Так, для девушки в купальнике полученные признаки: "human hair color", "girl", "leg", "interaction", "mouth", "black hair", "organ", "finger", "long hair", "thigh" семантически очень далеки от синонимов к слову sexy.
Какие еще подходы можно пробовать к решению такой задачи? Доменных зон порядка 500.
Думаю, потому что ответ очень субъективен. Почему девушка в купальнике должна быть "SEXY", а не "swimsuit", или "beach"?
Подходы к решению - берем большой корпус картинок, вручную помещаем их теми тегами, которые мы считаем правильными, строим модель а потом используем ее.