Таблица истинности всех валидных натуральных свойств объектов с учётом корректности логических отношений каждого из свойств между собой.
Пример: Воздушный слон
Логика рассуждения (алгоритм работы кода):
1. Слон -> животное, перемещается, шагая по плотной поверхности, дышит воздухом (частично им наполнен)
2. Воздушный -> Воздух -> опирается на любую поверхность (снаружи), заполняет любое свободное пространство (изнутри).
3. Воздушный -> Наполняет изнутри или окружает объект со всех сторон.
Выводы:
1. Слон не состоит на 100% из воздуха.
2. Слон не окружён воздухом со всех сторон.
В базе данных, создайте рядом колонку и заполните её заранее, вытащив парт-номер из строки. /(?:[0-9A-Z-]+[-]{0,1}){8}/u
Затем, просто выполняйте поиск по этой колонке.
Можно создать триггер, который будет заполнять эту колонку автоматически при добавлении новых товаров.
Собственно речь клиента
1. (+1) Промаркируйте все фразы начала разговора клиентом.
2. (-1) С обратным знаком, промаркируйте все начала фраз автоответчика.
3. (ALL - ([1]+[2])) Остальное - будут музыка и песни.
Только НС-обучение перестановок на больших текстовых данных и использование превалирующих цепочек (большинство из возможных при данной конкретной морфологической цепочке слов: с конкретными частями речи, падежами, склонениями и т.д.).
1. Спросить у гугла конкретный вопрос и составить по первым N-линкам, модель верного ответа - обучить модель на поисковой выдаче.
2. Применить обученную модель к текущему вопросу и найти наиболее подходящий ответ (из всех ответов и коментариев).
Никак. Но...
Можно попытать счастье: попробовать найти тот же скриншот в интернете по картинке, предварительно заменив "замазку" на цвет фона/пикселей окружения.
Тем самым, уменьшив модульное расстояние до искомого изображения, чтобы увеличить шансы на успешный поиск.
1. Проверяем по 3 буквы: 1-ая позиция - одинаковая, последующие: звонкие/глухие согласные и парные гласные(а/о,и/е и т.д.) - должны быть на тех же позициях.
2. Проверка по наибольшей длине совпадения в первых двух третях от общей длины слова.
Пока 2 варианта вижу:
1. Простой - разрыв несуществующих цепочек (окружение по 8-10 символов брать и разделять там, где нужно) и часть правил слитно/раздельно ("НЕ"/"НИ" и т.д.) - сделать регулярками.
2. Сложный - НС строить и обучать уже по-полной, включая проверку орфографии и разбор предложения по частям речи (+получение структуры предложения и смысла текста).
Мария
Анна
Виктория
Полина
Елизавета
Екатерина
Ксения
Валерия
Варвара Free 1.4
Варвара Pro 2.0
Александра
Вероника
Надежда
Светлана
Злата
Олеся 3.3
Олеся Free_Lite 4.8
Наталья
Эвелина /варвара.*?/usix /олеся.*?/usix
Для простой кластеризации можно использовать PHP и функцию similar_text().
1. Вначале нужно "собрать" корректное/валидное DOM-дерево.
2. Затем, добавить все нужные теги
3. Удалить все запрещённые теги
4. Затем, рекурсивно обойти все ветки DOM-"дерева", выполнив текстовые преобразования.
Порядок в общем виде (строго соблюдая последовательность действий!):
Валидация структуры, добавление нужных элементов, удаление запрещённых элементов, модификация "тела" оставшихся элементов.