Очень странно конечно ставить такую задачу как "наковырять хоть что нибудь". Как из говна собрать сливки. Прошу прощения за мой французский.
По делу.
Мне кажется что в таком виде как написано
В последующем посещала
данные не годятся для обучения.
А чтобы они годились - нужно сеть и вручную проанализировать какие признаки (features вообще у нас есть).
Например если есть температура - это вещественное значение. Если есть болезнь - и всего возможно 300 болезней то мы заводим 300 полей вещественного типа и заполняем их 1.0 если выявлен признак. А для всех других 299 ставим 0.0.
Да именно так. Системы машинного обучения не работают со словами. Все эти классификации, регрессии воспринимают только вещественные числа. Если вы вдруг (!) где-то видели систему которая что-то извлекает из текста - то не верьте. Вас обманывают. Текст все равно проходит векторизацию чтобы свести задачу о операциям над векторами величин.
По поводу умного
авто-дополнения я вообще не могу ничего сказать. Непонятно.
Приведите пример хотя-бы на эти данных.