Ну для начала - организовать захват экрана (скажем, через vidgear), прикрутить распознавание текста (скажем, через tesseract).
А дальше - если ИИ должен отвечать только на заранее известные ему вопросы, то использовать какой-нибудь из алгоритмов полнотекстового поиска, где запрос - это распознанный текст вопроса.
Альтернативно можно тупо искать наиболее похожий известный вопрос стандартным модулем difflib.
Когда поняли, какой вопрос нам задают, используем pywinauto или pyautogui для ввода текста.