Что нужно знать для решения задачи по визуальному анализу содержимого web-страницы?
Я хочу написать систему, которая автоматизирует действия на вебсайтах.
Что-то, что обычно делают при помощи selenium.
Но я хочу сделать это на уровне визуального анализа вебстраницы.
То есть, содержимое экрана анализируется, находится окно браузера, в нём с определённой вероятностью находятся базовые контролы (назад, обновление, строка с url и т. п.), анализируется внешний вид самой вебстраницы, ищутся контролы на нём (input поля, то, что может быть кнопкой (опять таки вероятностно).
В machine learning у меня только теоретические знания. В computer vision я ноль.
Есть ли в мире, что-то похожее на то что, я хочу сделать?
Какие технологии анализа изображений мне помогут в решении задачи?
То есть, содержимое экрана анализируется, находится окно браузера, в нём с определённой вероятностью находятся базовые контролы (назад, обновление, строка с url и т. п.)
Зачем, если страницу можно развернуть на весь экран (F11)?
Не факт, что приложение будет развёрнуто на полный экран, будет в определённом разрешении (1080, 1440 и т.д.).
Более того, операции над этими контролами тоже будут совершаться эмуляцией мыши.
Зачем браться за задачу, для решения которой надо задействовать несколько сложных технологий, ни одной из которых вы не владеете? Не проще-ли начать с постепенного освоения этих самых технологий, а уж потом - если к тому времени вы не поймете слабую мотивированность при создании описываемого приложения - переходить к ее решению?
Цель не освоить технологии, а сделать продукт который нужен людям и мне самому. Но мне пока даже малопонятно какого специалиста привлекать. Насколько эта задача из области CV, или это можно решить сугобо ml'ными навыками.
Да, нужно что-то похожее, но вариации допустимы не только не цвету, но и по форме. Не уверен что подобное просто сделать на ahk. Поэтому рассматриваю его в паре с python, чтобы уже в нём делать всё ml'ное.