Доброго времени суток. Ну... старт дан. Python достаточно мощный инструмент во всех аспектах вашей идеи.
Предлагаю поступить следующим образом:
1) Для начала в Google Colab натренировать сеть. Если есть возможность по мощностям на домашнем PC - можно на нем. Разбить ваши фотографии на тренировочный и тестовый сет и посмотреть результаты. Для всего этого вам понадобится CNN(Convolutional Neural Network), предлагаю сначала ознакомиться с концепцией распознавания объектов с помощью CNN.
2) Написать API для конечной модели сети
3) Написать бота, протестировав основные функции, которые требуются вам(напр. загрузка фотографий).
4) Связать модель нейронной сети и бота по написанному API