Посмотрите вот статью - хорошее объяснение архитектуры и работы трансформера с большим количеством картинок:
Transformer в картинках
https://habr.com/ru/articles/486358/
И вот ещё видео лекция по Self-Attention и траснформерам с пояснением тех же картинок, что в статье:
Прикладное машинное обучение 4. Self Attention. Transformer.
https://www.youtube.com/watch?v=Bg8Y5q1OiP0