Вам нужно смотреть статьи и материалы примерно с 2016 по 2021 года. Увы, но после "бума нейросетей" информационный фон полностью и безвозвратно засорил весь интеренет, и поиск толковой информации нужно проводить не в поисковиках, а в профильных лентах, а в тч архивных, авторов-инженеров.
Напрмер по вашем вопросу можно откопать отличную и подходящую статью у Deep Mind (одни из первых исследователей трансформеров)
https://research.google/blog/transformer-a-novel-n... думаю, что это как раз то, что вы искали.