Ingernirated: это не так работает. Регистры так же как кэш хранят данные, но время прохождения сигнала через ячейку памяти влияет на быстродействие не так сильно. Вопрос в другом: регистров общего назначения в процессоре мало, и они адресуются непосредственно в командах. Поэтому доступ к ним быстрый. А для кэша такой подход не работает, кэш большой и доступ в нём ассоциативный, а не адресный, соответственно, нужен контроллер кэша, который будет искать в нём данные. Поэтому получение данных из L1 кэша длится в разы дольше, чем получение их из регистрового файла. Ячейки L2 и L3 могут быть построены и на том же принципе, что L1, но в силу большего размера этих кэшей в них тяжелее что-то найти.
Ingernirated: Если в первом приближении, то ячейка регистра отличается от ячейки L1 тем, что для храниения 1 бита регистра в железе применяется порядка 30 транзисторов, а L1 --- это SRAM, там ячейка в 1 бит это 6 транзисторов. Собственно, в этом и проблема производства: 6 транзисторов займут меньшую площадь на кристалле, чем 30.