Как эмуляторы транслируют клиентский код в машинный?

Question

Даниил @daniil14056

Как эмуляторы транслируют клиентский код в машинный?

Представим такой упрощенный код, интерпретатора шитого кода.
Вопрос, на которой не могу найти ответа. Когда эмулятор собирает и компилирует код jit,
то как он этот код в машинных инструкциях составляет. Ведь если запустить такой код 1в1 соотношений инструкций, или более оптимизированный даже, есть прерывания, есть некие интерфейсы чью логику нужно поддерживать. (а невозможно выйти из выполнения клинского кода, если только в самом клиентском коде, не будет спец. инструкций переключения, проблема остановки наверное)
Ведь ему надо к примеру
Перед выполнением каждой инструкции проверять наличие прерывания
А значит ему нужно компилировать код, вставляя через инструкцию, инструкцию проверки выполнения условия, и инструкцию перехода. В общем минимум 3 инструкции.
Плюс там наверное, еще нужно поддерживать эмуляцию разных устройств.
На псевдокоде простой интерпретатор будет как-то так, куча проверок перед каждым выполнением,
но статистически известно, что прерывание вещь редкая, но требует мгновенной реакции(или вопрос на эмуляторах она не требует мгновенной реакции).

while(env->pc>0){
       if(env->IsInterrupt){
              pic->Interrupt();        
         }
          code[pc].Execute(param[pc]);
}

Я придумал, к примеру, вшить проверку прерываний, в некоторые инструкции. Я читал

while(env->pc>0){ 
          code[pc].Execute(param[pc]);
             // некоторые инструкции имеют в теле проверку прерываний
            // все инструкции перехода, деления
}

Я читал "Программное моделирование вычислительных систем Учебное пособие", там я я не нашел конкретный ответ, либо я его не понял.
Но там было типа написано, что типа надо проверять после каждой инструкции, что не оптимально, либо же делать Callback когда нужно, но без конкретики.
Еще вопрос из теории графов потока управлений итд.
При генерации блоков кода, этот код весь линеен, то есть все инструкции программы друг за другом выполняются? В таком случае, все в один массив записывается, но тогда, короче, после некоторых инструкций перехода, будет так, что инстурукция ниже будет к другому коду относится, и тогда у этой инструкции перехода будет if(cond) прыжок в одно место, else в другое,
вместо просто PC+=1(для примера выше)
Или же есть несколько блоков, где линейно выполняется весь блок, а последняя инструкция прыгнет в другой блок. Тогда можно представить в контексте примера, как несколько массивов code.

К примеру есть такой граф. Цифрами будет обозначен порядок прохождения

Если все строить в один последовательный массив, то будет построен такой код,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17. Из графа видно, что после блока 13 есть переходы на 9 или на 17, а не на след за ним 14, что усложняет. (я эту ошибку очень долго найти не мог, пока не понял)
Я читал, и вроде как делаются разные блоки, типа трассировки, и после проождения одного происходит переключение на другой(но не особо понял), к примеру для вот такого примера графа, сколько базовых блоков можно построить?

Вопрос задан более двух лет назад
389 просмотров

2 комментария

Подписаться 7 Сложный 2 комментария

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

2 комментария

Даниил @daniil14056 Автор вопроса
спс за ответ. Есть еще такой вопрос, все не пойму.
Базовый блок заканчивается при инструкции чтения памяти, в вики то же написано. А ведь это почти каждая вторая инструкция. Как это решается. Тогда каждый блок будет из 1 команды почти.
Либо же надо как-то взять и всю память как-бы отнять. Или логику поменять.

Еще то же вопрос он так же к этому, проверка выхода за границы массива.
Пример, Пройти в цикле по массиву и найти сумму элементов.
Программа-> Компилятор -> 3 адр код на выходе -> ОптимизированныйИнтерпретор

// sum(byte* arr) // sum=0; // for(int i=0;i<10;i++) // sum+= arr[i]; // return sum; // вариантик на ходу , пример 3адр кода 0: load maxReg 10 1: load IterReg , 0 2: load sumReg, 0 3: load arrReg, r1 4: branchIfLess IterReg, maxReg, "9:" 5: load valReg, [sumReg+iterReg] 6: add sumReg, valReg 7: addi iterReg, 1 8: branchIfLess r1, r2, "5:" 9: mov r1, sumReg 10: ret

Вот такой код для примера, хочу понять как он будет обрабатываться интерпретатором.
( В перспективе еще развернуть цикл, пока то же не понимаю, к примеру как собирается статистика, если базовые блоки часто большие из 10 и более инструкций, то вопрос решается)

Я уже точно знаю, что если в метке "9" i < 10,. условие выполнилось, то и при след доступе к элементу arr[i] у меня не будет выход за предел массива.
Но машина эмулирует память, и должна выдавать исключения при выходе за границу памяти. И она там не знает что вот там есть какой-то регистр, и какая-то инструкция до, уже выполнила проверку.
Эмулятор имеет к примеру такую функцию чтения памяти, самый простой вариант.

byte ReadByte(int address){ if(address<0 && address>maxAddress) ____();/// что-то там return *(byte-*)mem+address; } // byte ReadByte(int address)=> *(byte-*)mem+address;

Короче if(...) функции явно лишняя, плюс ко всему, эта инструкция блок прервет.
Вариант заменить ее закомментированным вариантом. Но не понимаю, как обнаружить, особенно если что-то посложнее, и архитектурное решения точно должно решить и первую проблему
Написано более двух лет назад
jcmvbkbc @jcmvbkbc

Базовый блок заканчивается при инструкции чтения памяти, в вики то же написано. А ведь это почти каждая вторая инструкция. Как это решается.

Даниил, заканчивать базовый блок на инструкции которая может вызвать исключение -- это возможный вариант, но он очень пессимистичный и точно не единственный. В QEMU, например, это не так.

проверка выхода за границы массива…машина эмулирует память, и должна выдавать исключения при выходе за границу памяти.

Ты уж определись, "память" или "массив". Потому что эмулятор должен проверять, что любой доступ к эмулируемой памяти в неё попадает. А что такое "массив" никто кроме компилятора не знает.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Процессоры

+1 ещё

Простой
Совместимы ли 12400f и Z790?
- 1 подписчик
- 11 июл.
- 243 просмотра
1

ответ
Процессоры

Простой
Какой сокет Интел лучше выбирать сейчас?
- 1 подписчик
- 16 мар.
- 520 просмотров
1

ответ
Процессоры

Простой
Многие игры не догружают процессор даже до 35% что делать?
- 1 подписчик
- 15 мар.
- 392 просмотра
1

ответ
Процессоры

Простой
Загрузка цп 100 при открытии любого браузера?
- 1 подписчик
- 03 февр.
- 518 просмотров
2

ответа
Серверное оборудование

+3 ещё

Средний
Как избавиться от сообщения с просьбой привязать процессор на сервере Dell R7525 и при этом не привязывать его?
- 3 подписчика
- 04 янв.
- 408 просмотров
1

ответ
Компьютеры

+2 ещё

Простой
4 пин питание проц в 8 пин разъем можно ли?
- 1 подписчик
- 29 дек. 2025
- 465 просмотров
2

ответа
Процессоры

+1 ещё

Простой
Почему Intel Core i7-14700 (Raptore Lake Refresh) не выходит за пределы 65 ватт?
- 1 подписчик
- 20 дек. 2025
- 497 просмотров
1

ответ
Компьютеры

+3 ещё

Средний
Почему не отображаются показатели Ryzen 5 9600x в RivaTuner?
- 1 подписчик
- 14 нояб. 2025
- 174 просмотра
1

ответ
Мониторы

+2 ещё

Средний
В чём может быть причина такого артефакта на мониторе?
- 2 подписчика
- 04 нояб. 2025
- 670 просмотров
1

ответ
Процессоры

Простой
Возможна ли работа с монитором без графического ядра?
- 3 подписчика
- 04 нояб. 2025
- 542 просмотра
3

ответа
Показать ещё Загружается…

Дружище ну это вообще не формат хабра. Тут не звучит вопрос.

Ты сходу забрасываешь термин "шитый код" который тут кроме программистов Форта никто и не знает.
Потом забрасываешь какие-то свои предположения.

И еще на закуску создаешь дополнительный вопрос из теории графов.

Давай как-то упрости. Умение задавать короткий вопрос - это тоже талант.

Попробуй прояви талант.
mayton2019, в процессе написания вопроса, часто что-то понимаю, ответ, порой сокращает время гугления. так как большинство терминов вообще не найти на русском.

Answer 1 · 2023-08-22 21:27:10

Когда эмулятор собирает и компилирует код jit, то как он этот код в машинных инструкциях составляет.

Если ты посмотришь на QEMU, то у него есть фронт-енды (https://github.com/qemu/qemu/tree/v8.1.0/target), каждый из которых транслирует инструкции эмулируемой машины в промежуточный код. И есть бэк-енды (https://github.com/qemu/qemu/tree/v8.1.0/tcg), каждый из которых транслирует инструкции промежуточного кода в инструкции хостовой машины. Каждая гостевая инструкция может превратиться во множество промежуточных, а каждая промежуточная -- во множество хостовых. У разработчиков есть правило, что если на гостевую инструкцию требуется больше 20 промежуточных, то вместо прямой трансляции такая инструкция реализуется как вызов функции на C. Инструкции транслируются базовыми блоками, с заданного адреса и до достижения одного из следующих условий: 1) встречена инструкция выполняющая переход (условный или безусловный, вызов функции, возврат из функции, сюда же относятся инструкции гарантированно вызывающие исключение), или 2) PC переходит через границу страницы виртуальной памяти, или 3) количество инструкций в базовом блоке превышает заданный предел. Вдобавок с каждым оттранслированным базовым блоком ассоциируется дополнительный набор флагов, определяемый фронт-ендом, который кодирует состояние, в котором была машина при трансляции этого кода. Это позволяет иметь несколько вариантов трансляции для кода начинающегося с одного и того же адреса, например для разных уровней привилегий. Оттранслированные базовые блоки помещаются в кеш с функцией поиска по комбинации адреса и дополнительного набора флагов. В цикле выполнения эмулятор ищет транслированный базовый блок кода в кеше (а если не находит его, то транслирует и помещает в кеш), запускает его и получает контроль после завершения его выполнения.

надо к примеру Перед выполнением каждой инструкции проверять наличие прерывания

Вовсе не каждой, даже в 100% точной эмуляции нужно проверять IRQ только когда прерывания разрешены. QEMU обычно проверяет запрос на прерывание только перед входом в оттранслированный базовый блок.

Или же есть несколько блоков, где линейно выполняется весь блок, а последняя инструкция прыгнет в другой блок.

Да, QEMU выполняет трансляцию базовыми блоками.

к примеру для вот такого примера графа, сколько базовых блоков можно построить?

В этом графе не обозначены безусловные переходы, если их нет, то QEMU мог бы выделить такие базовые блоки: 0-1-2-3, 4-5-6, 7-8-1-2-3, 9-10, 11-12-13, 14-15-16-2-3, 17, всего 7 блоков.
Если безусловные переходы -- это все переходы от узлов с бОльшими номерами к узлам с меньшими, то картина была бы такой: 0-1-2-3, 4-5-6, 7-8, 1-2-3, 9-10, 11-12-13, 14-15-16, 2-3, 17. Да, фрагмент 2-3 оттранслирован три раза: сам по себе и в составе других блоков.

Answer 2 · 2023-08-22 21:24:05

Наверное стоит заглянуть с другой стороны: "как интерпретатор работает" )
И собственно окажется что jit/il - интерпретируется некоей средой выполнения.
Тот самый il - максимально удобен для его интерпретации

Кстати подобные решения практикуются давно. Как образчик на моей памяти ca clipper 40-летней давности. Ну и всякие реализации кнутовской машины.

Как эмуляторы транслируют клиентский код в машинный?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт