Да, экшены так и делают. Сервер может отправлять около 20 снепшотов игрового состояния на клиент, то есть приблизительно каждые 50 миллисекунд. Чтобы изображение не дергалось отображение игрового состояния смешают назад в прошлое скажем на 50 миллисекунд, а клиент таким образом имеет возможность интерполировать перемещение игроков и анимации между текущим и предыдущим состоянием. Соответственно и сервер должен рассчитывать ввод пользователя в прошлом учитывая это смещение на 50 миллисекунд, учитывая время на путешествие пакета от клиента до сервера и возможно что-то еще, чтобы сделать стрельбу или маханием мечем максимально точным.
Для пошаговой игры это избыточно. Там достаточно просто отправлять новое состояние с сервера только в ответ на ввод пользователя.
Другой вопрос стоит ли для этого использовать websocket php, когда насколько мне известно unity итак предоставляет возможности для организации мультиплеера.