Лучший качественный переводчик напрямую
с голоса в голос, на текущий момент, это можно сделать на базе ИИ от openai - голосовой gpt (на основе gpt4o-audio и gpt4o-realtime есть еще mini варианты, они дешевле но очевидно тупее, хотя возможно для задач перевода более чем).
Бесплатно audio-audio попробовать можно у майкрософта в windows 11 во встроенном в edge copilot а так же на сайте copilot.microsoft.com, но требуется vpn (до появления audio моделей я пользовался их copilot под linux, подменив user agent в chromium браузере но сейчас это не сработает). Полагаю для голоса там используется модель mini. Системный промпт текстом не понимает, нужно говорить голосом сразу после старта
например:На каждое мое сообщение отвечай его переводом, с русского на английский, а любой другой язык переводи на русский. Скажи ок если все понятно.
В этом случае он будет работать как синхронный переводчик
Понимает интонации (можно спросить - обясни чем отличаются следующие фразы - и сказать две одинаковые фразы, которые меняют свой смысл от интонации, например - 'я тебя понял' по простому, с раздражением, с иронией и т.п.), то что ни одна модель транскрибации не поймет.
В документации сказано что эти модели могут генерировать текст, так что формально они могут и
голос в текст, но я не пробовал, все никак руки не дойдут потрогать realtime api, openrouter интерфейса не имеет а на основе официального нужно софт пилить, вроде есть примеры на
github....
Все остальное - это последовательная транскрибация audio -> текст и после этого текст -> перевод.
Для транскрибации из открытых утилит - безусловно лидер openai:whisper (использовать large качественно но долго).
И тут лучшим переводчиком является топовые gpt.
Но есть нюанс - в готовом виде инструменты работают только для перевода коротких текстов (возможно chatgpt 'с памятью' уже научился но я не пробовал), например, при переводе книги, ее персонажи, в зависимости от пола, должны переводиться на русский по разному (он пошел - она пошла), если давать модели последовательно параграфы/главы, она не запомнит (контекстное окно считанные тысяча токенов, в него влезет пара глав от силы) пол персонажа, и придумает его от имени или даст случайный. Поэтому нужно в процессе перевода собирать важную информацию и добавлять его к системному промпту. Я пробовал такое в полуручном режиме, это работает шикарно.
Еще момент, топовый gpt знает лучше любого автоматического переводчика нюансы языков, устоявшиеся выражения, мемы и языковые особенности, но пока ты об этом не попросишь, не будет самовольно использовать это знание, т.е. системный промпт получается не просто - переведи это... а сложное ТЗ на десятки-сотни строк (где то видел в тг каналах примеры промптов, они с трудом влезали в 8к токенов), а я считаю что простым чатом тут не обойтись, и нужен процесс, серия агентов, которые будут разбирать текст на части, анализировать его, выискивать языковые и географические (для автора) особенности, запоминать особенности стилистики автора по тексту и тьму тьмущую вещей, которые знают только профессиональные переводчики... в общем не простая задача, но она точно реальна.
И да, русский язык в gpt, даже топовых, для галочки (были сообщения от openai разработчиков, что большое количество языков в обучающей выборке повышают ее качество), а значит если целевой язык не английский, высоких результатов не будет (но все еще лучше чем любой обычный автоматический переводчик, включая гугл, хотя они точно первые в этом)
p.s. топовые ИИ это openai:gpt4o и выше (4.1, o1, o3 но я думаю это излишне), anthropic:claude_sonnet_4 (3.7 и 3.5 использовал на всю катушку, для разных задач), google:gemini_2.5_pro и т.п. Mistral/qwen/grok/deepseek попробуй сам. Из открытых я сильно удивился майкрософтовскому phi4 (всего 14b параметров, заработает у обывателя с 32-64гб ram), как минимум он неплохо отвечает на русском, до этого более менее на русском от 70b llama говорила (но качество ее перевода было ниже среднего), вроде бы gemma3 (12b..27b) тоже не плохи но я мало экспериментировал, она мультимодальная и требования к оперативке +24гб даже для 12b