Дмитрий Прокопчук, не знаю. вообще их много, у яндекса есть, у сбера, у микрософта, амазона итп
В том телеграм боте 5 разных движков для распознавания в настройках есть - whisper, gemini, google(он же микрософт он же хз кто), assemblyai, deepgram. Если какой то плохо работает с конкретным голосом или записями можно переключиться на другой и попробовать как там будет.
Если хочется всё делать локально на своём компьютере то понадобится видеокарта с большим количеством памяти, типа RTX3060 12gb. На ней можно будет запускать транскрибатор, программу для распознавания текста из звука ((whisper)) и приличные нейросети, например qwen3-8b. Результат будет вполне терпимый.
nata32, а где искала? такие вопросы лучше сразу в чатгпт слать
как с помощью imagemagick переконвертировать много картинок сразу
Чтобы переконвертировать много картинок сразу с помощью ImageMagick, вы можете использовать команду mogrify. Например, чтобы конвертировать все изображения в текущей директории из формата JPG в PNG, выполните следующую команду в терминале:
mogrify -format png *.jpg
Эта команда возьмет все файлы с расширением .jpg в текущей директории и создаст их копии в формате .png, сохраняя исходные файлы.
Если вы хотите изменить формат и, например, уменьшить размер всех изображений, вы можете комбинировать опции:
mogrify -format png -resize 50% *.jpg
Эта команда сконвертирует .jpg в .png и уменьшит размер каждого изображения на 50%.
Будьте осторожны с mogrify, так как она может перезаписать исходные файлы. Если вы хотите сохранить исходные файлы и создать новые в другой директории, лучше использовать цикл с командой convert. Например:
mkdir output_png
for img in *.jpg; do convert "$img" "output_png/${img%.jpg}.png"; done
Эта команда создаст директорию output_png (если ее нет) и сконвертирует каждый .jpg файл в текущей директории в .png файл в директории output_png.
не приложения но тг боты есть. через микрофон голосовуху кидаешь или файл мп3 итп и получаешь текст из них, и перевод/анализ/пересказ/итп если надо
тут например https://t.me/kun4sun_bot там есть несколько разных движков распознавания в настройках. они все неидеальные, при плохом звуке могут неправильно расслышать, проглотить абзац текста итп но вобщем шикарно работает
Не надо никаких портов открывать. Вручную по крайней мере. Просто устанавливаешь зеротиер, подключаешь его в нужную сеть и всё работает.
А работает либо напрямую - если получается пробить НАТ, либо через американские серверы с большим пингом и низкой скоростью с перспективой что путин красавчег всё это перекроет скоро.
Если логи чистые значит надо добавить логов. Пускай пишет в логи что-нибудь когда появляется в нужных местах, так узнаешь работал ли нужный код или даже не запускался.
Зачем так сложно, у гугловской джемини можно просто в лоб спросить хорошо ли дети справились с уборкой комнаты, получиться намного лучше чем у любой крошечной модели как ее не обучай.
В том телеграм боте 5 разных движков для распознавания в настройках есть - whisper, gemini, google(он же микрософт он же хз кто), assemblyai, deepgram. Если какой то плохо работает с конкретным голосом или записями можно переключиться на другой и попробовать как там будет.