| Model | Token Limits | Request and Other Limits | Batch Queue Limits |
|---|---|---|---|
| Chat | |||
| gpt-3.5-turbo | 200,000 TPM | 500 RPM, 10,000 RPD | 2,000,000 TPD |
| gpt-3.5-turbo-0125 | 200,000 TPM | 500 RPM, 10,000 RPD | 2,000,000 TPD |
| gpt-3.5-turbo-1106 | 200,000 TPM | 500 RPM, 10,000 RPD | 2,000,000 TPD |
| gpt-3.5-turbo-16k | 200,000 TPM | 500 RPM, 10,000 RPD | 2,000,000 TPD |
| gpt-3.5-turbo-instruct | 90,000 TPM | 3,500 RPM | 200,000 TPD |
| gpt-4 | 10,000 TPM | 500 RPM, 10,000 RPD | 100,000 TPD |
| Text | |||
| babbage-002 | 250,000 TPM | 3,000 RPM | |
| chatgpt-4o-latest | 500,000 TPM | 200 RPM | |
| text-embedding-3-large | 1,000,000 TPM | 3,000 RPM | 3,000,000 TPD |
| Realtime | |||
| gpt-4o-mini-realtime-preview | 40,000 TPM | 200 RPM, 1,000 RPD | |
| Moderation | |||
| omni-moderation-2024-09-26 | 10,000 TPM | 500 RPM, 10,000 RPD | |
| Fine-Tuning Inference | |||
| gpt-3.5-turbo-0125 | 200,000 | 500 | |
| Image | |||
| dall-e-3 | 500 RPM, 5 images per minute | ||
| Audio | |||
| whisper-1 | 500 RPM | ||
| Other | |||
| Default limits for all other models | 250,000 TPM | 3,000 RPM |
И скорее всего пробросить gpu получится, например qemu/kvm это поддерживает, нужно в параметрах запуска ядра в grub отключить pci устройство с видеокартой, что бы не инициализировалось раньше времени,.. проблемы начнутся после в windows, nvidia сделала все что бы драйвера не заводились. Помню с некоторыми видеокартами это получалось, но саму windows с драйверами нужно настроить заранее, на реальном железе и уже потом переносить внутрь виртуалки.
И да, скорость работы будет грустной, 10-15% процессорных мощностей будут как плата за виртуализацию, я помню в игре у меня просел fps и того больше, но это было больше десяти лет назад