Available model sizes:

How to choose?

English only: Use .en models for better accuracy and faster processing when you only need English transcription
Multilingual: Do not use .en models.

Limited GPU/CPU or need for very low latency: Choose small or smaller models
- tiny: Fastest, lowest resource usage, acceptable quality for simple audio
- base: Good balance of speed and accuracy for basic use cases
- small: Better accuracy while still being resource-efficient
Good resources available: Use large models for best accuracy
- large-v2: Excellent accuracy, good multilingual support
- large-v3: Best overall accuracy and language support

No translation needed: Use large-v3-turbo
- Same transcription quality as large-v2 but significantly faster
- Important: Does not translate correctly, only transcribes

Model	Speed	Accuracy	Multilingual	Translation	Best Use Case
tiny(.en)	Fastest	Basic	Yes/No	Yes/No	Real-time, low resources
base(.en)	Fast	Good	Yes/No	Yes/No	Balanced performance
small(.en)	Medium	Better	Yes/No	Yes/No	Quality on limited hardware
medium(.en)	Slow	High	Yes/No	Yes/No	High quality, moderate resources
large-v2	Slowest	Excellent	Yes	Yes	Best overall quality
large-v3	Slowest	Excellent	Yes	Yes	Maximum accuracy
large-v3-turbo	Fast	Excellent	Yes	No	Fast, high-quality transcription

Model Performance:

Hardware Requirements:

Audio Quality Impact: