Available Whisper model sizes:

How to choose?

English only: Use .en models for better accuracy and faster processing when you only need English transcription
Multilingual: Do not use .en models.

Limited GPU/CPU or need for very low latency: Choose small or smaller models
- tiny: Fastest, lowest resource usage, acceptable quality for simple audio
- base: Good balance of speed and accuracy for basic use cases
- small: Better accuracy while still being resource-efficient
Good resources available: Use large models for best accuracy
- large-v2: Excellent accuracy, good multilingual support
- large-v3: Best overall accuracy and language support

No translation needed: Use large-v3-turbo
- Same transcription quality as large-v2 but significantly faster
- Important: Does not translate correctly, only transcribes

Model	Speed	Accuracy	Multilingual	Translation	Best Use Case
tiny(.en)	Fastest	Basic	Yes/No	Yes/No	Real-time, low resources
base(.en)	Fast	Good	Yes/No	Yes/No	Balanced performance
small(.en)	Medium	Better	Yes/No	Yes/No	Quality on limited hardware
medium(.en)	Slow	High	Yes/No	Yes/No	High quality, moderate resources
large-v2	Slowest	Excellent	Yes	Yes	Best overall quality
large-v3	Slowest	Excellent	Yes	Yes	Maximum accuracy
large-v3-turbo	Fast	Excellent	Yes	No	Fast, high-quality transcription

Model Performance:

Hardware Requirements:

Audio Quality Impact:

Language Support: ~200 languages

Model	Size	Parameters	VRAM (FP16)	VRAM (INT8)	Quality
600M	2.46 GB	600M	~1.5GB	~800MB	Good, understandable
1.3B	5.48 GB	1.3B	~3GB	~1.5GB	Better accuracy, context

Quality Impact: 1.3B has ~15-25% better BLEU scores vs 600M across language pairs.

Backend	Speed vs Base	Memory Usage	Quality Loss
CTranslate2	6-10x faster	40-60% less	~5% BLEU drop
Transformers	Baseline	High	None
Transformers + MPS (on Apple Silicon)	2x faster	Medium	None

Metrics:

Choose 600M: Limited resources, close to 0 lag Choose 1.3B: Quality matters Choose Transformers: On Apple Silicon