Best NVIDIA GPUs for Local AI

Find the right GPU for running AI models locally with Ollama. From budget 12GB cards to the 32GB RTX 5090, compare speeds, VRAM, and model compatibility.

Speed BenchmarkQwen3 8B Q4_K @ 16K context

145 t/s RTX 4090

104 t/s RTX 5080

94 t/s RTX 5070 Ti

87 t/s RTX 3090

87 t/s RTX 4080 SUPER

79 t/s RTX 4070 Ti SUPER

72 t/s RTX 5070

59 t/s RTX 4070 SUPER

56 t/s RTX 4070

52 t/s RTX 5060 Ti

51 t/s RTX 3060

42 t/s RTX 4060 Ti

$

Budget

RTX 3060

12 GB GDDR6|42 tok/s

Up to 9B parameter models

RTX 4060 Ti

16 GB GDDR6|34 tok/s

Ada Lovelace|$409

Up to 14B parameter models

RTX 5060 Ti

16 GB GDDR7|51 tok/s

Up to 14B parameter models

$$

Mid-Range

RTX 4070

12 GB GDDR6X|52 tok/s

Ada Lovelace|$579

Up to 9B parameter models

RTX 4070 SUPER

12 GB GDDR6X|56 tok/s

Ada Lovelace|$759

Up to 9B parameter models

RTX 5070

12 GB GDDR7|59 tok/s

Up to 9B parameter models

RTX 5070 Ti

16 GB GDDR7|87 tok/s

Up to 14B parameter models

RTX 4070 Ti SUPER

16 GB GDDR6X|72 tok/s

Ada Lovelace|$1,148

Up to 14B parameter models

$$$

High-End

RTX 4080 SUPER

16 GB GDDR6X|79 tok/s

Ada Lovelace|$1,597

Up to 14B parameter models

RTX 5080

16 GB GDDR7|94 tok/s

Up to 14B parameter models

RTX 3090

24 GB GDDR6X|87 tok/s

Up to 32B parameter models

RTX 4090

24 GB GDDR6X|104 tok/s

Ada Lovelace|$2,574

Up to 32B parameter models

$$$$

Ultra

RTX 5090

32 GB GDDR7|145 tok/s

Blackwell|$2,499

Up to 70B parameter models

VRAM Guide: What Models Can You Run?

VRAM	Max Model Size	Example Models
12 GB	Up to 9B (Q4)	Qwen2.5 7B, Llama 3.2 8B, Mistral 7B
16 GB	Up to 14B-27B (Q4)	Qwen2.5 14B, DeepSeek-R1 14B
24 GB	Up to 32B (Q4)	Qwen2.5 32B, DeepSeek-R1 32B
32 GB	Up to 70B (Q4)	Llama 3.1 70B, Qwen2.5 72B

Have an Apple Silicon Mac Instead?

ModelFit also supports MacBook Air, MacBook Pro, Mac Studio, Mac Mini, and iPhone.

Open ModelFit Wizard →