Local LLM Compatibility Dataset

Name: ModelFit Local LLM Hardware Compatibility Dataset
Creator: ModelFit
License: https://creativecommons.org/licenses/by/4.0/

107 models by params, quantization, and memory load. Which run locally on Apple Silicon and NVIDIA GPUs. Free under CC BY 4.0. Updated 2026-07-25.

JSON export GitHub

This is ModelFit's open compatibility dataset: every model the site tracks, with the parameter size, quantization, minimum RAM, and estimated memory load used to decide what runs locally. Memory figures are system/unified RAM; the same budget math applies to GPU VRAM (per-card breakdowns live in the GPU guides). Reuse it freely with attribution (CC BY 4.0). Credit ModelFit (modelfit.io). Machine-readable version: /api/dataset/, or get the CSV + JSON on GitHub.

Prefer the terminal? The same dataset and engine power the open-source CLI: npx @wecko-ai/modelfit names the best local model for the machine it runs on. Get it on npm or GitHub.

Max RAMFamilyRuns inContext

107 of 107 models

	Family		Quant			Local	ollama
Claude 3.5 Sonnet	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude 3.7 Sonnet	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude 3 Opus	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude 4 Opus	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude 4 Sonnet	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude Opus 4.7	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude Opus 4.8	Claude	Undisclosed	API	0 GB	—	Cloud	—
Claude Fable 5	Claude	Undisclosed	API	0 GB	—	Cloud	—
DeepSeek-R1 Distill Qwen 7B	DeepSeek	7B	Q4_K_M	8 GB	~5.5 GB	Yes	deepseek-r1:7b
DeepSeek-R1 Distill Qwen 14B	DeepSeek	14B	Q4_K_M	16 GB	~11 GB	Yes	deepseek-r1:14b
DeepSeek-R1 Distill Llama 70B	DeepSeek	70B	Q4_K_M	64 GB	~42 GB	Yes	deepseek-r1:70b
DeepSeek V4 Flash	DeepSeek	284B	API	0 GB	—	Open (llama.cpp)	—
DeepSeek-R1 671B	DeepSeek	671B	Q4_K_M	512 GB	~380 GB	Yes	deepseek-r1:671b-q4_K_M
DeepSeek-V3	DeepSeek	671B	API	0 GB	—	Open, no fit	—
DeepSeek-V3-0324	DeepSeek	671B	API	0 GB	—	Open, no fit	—
DeepSeek-R1	DeepSeek	671B	API	0 GB	—	Open, no fit	—
DeepSeek V4 Pro	DeepSeek	1600B	API	0 GB	—	Open, no fit	—
Gemma 3 1B Instruct	Gemma	1B	Q4_K_M	2 GB	~1 GB	Yes	gemma3:1b
Gemma 2 2B Instruct	Gemma	2B	Q4_K_M	4 GB	~1.8 GB	Yes	gemma2:2b-instruct-q4_K_M
Gemma 4 E2B	Gemma	2.3B	Q4_K_M	4 GB	~2.3 GB	Yes	gemma4:e2b
Gemma 3 4B Instruct	Gemma	4B	Q4_K_M	6 GB	~3.5 GB	Yes	gemma3:4b
Gemma 4 E4B	Gemma	4.5B	Q4_K_M	6 GB	~4 GB	Yes	gemma4:e4b
Gemma 2 9B Instruct	Gemma	9B	Q4_K_M	12 GB	~7 GB	Yes	gemma2:9b-instruct-q4_K_M
Gemma 3 12B Instruct	Gemma	12B	Q4_K_M	16 GB	~9.5 GB	Yes	gemma3:12b
Gemma 4 12B	Gemma	12B	Q4_K_M	12 GB	~8 GB	Yes	gemma4:12b
Gemma 4 12B (Q8)	Gemma	12B	Q8_0	24 GB	~12.8 GB	Yes	gemma4:12b-it-q8_0
Gemma 4 26B-A4B	Gemma	26B	Q4_K_M	24 GB	~16 GB	Yes	gemma4:26b
Gemma 4 26B-A4B (Q8)	Gemma	26B	Q8_0	48 GB	~28.1 GB	Yes	gemma4:26b-a4b-it-q8_0
Gemma 2 27B Instruct	Gemma	27B	Q4_K_M	32 GB	~21 GB	Yes	gemma2:27b-instruct-q4_K_M
Gemma 3 27B Instruct	Gemma	27B	Q4_K_M	32 GB	~21 GB	Yes	gemma3:27b
Gemma 4 31B	Gemma	31B	Q4_K_M	32 GB	~20 GB	Yes	gemma4:31b
Gemini 2.5 Pro	Google	Undisclosed	API	0 GB	—	Cloud	—
Gemini 2.5 Flash	Google	Undisclosed	API	0 GB	—	Cloud	—
Gemini 3.1 Pro	Google	Undisclosed	API	0 GB	—	Cloud	—
GPT-OSS 20B	GPT-OSS	21B	MXFP4	24 GB	~13.8 GB	Yes	gpt-oss:20b
GPT-OSS 120B	GPT-OSS	117B	MXFP4	96 GB	~65.4 GB	Yes	gpt-oss:120b
Granite 4.1 3B Instruct	Granite	3B	Q4_K_M	4 GB	~2 GB	Yes	granite4.1:3b
Granite 4.1 8B Instruct	Granite	8B	Q4_K_M	8 GB	~5.5 GB	Yes	granite4.1:8b
Kimi K2 Instruct	Kimi	1000B	API	0 GB	—	Open, no fit	—
Kimi K2.6	Kimi	1000B	API	0 GB	—	Open, no fit	—
Kimi K2.7-Code	Kimi	1000B	API	0 GB	—	Open, no fit	—
Poolside Laguna XS.2	Laguna	33B	Q4_K_M	36 GB	~23 GB	Yes	laguna-xs.2:q4_K_M
LFM2.5 8B-A1B	LFM2	8.3B	Q4_K_M	8 GB	~5.5 GB	Yes	lfm2.5:8b-a1b-q4_K_M
LFM2 24B-A2B Instruct	LFM2	24B	Q4_K_M	24 GB	~14 GB	Yes	lfm2:24b-a2b
Llama 3.2 1B Instruct	Llama	1B	Q4_K_M	2 GB	~1 GB	Yes	llama3.2:1b-instruct-q4_K_M
Llama 3.2 3B Instruct	Llama	3B	Q4_K_M	4 GB	~2.5 GB	Yes	llama3.2:3b-instruct-q4_K_M
Llama 3.1 8B Instruct	Llama	8B	Q4_K_M	12 GB	~6.5 GB	Yes	llama3.1:8b-instruct-q4_K_M
Llama 3.1 8B Instruct (Q5)	Llama	8B	Q5_K_M	12 GB	~8 GB	Yes	llama3.1:8b-instruct-q5_K_M
Llama 3.1 70B Instruct	Llama	70B	Q4_K_M	64 GB	~42 GB	Yes	llama3.1:70b-instruct-q4_K_M
Llama 3.3 70B Instruct	Llama	70B	Q4_K_M	64 GB	~42 GB	Yes	llama3.3:70b-instruct-q4_K_M
Llama 3.3 70B Instruct (Q8)	Llama	70B	Q8_0	96 GB	~75 GB	Yes	llama3.3:70b-instruct-q8_0
Llama 3.3 70B Instruct (Q6)	Llama	70B	Q6_K	96 GB	~57.9 GB	Yes	llama3.3:70b-instruct-q6_K
Llama 4 Scout	Llama	109B	Q4_K_M	96 GB	~67 GB	Yes	llama4:scout
Llama 4 Maverick	Llama	400B	Q4_K_M	320 GB	~245 GB	Yes	llama4:maverick
Llama 3.1 405B Instruct	Llama	405B	Q4_K_M	320 GB	~243 GB	Yes	llama3.1:405b-instruct-q4_K_M
Xiaomi MiMo-V2-Flash	MiMo	309B	API	0 GB	—	Open (llama.cpp)	—
MiniMax M3	MiniMax	428B	API	0 GB	—	Open, no fit	—
Mistral 7B Instruct	Mistral	7B	Q4_K_M	8 GB	~5.5 GB	Yes	mistral:7b-instruct-q4_K_M
Mistral Nemo 12B	Mistral	12B	Q4_K_M	16 GB	~9.5 GB	Yes	mistral-nemo:12b
Mistral Small 22B	Mistral	22B	Q4_K_M	32 GB	~17 GB	Yes	mistral-small:22b
Mistral Small 3.1	Mistral	24B	Q4_K_M	24 GB	~15 GB	Yes	mistral-small3.1:24b
Mixtral 8x7B Instruct	Mistral	46.7B	Q4_K_M	48 GB	~30 GB	Yes	mixtral:8x7b
Mistral Medium 3.5	Mistral	128B	API	0 GB	—	Open (llama.cpp)	—
NVIDIA Nemotron Cascade 2 30B-A3B	Nemotron	30B	Q6_K	36 GB	~24 GB	Yes	nemotron-cascade-2:30b
NVIDIA Nemotron 3 Ultra	Nemotron	550B	API	0 GB	—	Open, no fit	—
Cohere North Mini Code	North	30B	Q4_K_M	32 GB	~19 GB	Yes	north-mini-code-1.0:q4_K_M
GPT-4o	OpenAI	Undisclosed	API	0 GB	—	Cloud	—
GPT-4o mini	OpenAI	Undisclosed	API	0 GB	—	Cloud	—
GPT-5.5	OpenAI	Undisclosed	API	0 GB	—	Cloud	—
Phi-3 Mini 3.8B	Phi	3.8B	Q4_K_M	6 GB	~3.2 GB	Yes	phi3:mini
Phi-4 Mini 3.8B	Phi	3.8B	Q4_K_M	6 GB	~3.2 GB	Yes	phi4-mini:3.8b
Phi-3 Medium 14B	Phi	14B	Q4_K_M	16 GB	~11 GB	Yes	phi3:medium
Phi-4 14B	Phi	14B	Q4_K_M	24 GB	~11.5 GB	Yes	phi4:14b-q4_K_M
Qwen3.7-Plus	Qwen	Undisclosed	API	0 GB	—	Cloud	—
Qwen2.5 0.5B Instruct	Qwen	0.5B	Q4_K_M	2 GB	~0.8 GB	Yes	qwen2.5:0.5b-instruct-q4_K_M
Qwen3.5 0.8B Instruct	Qwen	0.8B	Q4_K_M	2 GB	~0.8 GB	Yes	qwen3.5:0.8b
Qwen2.5 1.5B Instruct	Qwen	1.5B	Q4_K_M	4 GB	~1.5 GB	Yes	qwen2.5:1.5b-instruct-q4_K_M
Qwen3.5 2B Instruct	Qwen	2B	Q4_K_M	4 GB	~1.8 GB	Yes	qwen3.5:2b
Qwen2.5 3B Instruct	Qwen	3B	Q4_K_M	4 GB	~2.5 GB	Yes	qwen2.5:3b-instruct-q4_K_M
Qwen3.5 4B Instruct	Qwen	4B	Q4_K_M	6 GB	~3.5 GB	Yes	qwen3.5:4b
Qwen2.5 7B Instruct	Qwen	7B	Q4_K_M	8 GB	~5.5 GB	Yes	qwen2.5:7b-instruct-q4_K_M
Qwen2.5 Coder 7B	Qwen	7B	Q4_K_M	8 GB	~5.5 GB	Yes	qwen2.5-coder:7b
Qwen3 8B	Qwen	8B	Q4_K_M	12 GB	~6.5 GB	Yes	qwen3:8b-q4_K_M
Qwen3.5 9B Instruct	Qwen	9B	Q4_K_M	12 GB	~7 GB	Yes	qwen3.5:9b
Qwen3.5 9B Instruct (Q8)	Qwen	9B	Q8_0	16 GB	~10.7 GB	Yes	qwen3.5:9b-q8_0
Qwen2.5 14B Instruct	Qwen	14B	Q4_K_M	16 GB	~11 GB	Yes	qwen2.5:14b-instruct-q4_K_M
Qwen2.5 Coder 14B	Qwen	14B	Q4_K_M	16 GB	~11 GB	Yes	qwen2.5-coder:14b
Qwen3 14B	Qwen	14B	Q4_K_M	16 GB	~11 GB	Yes	qwen3:14b-q4_K_M
Qwen3 14B (Q8)	Qwen	14B	Q8_0	24 GB	~15.9 GB	Yes	qwen3:14b-q8_0
Qwen3.5 27B Instruct	Qwen	27B	Q4_K_M	24 GB	~16 GB	Yes	qwen3.5:27b
Qwen3.6 27B	Qwen	27B	Q4_K_M	32 GB	~18 GB	Yes	qwen3.6:27b
Qwen3.6 27B (Q8)	Qwen	27B	Q8_0	48 GB	~30 GB	Yes	qwen3.6:27b-q8_0
Qwen3 30B	Qwen	30B	Q4_K_M	32 GB	~22 GB	Yes	qwen3:30b
Qwen3.5 35B-A3B Instruct	Qwen	35B	Q4_K_M	32 GB	~20 GB	Yes	qwen3.5:35b-a3b
Qwen3.6 35B-A3B	Qwen	35B	Q4_K_M	32 GB	~22 GB	Yes	qwen3.6:35b-a3b
Qwen3.6 35B-A3B (Q8)	Qwen	35B	Q8_0	64 GB	~38.7 GB	Yes	qwen3.6:35b-a3b-q8_0
Qwen3.5 35B-A3B Instruct (Q8)	Qwen	35B	Q8_0	64 GB	~38.7 GB	Yes	qwen3.5:35b-a3b-q8_0
Qwen3-Next 80B-A3B	Qwen	80B	Q4_K_M	72 GB	~50.4 GB	Yes	qwen3-next:80b
Qwen3-Next 80B-A3B (Q8)	Qwen	80B	Q8_0	128 GB	~84.8 GB	Yes	qwen3-next:80b-a3b-instruct-q8_0
Qwen3.5 122B-A10B Instruct	Qwen	122B	Q4_K_M	96 GB	~72 GB	Yes	qwen3.5:122b-a10b
Qwen3 235B A22B	Qwen	235B	Q4_K_M	192 GB	~130 GB	Yes	qwen3:235b-a22b-q4_K_M
SmolLM2 360M	SmolLM	0.36B	Q4_K_M	1 GB	~0.5 GB	Yes	smollm2:360m
Grok 4.3	xAI	Undisclosed	API	0 GB	—	Cloud	—
GLM-4 Plus	Zhipu	Undisclosed	API	0 GB	—	Cloud	—
GLM-5.2	Zhipu	Undisclosed	API	0 GB	—	Cloud	—
GLM-5	Zhipu	744B	API	0 GB	—	Open, no fit	—
GLM-5.1	Zhipu	744B	API	0 GB	—	Open, no fit	—

Estimated load = approximate memory at Q4_K_M; estimates, not measured. All local entries are GGUF builds pulled via Ollama, so they also run in llama.cpp and LM Studio. See the hardware stats for RAM-tier guidance.

Frequently asked questions

What does the ModelFit compatibility matrix show?

Every model ModelFit tracks (107 total, 75 local), with its parameter size, quantization, minimum RAM, and estimated memory load, so you can see at a glance which local AI models run on which Apple Silicon or NVIDIA hardware.

Can I download the dataset?

Yes. A machine-readable JSON export is free at /api/dataset/, licensed CC BY 4.0. The same data is also mirrored on GitHub and Hugging Face for offline use or bulk analysis.

Does "runs locally: false" mean a model is closed?

No. runsLocally tracks whether a registry-verified Ollama build fits a consumer RAM tier ModelFit maps (up to 256GB). Some open-weight models publish weights but exceed every tier. NVIDIA Nemotron 3 Ultra (550B, OpenMDW license) needs roughly 190 GB even at 2-bit quantization, so it is marked openWeights: true with runsLocally: false.

How is model fit calculated?

A model needs roughly 0.6 GB of memory per billion parameters at Q4_K_M quantization. ModelFit sizes recommendations to ~70% of a device's unified memory up to 32GB, scaling to ~85% at 128GB and above, leaving headroom for the OS, context, and KV-cache. On high-RAM Macs you can raise the GPU-wired ceiling further with iogpu.wired_limit_mb.