RX 7900 XT

meta-llama/Llama-3.2-1B-Instruct

2GB

158.62 tok/sEstimated

Auto-generated benchmark

1GB

158.35 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

156.97 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

2GB

154.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

2GB

153.62 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

2GB

153.17 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

152.98 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

2GB

152.79 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

2GB

151.52 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

2GB

150.38 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

149.92 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

1GB

149.71 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

1GB

149.61 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

149.24 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

1GB

149.06 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

144.74 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

2GB

144.56 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

144.03 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

2GB

143.94 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

1GB

141.62 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

1GB

140.49 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

2GB

139.98 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

139.55 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

1GB

139.43 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

2GB

136.85 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

2GB

135.42 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

1GB

134.67 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

134.07 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

133.98 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

4GB

133.97 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

1GB

133.82 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

133.78 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

133.33 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

132.92 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

132.52 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

132.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

132.32 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

132.28 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

132.19 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

132.17 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

132.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

4GB

131.99 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

1GB

131.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

131.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

131.68 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

131.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

131.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

131.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

131.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

4GB

131.00 tok/sEstimated

Auto-generated benchmark

3GB

130.83 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

130.50 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

130.50 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

130.43 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

130.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

130.03 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

2GB

129.97 tok/sEstimated

Auto-generated benchmark

4GB

129.83 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

4GB

129.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

129.34 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

129.30 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

129.27 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

129.15 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

128.96 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

128.81 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

128.09 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

126.98 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

126.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

126.83 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

126.69 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

126.32 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

126.28 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

4GB

126.25 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

126.13 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

125.89 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

125.81 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

125.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

125.38 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

125.34 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

125.16 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

4GB

125.14 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

124.69 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

124.57 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

124.55 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

124.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

124.20 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

124.15 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

123.93 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

123.47 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

123.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

123.35 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

123.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

122.96 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

122.92 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

121.71 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

121.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

121.30 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

121.27 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

121.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

120.61 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

120.37 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

120.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

120.12 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

4GB

119.57 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

119.41 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

119.27 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

118.82 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

118.79 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

118.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

118.43 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

118.40 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

117.95 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

117.83 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

117.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

117.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

117.42 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

117.40 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

117.37 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

117.20 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

116.66 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

116.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

116.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

116.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

116.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

115.89 tok/sEstimated

Auto-generated benchmark

4GB

115.84 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

115.45 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

115.45 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

115.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

114.85 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

114.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

114.61 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

114.44 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

113.87 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

113.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

4GB

113.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

113.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

112.99 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

112.64 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

112.60 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

112.45 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

112.37 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

112.23 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

112.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

112.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

111.99 tok/sEstimated

Auto-generated benchmark

4GB

111.66 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

2GB

111.59 tok/sEstimated

Auto-generated benchmark

4GB

111.48 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

111.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

110.74 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

2GB

110.67 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

4GB

110.44 tok/sEstimated

Auto-generated benchmark

3GB

110.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

110.21 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

110.17 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

110.09 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

109.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

109.76 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

109.67 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

109.04 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

108.47 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

3GB

108.05 tok/sEstimated

Auto-generated benchmark

1GB

107.33 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

106.98 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

3GB

106.84 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

106.38 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

105.59 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

105.35 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

1GB

105.03 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

104.98 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

104.30 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

104.13 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

102.60 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

101.52 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

1GB

100.90 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

100.25 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

5GB

99.02 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

98.69 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

98.22 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

97.11 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

2GB

96.72 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

5GB

96.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

95.58 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

95.28 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

93.83 tok/sEstimated

Auto-generated benchmark

4GB

93.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

93.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

93.59 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

93.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

93.37 tok/sEstimated

Auto-generated benchmark

9GB

93.35 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

8GB

93.02 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

8GB

92.98 tok/sEstimated

Auto-generated benchmark

4GB

92.98 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

9GB

92.86 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

8GB

92.82 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

92.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

92.43 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

92.18 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

9GB

92.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

92.07 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

92.03 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

91.81 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

91.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

91.40 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

91.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

91.24 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

91.22 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

91.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

9GB

91.07 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

90.97 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

9GB

90.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

90.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

90.36 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

90.30 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

90.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

90.09 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

89.97 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

89.93 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

89.82 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

89.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

89.75 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

89.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

89.67 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

89.47 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

88.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

8GB

88.58 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

9GB

88.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

87.91 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

87.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

9GB

87.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

87.64 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

9GB

87.63 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

87.56 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

87.45 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

87.41 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

87.25 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

8GB

87.24 tok/sEstimated

Auto-generated benchmark

7GB

87.11 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

3GB

86.85 tok/sEstimated

Auto-generated benchmark

7GB

86.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

86.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

86.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

9GB

86.09 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

7GB

86.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

86.00 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

85.86 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

4GB

85.86 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

85.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

85.69 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

9GB

85.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

85.64 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

85.54 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

85.51 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

9GB

85.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

85.08 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

84.95 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

84.94 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

84.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

84.73 tok/sEstimated

Auto-generated benchmark

7GB

84.41 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

84.36 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

84.19 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

84.09 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

83.99 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

83.94 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

9GB

83.82 tok/sEstimated

Auto-generated benchmark

9GB

83.76 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

83.58 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

8GB

83.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

83.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

9GB

83.28 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

82.99 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

9GB

82.74 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

8GB

82.70 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

7GB

82.68 tok/sEstimated

Auto-generated benchmark

9GB

82.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

82.41 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

82.36 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

82.31 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

82.30 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

81.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

81.53 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

81.33 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

81.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

9GB

81.18 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

9GB

81.09 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

81.07 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

80.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

80.30 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

9GB

80.28 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

79.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

79.81 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

79.74 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

79.71 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

79.45 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

79.31 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

79.23 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

79.18 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

8GB

78.60 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

78.56 tok/sEstimated

Auto-generated benchmark

7GB

78.54 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

78.45 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

78.37 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

78.33 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

78.27 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

78.11 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

77.42 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

8GB

77.34 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

77.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

77.29 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

77.24 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

77.22 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

77.08 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

76.98 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

76.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

9GB

76.88 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

70.55 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

11GB

70.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

9GB

70.20 tok/sEstimated

Auto-generated benchmark

15GB

70.05 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

16GB

69.92 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

68.82 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

68.34 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

10GB

67.88 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

11GB

67.27 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

67.10 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

14GB

66.94 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

66.93 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

66.32 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

66.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

65.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

64.58 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

64.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

63.72 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

63.22 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

63.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

62.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

62.09 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

10GB

61.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

61.52 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

61.47 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

61.30 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

FP16

1GB

60.50 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

FP16

6GB

60.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

15GB

60.17 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

10GB

60.07 tok/sEstimated

Auto-generated benchmark

facebook/sam3

FP16

2GB

59.57 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

FP16

4GB

59.37 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

FP16

4GB

59.11 tok/sEstimated

Auto-generated benchmark

FP16

2GB

59.05 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

14GB

58.77 tok/sEstimated

Auto-generated benchmark

FP16

6GB

58.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

57.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

FP16

6GB

57.85 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

14GB

57.64 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

FP16

6GB

57.50 tok/sEstimated

Auto-generated benchmark

FP16

2GB

57.30 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

FP16

6GB

57.06 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

FP16

6GB

56.53 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

FP16

6GB

56.42 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

FP16

6GB

56.39 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

FP16

6GB

56.28 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

FP16

2GB

55.81 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

FP16

2GB

55.68 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

FP16

5GB

55.55 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

FP16

4GB

55.41 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

FP16

4GB

54.73 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

FP16

7GB

54.63 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

FP16

1GB

54.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

FP16

6GB

53.40 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

FP16

2GB

52.27 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

FP16

3GB

52.09 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

FP16

2GB

51.84 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

FP16

2GB

51.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

31GB

51.45 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

FP16

6GB

51.32 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

FP16

15GB

50.94 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

FP16

4GB

50.92 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

FP16

17GB

50.87 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

FP16

15GB

50.82 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

FP16

15GB

50.77 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

FP16

15GB

50.71 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

FP16

17GB

50.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

FP16

15GB

50.55 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

FP16

9GB

50.50 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

FP16

15GB

50.49 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

FP16

2GB

50.46 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

FP16

2GB

50.38 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

FP16

15GB

50.36 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

31GB

50.31 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

FP16

16GB

50.29 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

28GB

50.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

FP16

13GB

50.13 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

FP16

16GB

50.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

FP16

11GB

50.08 tok/sEstimated

Auto-generated benchmark

FP16

9GB

49.84 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

49.73 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

FP16

15GB

49.70 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

FP16

15GB

49.63 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

FP16

15GB

49.52 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

FP16

15GB

49.47 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

20GB

49.39 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

FP16

17GB

49.37 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

FP16

15GB

49.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

8GB

49.23 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

FP16

16GB

49.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

FP16

13GB

49.16 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

FP16

15GB

49.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

FP16

17GB

48.87 tok/sEstimated

Auto-generated benchmark

31GB

48.85 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

FP16

15GB

48.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

FP16

11GB

48.78 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

FP16

15GB

48.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

FP16

9GB

48.59 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

FP16

15GB

48.58 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

FP16

15GB

48.40 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

FP16

7GB

48.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

FP16

17GB

48.23 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

FP16

15GB

48.17 tok/sEstimated

Auto-generated benchmark

FP16

17GB

48.13 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

FP16

15GB

48.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

FP16

13GB

48.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

FP16

11GB

48.09 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

FP16

15GB

47.94 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

FP16

15GB

47.87 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

FP16

15GB

47.78 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

FP16

15GB

47.74 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

FP16

15GB

47.71 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

FP16

9GB

47.62 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

FP16

15GB

47.53 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

FP16

15GB

47.52 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

31GB

47.52 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

FP16

15GB

47.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

31GB

47.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

FP16

17GB

47.34 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

FP16

15GB

47.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

FP16

11GB

47.19 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

20GB

47.03 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

FP16

11GB

47.03 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

FP16

11GB

46.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

31GB

46.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

FP16

11GB

46.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

FP16

15GB

46.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

FP16

15GB

46.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

FP16

9GB

46.62 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

FP16

17GB

46.62 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

17GB

46.61 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

FP16

15GB

46.49 tok/sEstimated

Auto-generated benchmark

FP16

11GB

46.47 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

34GB

46.31 tok/sEstimated

Auto-generated benchmark

FP16

17GB

46.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

FP16

11GB

46.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

FP16

15GB

46.21 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

FP16

15GB

46.01 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

FP16

15GB

46.01 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

22GB

45.90 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

FP16

15GB

45.86 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

FP16

15GB

45.86 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

FP16

15GB

45.85 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

FP16

15GB

45.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

FP16

9GB

45.80 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

31GB

45.77 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

FP16

17GB

45.77 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

FP16

15GB

45.77 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

FP16

9GB

45.71 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

FP16

15GB

45.71 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

45.64 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

FP16

16GB

45.54 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

FP16

11GB

45.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

FP16

15GB

45.22 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

34GB

45.19 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

FP16

15GB

45.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

FP16

11GB

45.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

FP16

9GB

44.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

FP16

17GB

44.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

FP16

9GB

44.61 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

25GB

44.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

44.52 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

FP16

15GB

44.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

31GB

44.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

31GB

44.37 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

FP16

15GB

44.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

FP16

15GB

44.25 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

FP16

15GB

44.22 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

FP16

15GB

44.21 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

FP16

15GB

44.16 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

44.15 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

FP16

15GB

44.03 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

FP16

17GB

44.02 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

FP16

17GB

44.02 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

20GB

43.97 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

FP16

15GB

43.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

FP16

17GB

43.72 tok/sEstimated

Auto-generated benchmark

FP16

15GB

43.72 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

FP16

15GB

43.71 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

FP16

17GB

43.67 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

FP16

15GB

43.46 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

FP16

16GB

43.43 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

FP16

15GB

43.27 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

FP16

15GB

43.24 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

FP16

15GB

43.22 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

FP16

11GB

43.12 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

FP16

16GB

42.78 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

FP16

17GB

42.77 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

23GB

42.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

FP16

15GB

42.73 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

FP16

17GB

42.73 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

42.70 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

FP16

15GB

42.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

FP16

9GB

42.67 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

FP16

15GB

42.59 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

FP16

15GB

42.56 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

FP16

17GB

42.52 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

FP16

15GB

42.44 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

FP16

15GB

42.42 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

FP16

15GB

42.40 tok/sEstimated

Auto-generated benchmark

FP16

16GB

42.35 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

42.32 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

489GB

42.12 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

FP16

17GB

42.12 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

FP16

15GB

41.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

FP16

13GB

41.94 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

FP16

17GB

41.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

FP16

11GB

41.82 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

FP16

15GB

41.80 tok/sEstimated

Auto-generated benchmark

16GB

41.77 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

41.11 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

17GB

40.61 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

18GB

40.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

17GB

40.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

39.83 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

17GB

39.64 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

328GB

39.51 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

16GB

39.41 tok/sEstimated

Auto-generated benchmark

34GB

39.13 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

34GB

38.96 tok/sEstimated

Auto-generated benchmark

FP16

29GB

37.80 tok/sEstimated

Auto-generated benchmark

FP16

30GB

37.74 tok/sEstimated

Auto-generated benchmark

FP16

17GB

37.61 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

FP16

29GB

37.06 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

FP16

27GB

36.93 tok/sEstimated

Auto-generated benchmark

FP16

32GB

36.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

FP16

29GB

36.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

FP16

29GB

35.33 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

FP16

29GB

34.92 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

69GB

34.37 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

FP16

19GB

33.96 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

FP16

27GB

33.59 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

FP16

19GB

33.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

33GB

32.56 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

68GB

32.40 tok/sEstimated

Auto-generated benchmark

68GB

32.24 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

33GB

32.14 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

FP16

20GB

31.68 tok/sEstimated

Auto-generated benchmark

FP16

17GB

31.63 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

33GB

31.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

FP16

29GB

31.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

34GB

31.32 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

978GB

31.14 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

34GB

31.09 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

35GB

30.90 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

656GB

30.84 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

30.31 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

50GB

30.29 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

68GB

29.98 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

35GB

28.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

33GB

28.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

33GB

28.51 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

28.35 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

35GB

28.34 tok/sEstimated

Auto-generated benchmark

68GB

28.24 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

33GB

27.96 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

FP16

41GB

27.47 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

FP16

61GB

27.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

68GB

27.10 tok/sEstimated

Auto-generated benchmark

FP16

61GB

27.08 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

FP16

41GB

27.06 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

FP16

41GB

27.01 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

FP16

56GB

26.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

36GB

26.75 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

41GB

26.39 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

FP16

46GB

26.36 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

59GB

25.49 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

FP16

61GB

25.03 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

FP16

61GB

24.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

34GB

24.95 tok/sEstimated

Auto-generated benchmark

FP16

61GB

24.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

39GB

24.66 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

34GB

24.48 tok/sEstimated

Auto-generated benchmark

34GB

24.40 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

35GB

24.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

FP16

61GB

24.23 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

FP16

61GB

23.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

39GB

23.67 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

44GB

23.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

FP16

61GB

23.27 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

FP16

44GB

23.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

39GB

23.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

61GB

23.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

35GB

22.95 tok/sEstimated

Auto-generated benchmark

39GB

22.71 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

60GB

22.62 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

34GB

22.17 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

36GB

21.99 tok/sEstimated

Auto-generated benchmark

138GB

21.83 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

115GB

19.47 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

383GB

19.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

69GB

18.68 tok/sEstimated

Auto-generated benchmark

78GB

18.29 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

69GB

18.01 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

FP16

137GB

17.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

71GB

17.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

FP16

66GB

17.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

FP16

66GB

17.71 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

FP16

137GB

17.63 tok/sEstimated

Auto-generated benchmark

FP16

1312GB

17.62 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

1956GB

17.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

FP16

67GB

17.51 tok/sEstimated

Auto-generated benchmark

78GB

17.47 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

FP16

66GB

17.41 tok/sEstimated

Auto-generated benchmark

120GB

17.41 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

FP16

70GB

17.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

70GB

17.00 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

70GB

16.94 tok/sEstimated

Auto-generated benchmark

78GB

16.80 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

FP16

137GB

16.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

78GB

16.48 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

FP16

70GB

16.48 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

FP16

137GB

16.30 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

117GB

16.29 tok/sEstimated

Auto-generated benchmark

69GB

16.16 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

71GB

16.08 tok/sEstimated

Auto-generated benchmark

69GB

15.95 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

FP16

101GB

15.87 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

88GB

15.60 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

FP16

67GB

15.60 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

FP16

70GB

15.59 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

256GB

15.41 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

66GB

15.14 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

FP16

66GB

15.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

FP16

137GB

15.03 tok/sEstimated

Auto-generated benchmark

FP16

67GB

15.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

FP16

66GB

14.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

FP16

68GB

14.65 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

231GB

13.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

115GB

13.71 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

255GB

13.36 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

378GB

13.34 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

FP16

275GB

12.15 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

766GB

11.97 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

510GB

10.86 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

755GB

10.77 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

511GB

10.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

FP16

156GB

10.10 tok/sEstimated

Auto-generated benchmark

FP16

138GB

10.09 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

FP16

141GB

9.89 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

FP16

141GB

9.80 tok/sEstimated

Auto-generated benchmark

FP16

176GB

9.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

FP16

156GB

9.71 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

FP16

240GB

9.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

230GB

9.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

FP16

156GB

9.44 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

FP16

138GB

9.40 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

FP16

138GB

9.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

FP16

156GB

9.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

FP16

142GB

9.07 tok/sEstimated

Auto-generated benchmark

FP16

138GB

8.88 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

FP16

235GB

8.64 tok/sEstimated

Auto-generated benchmark