RTX 4070

meta-llama/Meta-Llama-3-8B

2GB

93.56 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

92.23 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

2GB

92.21 tok/sEstimated

Auto-generated benchmark

4GB

91.76 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

4GB

91.67 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

91.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

91.46 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

91.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

91.35 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

91.35 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

91.04 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

90.96 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

90.92 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

90.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

4GB

90.41 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

2GB

90.36 tok/sEstimated

Auto-generated benchmark

4GB

90.32 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

90.28 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

90.19 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

89.97 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

89.16 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

88.99 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

88.93 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

88.83 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

88.57 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

88.29 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

4GB

88.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

88.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

87.71 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

87.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

87.61 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

87.52 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

87.48 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

87.20 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

86.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

86.85 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

86.80 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

86.74 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

86.70 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

86.61 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

86.61 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

86.55 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

86.36 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

86.30 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

86.02 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

85.92 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

85.54 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

85.51 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

85.31 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

85.29 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

85.25 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

85.12 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

85.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

84.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

84.33 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

84.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

84.20 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

84.12 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

83.44 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

83.39 tok/sEstimated

Auto-generated benchmark

4GB

83.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

83.07 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

83.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

82.90 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

82.10 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

82.04 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

81.95 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

81.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

81.48 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

81.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

81.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

81.17 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

81.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

80.53 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

4GB

80.43 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

80.39 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

80.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

80.36 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

80.33 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

4GB

80.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

80.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

80.07 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

80.06 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

79.80 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

79.73 tok/sEstimated

Auto-generated benchmark

2GB

79.72 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

79.68 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

79.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

79.51 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

79.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

79.31 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

79.27 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

78.88 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

78.49 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

78.45 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

78.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

78.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

78.10 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

78.08 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

78.06 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

77.92 tok/sEstimated

Auto-generated benchmark

4GB

77.90 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

77.70 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

77.44 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

77.32 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

77.27 tok/sEstimated

Auto-generated benchmark

4GB

77.19 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

77.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

77.10 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

76.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

76.94 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

76.93 tok/sEstimated

Auto-generated benchmark

4GB

76.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

76.16 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

76.16 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

4GB

76.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

76.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

75.75 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

75.59 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

75.56 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

75.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

75.41 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

75.37 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

75.33 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

75.04 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

74.90 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

2GB

74.56 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

74.38 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

4GB

73.96 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

73.76 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

73.17 tok/sEstimated

Auto-generated benchmark

3GB

73.04 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

1GB

72.93 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

71.83 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

71.55 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

71.32 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

70.33 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

70.04 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

69.94 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

69.84 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

69.47 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

69.22 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

2GB

68.89 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

68.15 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

8GB

67.80 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

7GB

67.57 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

5GB

67.33 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

66.98 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

1GB

66.35 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

66.15 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

65.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

65.44 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

65.42 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

64.81 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

1GB

64.55 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

4GB

64.53 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

64.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

64.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

64.34 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

64.34 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

3GB

64.33 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

64.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

64.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

64.19 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

64.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

64.11 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

63.98 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

4GB

63.79 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

63.75 tok/sEstimated

Auto-generated benchmark

2GB

63.74 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

8GB

63.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

63.57 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

63.39 tok/sEstimated

Auto-generated benchmark

9GB

63.33 tok/sEstimated

Auto-generated benchmark

7GB

63.24 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

9GB

63.21 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

8GB

63.17 tok/sEstimated

Auto-generated benchmark

7GB

63.08 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

63.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

62.92 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

62.83 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

62.75 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

62.61 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

62.59 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

62.42 tok/sEstimated

Auto-generated benchmark

7GB

62.42 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

62.40 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

62.23 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

62.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

9GB

62.08 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

9GB

61.70 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

61.70 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

61.66 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

9GB

61.46 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

61.42 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

61.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

9GB

61.30 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

9GB

61.28 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

8GB

61.14 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

9GB

61.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

60.96 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

60.92 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

60.79 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

60.77 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

60.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

60.37 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

60.35 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

60.31 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

5GB

60.13 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

59.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

59.86 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

59.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

59.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

59.59 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

59.58 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

59.21 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

59.17 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

59.11 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

58.83 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

9GB

58.76 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

58.35 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

58.24 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

58.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

58.18 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

9GB

58.16 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

57.97 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

57.96 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

57.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

57.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

57.71 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

57.62 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

57.58 tok/sEstimated

Auto-generated benchmark

7GB

57.57 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

57.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

57.32 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

57.27 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

57.14 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

57.14 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

8GB

57.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

56.63 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

9GB

56.60 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

56.55 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

56.39 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

9GB

56.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

56.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

56.17 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

56.04 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

56.01 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

56.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

55.96 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

55.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

55.76 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

55.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

55.67 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

55.65 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

55.63 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

55.37 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

55.22 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

9GB

55.08 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

55.05 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

8GB

54.95 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

54.66 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

54.64 tok/sEstimated

Auto-generated benchmark

8GB

54.60 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

54.59 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

54.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

54.34 tok/sEstimated

Auto-generated benchmark

7GB

54.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

9GB

54.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

54.14 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

9GB

54.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

9GB

54.08 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

9GB

54.08 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

53.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

53.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

53.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

53.64 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

9GB

53.63 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

53.49 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

3GB

53.36 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

9GB

53.33 tok/sEstimated

Auto-generated benchmark

7GB

53.29 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

8GB

53.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

53.25 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

9GB

53.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

53.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

52.96 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

52.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

8GB

52.90 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

52.80 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

52.79 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

49.97 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

48.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

48.41 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

48.18 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

48.17 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

11GB

48.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

48.04 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

16GB

47.65 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

15GB

47.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

47.12 tok/sEstimated

Auto-generated benchmark

14GB

45.96 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

9GB

45.77 tok/sEstimated

Auto-generated benchmark

15GB

45.22 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

44.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

44.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

44.92 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

44.73 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

10GB

44.55 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

44.25 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

11GB

43.73 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

14GB

43.70 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

43.63 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

42.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

15GB

42.92 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

10GB

42.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

42.34 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

FP16

2GB

41.94 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

FP16

4GB

41.90 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

FP16

2GB

41.42 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

FP16

6GB

41.18 tok/sEstimated

Auto-generated benchmark

FP16

6GB

41.17 tok/sEstimated

Auto-generated benchmark

facebook/sam3

FP16

2GB

40.75 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

FP16

2GB

40.60 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

FP16

4GB

40.44 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

FP16

6GB

40.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

40.30 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

40.18 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

40.08 tok/sEstimated

Auto-generated benchmark

14GB

39.84 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

FP16

2GB

39.84 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

10GB

39.54 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

FP16

5GB

38.72 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

FP16

2GB

38.61 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

FP16

7GB

38.44 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

FP16

2GB

38.39 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

FP16

4GB

38.20 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

FP16

4GB

37.15 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

FP16

4GB

37.05 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

FP16

2GB

36.90 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

FP16

3GB

36.90 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

FP16

2GB

36.29 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

FP16

6GB

36.10 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

FP16

6GB

36.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

FP16

6GB

35.94 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

FP16

6GB

35.94 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

FP16

6GB

35.85 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

FP16

6GB

35.22 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

FP16

1GB

35.15 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

FP16

6GB

35.10 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

FP16

1GB

35.02 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

FP16

15GB

34.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

FP16

11GB

34.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

FP16

6GB

34.92 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

FP16

15GB

34.86 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

FP16

2GB

34.84 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

FP16

15GB

34.78 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

FP16

17GB

34.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

FP16

17GB

34.72 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

FP16

15GB

34.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

FP16

11GB

34.60 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

FP16

15GB

34.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

31GB

34.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

FP16

13GB

34.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

FP16

9GB

34.45 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

FP16

15GB

34.39 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

31GB

34.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

FP16

15GB

34.37 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

FP16

15GB

34.33 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

FP16

15GB

34.30 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

FP16

16GB

34.24 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

FP16

15GB

34.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

FP16

15GB

34.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

31GB

33.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

FP16

11GB

33.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

FP16

15GB

33.93 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

FP16

15GB

33.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

FP16

15GB

33.84 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

FP16

15GB

33.79 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

FP16

11GB

33.77 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

FP16

15GB

33.71 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

FP16

15GB

33.64 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

FP16

9GB

33.62 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

20GB

33.59 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

31GB

33.55 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

FP16

15GB

33.46 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

FP16

17GB

33.45 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

FP16

15GB

33.44 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

FP16

15GB

33.34 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

FP16

15GB

33.34 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

FP16

17GB

33.33 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

FP16

15GB

33.30 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

FP16

9GB

33.23 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

FP16

15GB

33.20 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

FP16

15GB

33.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

FP16

17GB

33.01 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

FP16

15GB

32.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

FP16

11GB

32.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

31GB

32.94 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

FP16

15GB

32.91 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

FP16

9GB

32.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

FP16

17GB

32.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

FP16

13GB

32.78 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

FP16

15GB

32.75 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

FP16

15GB

32.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

FP16

15GB

32.65 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

FP16

11GB

32.63 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

FP16

11GB

32.62 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

FP16

15GB

32.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

FP16

17GB

32.50 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

FP16

11GB

32.45 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

FP16

9GB

32.42 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

FP16

17GB

32.41 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

20GB

32.40 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

FP16

15GB

32.37 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

FP16

15GB

32.33 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

FP16

16GB

32.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

31GB

32.29 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

23GB

32.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

FP16

15GB

32.27 tok/sEstimated

Auto-generated benchmark

FP16

16GB

32.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

FP16

11GB

32.19 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

FP16

15GB

32.17 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

FP16

15GB

32.17 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

20GB

32.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

FP16

9GB

32.07 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

FP16

15GB

32.04 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

FP16

15GB

32.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

FP16

13GB

31.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

FP16

16GB

31.91 tok/sEstimated

Auto-generated benchmark

FP16

15GB

31.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

FP16

17GB

31.81 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

31.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

FP16

11GB

31.79 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

FP16

17GB

31.78 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

FP16

15GB

31.66 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

FP16

15GB

31.58 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

FP16

15GB

31.49 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

FP16

15GB

31.46 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

FP16

17GB

31.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

FP16

11GB

31.30 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

25GB

31.28 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

FP16

16GB

31.23 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

FP16

8GB

31.22 tok/sEstimated

Auto-generated benchmark

FP16

15GB

31.20 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

28GB

31.17 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

FP16

16GB

31.17 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

FP16

15GB

31.11 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

FP16

15GB

31.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

FP16

9GB

31.00 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

FP16

15GB

30.96 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

FP16

15GB

30.93 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

FP16

7GB

30.91 tok/sEstimated

Auto-generated benchmark

FP16

17GB

30.91 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

FP16

17GB

30.91 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

FP16

15GB

30.89 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

FP16

15GB

30.85 tok/sEstimated

Auto-generated benchmark

FP16

17GB

30.81 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

FP16

15GB

30.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

FP16

11GB

30.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

FP16

13GB

30.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

31GB

30.53 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

FP16

15GB

30.49 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

FP16

15GB

30.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

FP16

9GB

30.39 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

FP16

15GB

30.32 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

FP16

15GB

30.24 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

22GB

30.20 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

FP16

16GB

29.96 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

FP16

15GB

29.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

FP16

17GB

29.93 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

31GB

29.90 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

31GB

29.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

17GB

29.79 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

FP16

17GB

29.78 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

FP16

17GB

29.77 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

FP16

15GB

29.74 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

29.73 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

FP16

15GB

29.71 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

FP16

15GB

29.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

FP16

17GB

29.63 tok/sEstimated

Auto-generated benchmark

FP16

11GB

29.45 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

FP16

15GB

29.40 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

FP16

15GB

29.31 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

FP16

15GB

29.31 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

FP16

17GB

29.29 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

FP16

15GB

29.18 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

18GB

29.18 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

FP16

17GB

29.04 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

FP16

15GB

29.03 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

FP16

15GB

29.00 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

FP16

15GB

28.94 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

FP16

9GB

28.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

FP16

9GB

28.83 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

34GB

28.70 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

28.60 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

28.41 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

34GB

28.29 tok/sEstimated

Auto-generated benchmark

17GB

28.10 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

28.10 tok/sEstimated

Auto-generated benchmark

17GB

27.99 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

489GB

27.89 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

27.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

27.46 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

26.94 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

26.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

26.80 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

34GB

26.75 tok/sEstimated

Auto-generated benchmark

328GB

26.69 tok/sEstimated

Auto-generated benchmark

16GB

26.63 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

17GB

26.47 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

FP16

30GB

26.12 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

FP16

27GB

25.90 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

FP16

19GB

24.77 tok/sEstimated

Auto-generated benchmark

FP16

32GB

24.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

FP16

29GB

24.30 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

FP16

29GB

24.11 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

FP16

20GB

23.15 tok/sEstimated

Auto-generated benchmark

FP16

29GB

22.86 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

FP16

27GB

22.71 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

FP16

17GB

22.49 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

68GB

22.49 tok/sEstimated

Auto-generated benchmark

33GB

22.48 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

68GB

22.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

FP16

29GB

22.31 tok/sEstimated

Auto-generated benchmark

50GB

22.14 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

FP16

17GB

22.04 tok/sEstimated

Auto-generated benchmark

35GB

21.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

FP16

29GB

21.95 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

FP16

29GB

21.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

21.93 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

FP16

19GB

21.73 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

34GB

21.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

34GB

21.37 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

33GB

21.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

33GB

21.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

33GB

21.08 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

35GB

20.88 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

68GB

20.68 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

68GB

20.68 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

69GB

20.67 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

34GB

20.42 tok/sEstimated

Auto-generated benchmark

33GB

20.36 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

68GB

20.12 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

656GB

19.84 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

978GB

19.33 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

33GB

19.30 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

35GB

18.68 tok/sEstimated

Auto-generated benchmark

FP16

44GB

18.57 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

FP16

41GB

18.21 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

60GB

18.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

36GB

18.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

34GB

18.05 tok/sEstimated

Auto-generated benchmark

FP16

61GB

17.90 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

FP16

61GB

17.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

39GB

17.86 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

FP16

61GB

17.84 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

34GB

17.62 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

44GB

17.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

FP16

61GB

17.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

FP16

61GB

17.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

35GB

17.06 tok/sEstimated

Auto-generated benchmark

39GB

17.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

36GB

16.97 tok/sEstimated

Auto-generated benchmark

FP16

61GB

16.85 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

FP16

61GB

16.82 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

59GB

16.67 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

FP16

41GB

16.50 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

FP16

61GB

16.48 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

FP16

41GB

16.45 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

41GB

16.35 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

FP16

46GB

15.98 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

FP16

56GB

15.97 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

34GB

15.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

61GB

15.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

39GB

15.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

34GB

15.52 tok/sEstimated

Auto-generated benchmark

39GB

15.47 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

35GB

15.21 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

138GB

13.75 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

115GB

12.86 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

70GB

12.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

78GB

12.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

69GB

12.37 tok/sEstimated

Auto-generated benchmark

78GB

12.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

78GB

12.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

FP16

66GB

12.12 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

120GB

12.09 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

FP16

101GB

12.09 tok/sEstimated

Auto-generated benchmark

FP16

67GB

11.90 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

69GB

11.88 tok/sEstimated

Auto-generated benchmark

FP16

137GB

11.78 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

117GB

11.76 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

88GB

11.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

383GB

11.57 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

FP16

66GB

11.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

78GB

11.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

FP16

66GB

11.36 tok/sEstimated

Auto-generated benchmark

FP16

67GB

11.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

71GB

11.33 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

66GB

11.32 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

FP16

67GB

11.31 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

FP16

137GB

11.27 tok/sEstimated

Auto-generated benchmark

FP16

70GB

11.23 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

FP16

68GB

11.03 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

FP16

70GB

11.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

FP16

66GB

11.01 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

70GB

11.00 tok/sEstimated

Auto-generated benchmark

69GB

10.99 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

1956GB

10.90 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

71GB

10.87 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

256GB

10.84 tok/sEstimated

Auto-generated benchmark

FP16

1312GB

10.84 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

69GB

10.73 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

FP16

66GB

10.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

115GB

10.63 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

FP16

70GB

10.42 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

FP16

137GB

10.20 tok/sEstimated

Auto-generated benchmark

FP16

137GB

10.16 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

FP16

137GB

10.02 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

378GB

9.61 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

255GB

9.41 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

766GB

9.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

231GB

8.35 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

FP16

275GB

7.78 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

511GB

7.42 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

FP16

141GB

6.78 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

755GB

6.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

230GB

6.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

FP16

156GB

6.52 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

510GB

6.43 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

FP16

138GB

6.28 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

FP16

138GB

6.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

FP16

141GB

6.14 tok/sEstimated

Auto-generated benchmark

FP16

142GB

6.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

FP16

156GB

6.12 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

FP16

235GB

6.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

FP16

138GB

6.00 tok/sEstimated

Auto-generated benchmark

FP16

156GB

5.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

FP16

142GB

5.89 tok/sEstimated

Auto-generated benchmark

FP16

156GB

5.83 tok/sEstimated

Auto-generated benchmark