RTX 3070

TinyLlama/TinyLlama-1.1B-Chat-v1.0

2GB

87.49 tok/sEstimated

Auto-generated benchmark

1GB

86.83 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

2GB

85.63 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

2GB

85.38 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

84.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

2GB

84.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

83.76 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

1GB

83.74 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

83.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

83.51 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

83.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

83.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

83.13 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

83.07 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

1GB

83.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

82.83 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

82.52 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

82.48 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

82.46 tok/sEstimated

Auto-generated benchmark

4GB

82.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

82.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

82.14 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

82.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

82.00 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

82.00 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

81.97 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

81.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

81.73 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

81.41 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

4GB

81.41 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

81.39 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

81.12 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

80.58 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

80.43 tok/sEstimated

Auto-generated benchmark

4GB

80.31 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

80.23 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

80.20 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

80.13 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

79.93 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

79.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

79.82 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

79.82 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

79.70 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

79.68 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

79.65 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

79.63 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

79.56 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

79.50 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

79.34 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

79.34 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

79.30 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

79.27 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

79.18 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

79.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

79.07 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

78.98 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

78.88 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

78.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

78.80 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

78.75 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

78.64 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

78.60 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

4GB

78.54 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

78.11 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

77.97 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

77.34 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

77.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

77.18 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

77.01 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

4GB

76.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

76.86 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

76.52 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

76.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

76.43 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

76.28 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

76.27 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

76.21 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

75.88 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

4GB

75.87 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

75.85 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

75.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

75.70 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

75.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

75.54 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

75.52 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

75.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

75.40 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

75.10 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

74.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

4GB

74.77 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

74.62 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

74.60 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

74.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

74.28 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

74.23 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

74.19 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

73.59 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

73.38 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

72.71 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

72.61 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

72.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

72.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

72.22 tok/sEstimated

Auto-generated benchmark

2GB

72.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

72.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

72.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

71.82 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

71.67 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

2GB

71.54 tok/sEstimated

Auto-generated benchmark

4GB

71.20 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

71.17 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

71.14 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

70.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

70.73 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

70.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

70.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

70.20 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

70.15 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

4GB

70.07 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

69.94 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

69.87 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

69.85 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

69.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

69.63 tok/sEstimated

Auto-generated benchmark

4GB

69.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

69.40 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

69.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

69.24 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

69.23 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

2GB

69.15 tok/sEstimated

Auto-generated benchmark

4GB

68.87 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

68.81 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

68.76 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

68.72 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

68.68 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

68.56 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

68.48 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

68.29 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

67.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

66.51 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

65.66 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

1GB

64.84 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

64.28 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

63.85 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

63.30 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

3GB

63.00 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

62.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

62.18 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

62.12 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

62.08 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

3GB

62.00 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

4GB

61.58 tok/sEstimated

Auto-generated benchmark

1GB

61.10 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

1GB

60.83 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

60.60 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

60.51 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

8GB

60.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

60.29 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

5GB

60.09 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

8GB

59.98 tok/sEstimated

Auto-generated benchmark

5GB

59.69 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

59.43 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

59.38 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

4GB

59.14 tok/sEstimated

Auto-generated benchmark

4GB

59.04 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

58.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

58.88 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

58.58 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

58.54 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

58.50 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

58.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

8GB

58.43 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

2GB

58.33 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

8GB

58.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

9GB

58.09 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

58.06 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

58.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

58.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

57.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

57.80 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

57.75 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

57.67 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

9GB

57.66 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

57.59 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

57.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

57.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

9GB

57.07 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

5GB

57.07 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

56.95 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

56.93 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

56.90 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

3GB

56.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

56.38 tok/sEstimated

Auto-generated benchmark

7GB

56.34 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

56.25 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

55.87 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

7GB

55.86 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

9GB

55.86 tok/sEstimated

Auto-generated benchmark

7GB

55.76 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

55.68 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

55.63 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

55.60 tok/sEstimated

Auto-generated benchmark

7GB

55.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

55.55 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

55.50 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

9GB

55.35 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

9GB

55.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

55.28 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

55.05 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

54.98 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

54.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

54.95 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

54.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

54.70 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

9GB

54.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

54.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

54.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

54.65 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

54.43 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

54.37 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

54.00 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

53.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

53.83 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

53.82 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

53.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

53.62 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

8GB

53.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

53.01 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

52.91 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

52.87 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

9GB

52.83 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

52.81 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

52.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

52.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

52.43 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

52.39 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

9GB

52.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

9GB

52.26 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

52.24 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

52.07 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

52.06 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

51.98 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

51.97 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

51.97 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

51.96 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

51.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

51.91 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

9GB

51.85 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

9GB

51.82 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

9GB

51.76 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

51.51 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

51.51 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

51.49 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

51.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

51.43 tok/sEstimated

Auto-generated benchmark

7GB

51.42 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

8GB

51.33 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

51.27 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

51.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

51.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

9GB

51.02 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

50.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

9GB

50.94 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

50.81 tok/sEstimated

Auto-generated benchmark

9GB

50.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

50.73 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

50.67 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

8GB

50.58 tok/sEstimated

Auto-generated benchmark

7GB

50.22 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

50.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

50.08 tok/sEstimated

Auto-generated benchmark

9GB

50.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

50.06 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

50.04 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

49.87 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

49.83 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

8GB

49.82 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

49.76 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

49.60 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

9GB

49.45 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

49.43 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

8GB

49.38 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

49.33 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

49.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

49.09 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

48.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

48.95 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

48.85 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

48.80 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

9GB

48.64 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

48.48 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

48.47 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

48.31 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

9GB

48.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

48.23 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

48.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

47.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

15GB

45.03 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

14GB

44.88 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

44.50 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

44.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

43.89 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

43.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

43.66 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

43.31 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

10GB

43.05 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

42.88 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

42.80 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

11GB

42.75 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

10GB

42.66 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

42.53 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

11GB

41.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

41.78 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

9GB

41.66 tok/sEstimated

Auto-generated benchmark

14GB

40.66 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

39.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

39.84 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

39.84 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

16GB

39.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

38.88 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

38.58 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

FP16

1GB

38.15 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

38.02 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

FP16

1GB

37.98 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

FP16

2GB

37.96 tok/sEstimated

Auto-generated benchmark

14GB

37.78 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

15GB

37.72 tok/sEstimated

Auto-generated benchmark

14GB

37.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

37.40 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

FP16

4GB

37.25 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

FP16

2GB

37.19 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

FP16

2GB

36.88 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

FP16

6GB

36.78 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

FP16

6GB

36.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

FP16

6GB

36.63 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

FP16

3GB

36.56 tok/sEstimated

Auto-generated benchmark

FP16

6GB

36.53 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

36.51 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

10GB

36.51 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

FP16

2GB

36.37 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

FP16

6GB

36.22 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

FP16

4GB

35.65 tok/sEstimated

Auto-generated benchmark

facebook/sam3

FP16

2GB

35.16 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

FP16

2GB

35.04 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

FP16

6GB

34.61 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

FP16

4GB

34.25 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

FP16

2GB

34.23 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

FP16

6GB

34.06 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

FP16

2GB

34.03 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

FP16

5GB

33.08 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

FP16

6GB

33.05 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

FP16

7GB

32.86 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

FP16

4GB

32.79 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

FP16

4GB

32.76 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

FP16

2GB

32.54 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

FP16

6GB

32.40 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

FP16

6GB

31.90 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

FP16

15GB

31.81 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

FP16

15GB

31.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

FP16

11GB

31.72 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

FP16

7GB

31.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

FP16

11GB

31.58 tok/sEstimated

Auto-generated benchmark

FP16

17GB

31.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

FP16

15GB

31.57 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

FP16

17GB

31.57 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

31GB

31.56 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

FP16

15GB

31.54 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

FP16

15GB

31.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

FP16

6GB

31.45 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

FP16

15GB

31.44 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

FP16

2GB

31.43 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

FP16

15GB

31.32 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

FP16

17GB

31.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

FP16

9GB

31.23 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

FP16

15GB

31.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

FP16

17GB

31.08 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

FP16

15GB

31.08 tok/sEstimated

Auto-generated benchmark

FP16

15GB

31.07 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

FP16

15GB

31.04 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

FP16

17GB

31.00 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

FP16

8GB

30.98 tok/sEstimated

Auto-generated benchmark

FP16

15GB

30.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

FP16

9GB

30.94 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

FP16

15GB

30.94 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

28GB

30.93 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

30.90 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

FP16

17GB

30.87 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

FP16

15GB

30.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

31GB

30.80 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

FP16

15GB

30.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

FP16

11GB

30.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

FP16

11GB

30.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

FP16

15GB

30.54 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

FP16

11GB

30.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

FP16

16GB

30.49 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

20GB

30.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

FP16

17GB

30.46 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

FP16

17GB

30.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

FP16

9GB

30.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

FP16

11GB

30.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

31GB

30.41 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

FP16

15GB

30.30 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

FP16

15GB

30.29 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

FP16

17GB

30.24 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

FP16

17GB

30.24 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

31GB

30.20 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

31GB

30.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

FP16

9GB

30.10 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

FP16

15GB

30.02 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

FP16

15GB

30.00 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

FP16

15GB

29.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

FP16

11GB

29.91 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

FP16

15GB

29.84 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

FP16

15GB

29.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

FP16

11GB

29.73 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

FP16

9GB

29.70 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

FP16

15GB

29.56 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

FP16

17GB

29.55 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

23GB

29.50 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

FP16

15GB

29.39 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

22GB

29.36 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

FP16

16GB

29.36 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

FP16

15GB

29.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

FP16

13GB

29.30 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

FP16

15GB

29.28 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

FP16

9GB

29.14 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

25GB

29.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

FP16

15GB

29.05 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

FP16

11GB

29.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

FP16

13GB

29.02 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

28.89 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

FP16

15GB

28.87 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

FP16

9GB

28.86 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

FP16

17GB

28.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

FP16

17GB

28.84 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

FP16

15GB

28.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

FP16

9GB

28.80 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

FP16

15GB

28.67 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

FP16

15GB

28.66 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

FP16

15GB

28.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

28.62 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

FP16

9GB

28.59 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

FP16

17GB

28.57 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

FP16

15GB

28.54 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

FP16

17GB

28.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

31GB

28.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

31GB

28.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

FP16

17GB

28.42 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

FP16

15GB

28.42 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

FP16

15GB

28.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

FP16

15GB

28.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

FP16

17GB

28.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

FP16

11GB

28.29 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

FP16

15GB

28.29 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

FP16

15GB

28.22 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

FP16

15GB

28.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

FP16

9GB

28.20 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

28.09 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

FP16

15GB

28.02 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

16GB

27.94 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

18GB

27.92 tok/sEstimated

Auto-generated benchmark

20GB

27.85 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

FP16

11GB

27.85 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

FP16

15GB

27.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

FP16

13GB

27.80 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

FP16

15GB

27.73 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

FP16

11GB

27.70 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

31GB

27.69 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

FP16

15GB

27.69 tok/sEstimated

Auto-generated benchmark

FP16

16GB

27.69 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

FP16

15GB

27.67 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

FP16

15GB

27.63 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

FP16

15GB

27.51 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

489GB

27.39 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

FP16

17GB

27.32 tok/sEstimated

Auto-generated benchmark

FP16

16GB

27.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

FP16

17GB

27.25 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

FP16

15GB

27.21 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

FP16

17GB

27.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

FP16

13GB

27.18 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

FP16

15GB

27.18 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

FP16

15GB

27.17 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

17GB

27.17 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

FP16

15GB

27.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

31GB

27.06 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

17GB

27.03 tok/sEstimated

Auto-generated benchmark

FP16

15GB

26.97 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

FP16

15GB

26.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

FP16

15GB

26.80 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

20GB

26.76 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

FP16

15GB

26.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

FP16

11GB

26.73 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

FP16

15GB

26.71 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

FP16

15GB

26.64 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

FP16

15GB

26.64 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

FP16

15GB

26.63 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

FP16

15GB

26.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

FP16

15GB

26.57 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

34GB

26.53 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

FP16

16GB

26.50 tok/sEstimated

Auto-generated benchmark

FP16

15GB

26.50 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

FP16

15GB

26.47 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

FP16

15GB

26.35 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

FP16

15GB

26.26 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

26.16 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

FP16

16GB

26.15 tok/sEstimated

Auto-generated benchmark

17GB

26.05 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

34GB

25.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

17GB

25.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

25.72 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

25.56 tok/sEstimated

Auto-generated benchmark

16GB

25.53 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

25.51 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

25.15 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

328GB

24.82 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

24.29 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

34GB

24.09 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

FP16

30GB

23.42 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

FP16

27GB

23.28 tok/sEstimated

Auto-generated benchmark

FP16

19GB

22.85 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

FP16

19GB

22.45 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

FP16

32GB

22.28 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

FP16

20GB

22.23 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

FP16

17GB

21.93 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

69GB

21.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

FP16

29GB

21.25 tok/sEstimated

Auto-generated benchmark

FP16

29GB

20.82 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

FP16

29GB

20.74 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

33GB

20.51 tok/sEstimated

Auto-generated benchmark

FP16

29GB

20.43 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

FP16

29GB

20.16 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

33GB

20.13 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

FP16

17GB

20.02 tok/sEstimated

Auto-generated benchmark

FP16

27GB

19.90 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

35GB

19.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

FP16

29GB

19.74 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

68GB

19.66 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

34GB

19.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

33GB

19.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

34GB

19.37 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

978GB

18.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

656GB

18.56 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

68GB

18.44 tok/sEstimated

Auto-generated benchmark

33GB

18.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

33GB

18.15 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

33GB

18.10 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

68GB

17.79 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

35GB

17.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

FP16

61GB

17.49 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

FP16

46GB

17.45 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

17.31 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

68GB

17.09 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

50GB

17.06 tok/sEstimated

Auto-generated benchmark

68GB

17.01 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

34GB

16.95 tok/sEstimated

Auto-generated benchmark

FP16

44GB

16.91 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

FP16

61GB

16.89 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

35GB

16.86 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

FP16

56GB

16.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

FP16

61GB

16.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

39GB

16.56 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

59GB

16.46 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

FP16

41GB

16.39 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

FP16

41GB

16.35 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

39GB

16.23 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

34GB

16.08 tok/sEstimated

Auto-generated benchmark

34GB

16.06 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

41GB

15.98 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

FP16

61GB

15.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

FP16

61GB

15.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

39GB

15.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

36GB

15.43 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

60GB

15.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

FP16

61GB

15.34 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

138GB

15.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

61GB

15.14 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

FP16

41GB

15.09 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

34GB

15.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

FP16

61GB

15.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

FP16

61GB

14.77 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

35GB

14.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

36GB

14.20 tok/sEstimated

Auto-generated benchmark

39GB

14.17 tok/sEstimated

Auto-generated benchmark

35GB

13.90 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

34GB

13.83 tok/sEstimated

Auto-generated benchmark

44GB

13.81 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

115GB

12.41 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

69GB

11.71 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

70GB

11.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

78GB

11.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

FP16

66GB

11.12 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

69GB

11.08 tok/sEstimated

Auto-generated benchmark

FP16

1312GB

11.08 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

FP16

70GB

10.84 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

1956GB

10.81 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

FP16

67GB

10.77 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

88GB

10.76 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

FP16

68GB

10.66 tok/sEstimated

Auto-generated benchmark

FP16

66GB

10.66 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

FP16

67GB

10.65 tok/sEstimated

Auto-generated benchmark

FP16

137GB

10.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

FP16

66GB

10.41 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

66GB

10.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

69GB

10.37 tok/sEstimated

Auto-generated benchmark

78GB

10.36 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

117GB

10.34 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

383GB

10.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

78GB

10.29 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

71GB

10.29 tok/sEstimated

Auto-generated benchmark

FP16

66GB

10.23 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

69GB

10.21 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

FP16

137GB

10.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

71GB

10.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

FP16

66GB

9.97 tok/sEstimated

Auto-generated benchmark

70GB

9.95 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

FP16

137GB

9.94 tok/sEstimated

Auto-generated benchmark

120GB

9.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

78GB

9.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

115GB

9.78 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

255GB

9.65 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

FP16

137GB

9.58 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

FP16

137GB

9.50 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

256GB

9.46 tok/sEstimated

Auto-generated benchmark

FP16

70GB

9.43 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

FP16

70GB

9.41 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

378GB

9.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

FP16

67GB

9.15 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

FP16

101GB

9.13 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

766GB

8.50 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

231GB

8.13 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

FP16

275GB

7.91 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

511GB

6.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

230GB

6.54 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

755GB

6.21 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

FP16

240GB

6.11 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

FP16

138GB

6.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

FP16

156GB

6.03 tok/sEstimated

Auto-generated benchmark

FP16

138GB

5.99 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

FP16

141GB

5.90 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

510GB

5.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

FP16

138GB

5.85 tok/sEstimated

Auto-generated benchmark

FP16

156GB

5.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

FP16

156GB

5.75 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

FP16

235GB

5.75 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

FP16

141GB

5.74 tok/sEstimated

Auto-generated benchmark

FP16

138GB

5.64 tok/sEstimated

Auto-generated benchmark