RTX 4060 Ti 16GB

google-bert/bert-base-uncased

2GB

60.34 tok/sEstimated

Auto-generated benchmark

1GB

58.87 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

58.54 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

2GB

57.56 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

2GB

57.25 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

56.95 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

1GB

56.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

2GB

56.03 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

55.52 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

55.52 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

55.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

55.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

55.34 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

2GB

55.32 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

55.25 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

55.21 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

55.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

55.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

55.15 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

54.87 tok/sEstimated

Auto-generated benchmark

4GB

54.78 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

54.77 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

2GB

54.74 tok/sEstimated

Auto-generated benchmark

4GB

54.71 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

54.69 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

54.64 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

54.61 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

54.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

54.15 tok/sEstimated

Auto-generated benchmark

2GB

54.15 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

53.96 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

53.94 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

53.90 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

4GB

53.83 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

53.83 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

53.73 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

4GB

53.72 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

53.70 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

53.56 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

53.41 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

53.29 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

53.25 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

53.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

53.14 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

53.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

53.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

52.88 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

52.75 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

52.72 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

52.71 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

52.68 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

52.59 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

52.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

52.35 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

52.31 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

52.25 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

52.02 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

51.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

51.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

51.65 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

51.62 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

51.61 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

2GB

51.60 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

51.54 tok/sEstimated

Auto-generated benchmark

4GB

51.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

51.49 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

51.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

51.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

51.23 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

51.17 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

51.08 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

51.04 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

51.03 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

51.01 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

50.90 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

50.83 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

4GB

50.78 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

50.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

50.49 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

50.33 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

50.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

50.12 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

50.01 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

49.96 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

49.89 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

49.67 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

49.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

49.31 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

49.17 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

49.16 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

49.13 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

49.01 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

48.80 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

48.48 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

48.47 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

48.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

48.42 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

48.35 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

48.17 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

48.02 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

47.92 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

47.90 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

47.86 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

47.78 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

47.46 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

47.40 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

47.28 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

47.26 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

47.23 tok/sEstimated

Auto-generated benchmark

4GB

47.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

47.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

4GB

47.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

47.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

47.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

4GB

47.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

46.90 tok/sEstimated

Auto-generated benchmark

3GB

46.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

46.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

46.84 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

46.76 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

46.52 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

46.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

46.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

46.40 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

46.37 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

46.24 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

46.21 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

46.08 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

46.02 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

46.01 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

3GB

45.91 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

4GB

45.90 tok/sEstimated

Auto-generated benchmark

4GB

45.90 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

4GB

45.80 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

45.73 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

45.64 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

45.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

45.51 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

45.27 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

44.96 tok/sEstimated

Auto-generated benchmark

facebook/sam3

1GB

44.87 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

2GB

44.35 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

44.06 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

44.05 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

43.99 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

3GB

43.72 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

43.24 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

42.44 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

42.42 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

41.10 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

40.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

40.88 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

40.42 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

40.29 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

1GB

40.20 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

8GB

40.19 tok/sEstimated

Auto-generated benchmark

1GB

40.05 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

1GB

39.71 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

39.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

39.65 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

39.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

38.90 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

38.88 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

38.87 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

9GB

38.80 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

38.72 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

38.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

9GB

38.65 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

8GB

38.63 tok/sEstimated

Auto-generated benchmark

7GB

38.55 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

38.54 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

38.54 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

9GB

38.51 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

2GB

38.51 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

38.49 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

38.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

9GB

38.43 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

38.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

38.38 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

38.37 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

38.29 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

7GB

38.28 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

9GB

38.18 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

5GB

38.13 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

38.12 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

37.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

8GB

37.60 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

9GB

37.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

37.38 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

8GB

37.33 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

37.29 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

37.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

37.06 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

36.98 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

8GB

36.91 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

9GB

36.91 tok/sEstimated

Auto-generated benchmark

9GB

36.77 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

36.73 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

36.70 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

36.68 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

36.63 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

36.62 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

36.55 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

36.53 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

36.51 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

36.40 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

9GB

36.38 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

36.36 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

36.31 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

36.31 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

36.30 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

7GB

36.28 tok/sEstimated

Auto-generated benchmark

5GB

36.22 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

36.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

36.21 tok/sEstimated

Auto-generated benchmark

7GB

36.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

36.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

36.05 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

9GB

36.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

35.84 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

35.82 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

35.79 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

4GB

35.78 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

35.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

35.76 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

35.61 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

35.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

35.51 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

35.49 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

35.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

35.44 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

7GB

35.42 tok/sEstimated

Auto-generated benchmark

9GB

35.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

35.34 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

35.29 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

35.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

35.25 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

35.10 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

5GB

35.09 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

35.01 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

35.00 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

9GB

34.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

34.93 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

9GB

34.85 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

9GB

34.84 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

34.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

34.64 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

9GB

34.57 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

34.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

34.50 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

34.50 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

34.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

34.30 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

8GB

34.29 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

34.24 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

34.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

34.13 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

34.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

33.98 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

33.77 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

33.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

33.70 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

8GB

33.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

33.61 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

33.61 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

33.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

33.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

33.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

33.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

9GB

33.36 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

33.36 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

33.35 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

3GB

33.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

9GB

33.19 tok/sEstimated

Auto-generated benchmark

7GB

33.19 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

33.01 tok/sEstimated

Auto-generated benchmark

7GB

32.85 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

32.79 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

32.79 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

32.75 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

32.59 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

32.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

32.49 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

7GB

32.49 tok/sEstimated

Auto-generated benchmark

9GB

32.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

32.43 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

9GB

32.34 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

32.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

32.27 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

32.18 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

32.13 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

32.13 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

32.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

32.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

31.96 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

8GB

31.95 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

8GB

31.90 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

9GB

31.85 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

11GB

30.32 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

30.29 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

29.98 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

29.85 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

29.84 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

29.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

29.08 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

28.80 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

28.64 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

28.11 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

11GB

27.87 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

14GB

27.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

27.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

27.42 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

27.36 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

27.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

27.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

14GB

27.15 tok/sEstimated

Auto-generated benchmark

15GB

26.74 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

14GB

26.72 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

10GB

26.49 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

26.34 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

16GB

26.09 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

25.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

25.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

15GB

25.39 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

25.35 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

FP16

2GB

25.27 tok/sEstimated

Auto-generated benchmark

google/embeddinggemma-300m

FP16

1GB

25.10 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

FP16

2GB

24.83 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

10GB

24.82 tok/sEstimated

Auto-generated benchmark

15GB

24.79 tok/sEstimated

Auto-generated benchmark

WeiboAI/VibeThinker-1.5B

FP16

4GB

24.71 tok/sEstimated

Auto-generated benchmark

nari-labs/Dia2-2B

FP16

5GB

24.53 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

FP16

6GB

24.37 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanOCR

FP16

3GB

24.26 tok/sEstimated

Auto-generated benchmark

google-bert/bert-base-uncased

9GB

24.24 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

FP16

2GB

24.21 tok/sEstimated

Auto-generated benchmark

FP16

1GB

24.20 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

10GB

24.19 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

FP16

4GB

24.18 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

FP16

6GB

24.06 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

FP16

2GB

24.03 tok/sEstimated

Auto-generated benchmark

TinyLlama/TinyLlama-1.1B-Chat-v1.0

FP16

2GB

23.79 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

FP16

6GB

23.75 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

FP16

2GB

23.75 tok/sEstimated

Auto-generated benchmark

facebook/sam3

FP16

2GB

23.72 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

FP16

6GB

23.63 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

FP16

2GB

23.55 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-OCR

FP16

7GB

23.41 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

FP16

4GB

23.37 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

FP16

2GB

23.22 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

FP16

6GB

22.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

FP16

6GB

22.01 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

FP16

4GB

21.82 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

FP16

6GB

21.66 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

FP16

2GB

21.60 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

FP16

6GB

21.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

FP16

6GB

21.31 tok/sEstimated

Auto-generated benchmark

FP16

6GB

21.25 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

23GB

21.15 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

FP16

15GB

21.12 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

FP16

17GB

21.09 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

FP16

6GB

21.07 tok/sEstimated

Auto-generated benchmark

FP16

17GB

21.05 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

FP16

11GB

21.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

FP16

9GB

21.02 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

FP16

15GB

20.98 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

FP16

15GB

20.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

FP16

13GB

20.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

FP16

15GB

20.94 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

FP16

15GB

20.93 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

FP16

17GB

20.90 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

FP16

15GB

20.89 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

FP16

15GB

20.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

FP16

17GB

20.86 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

FP16

15GB

20.83 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

FP16

4GB

20.82 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

FP16

15GB

20.82 tok/sEstimated

Auto-generated benchmark

Tongyi-MAI/Z-Image-Turbo

FP16

16GB

20.81 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

FP16

15GB

20.79 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

FP16

17GB

20.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

FP16

11GB

20.72 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

20.64 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

FP16

15GB

20.62 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

FP16

15GB

20.61 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

FP16

15GB

20.56 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

FP16

11GB

20.56 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

FP16

17GB

20.55 tok/sEstimated

Auto-generated benchmark

31GB

20.48 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.1-dev

FP16

16GB

20.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

FP16

15GB

20.41 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

FP16

15GB

20.41 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

20GB

20.39 tok/sEstimated

Auto-generated benchmark

allenai/Olmo-3-7B-Think

FP16

16GB

20.35 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

FP16

15GB

20.35 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

FP16

9GB

20.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

FP16

11GB

20.23 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

31GB

20.16 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

FP16

15GB

20.15 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

FP16

17GB

20.12 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

FP16

15GB

20.11 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

FP16

15GB

20.09 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

FP16

15GB

20.09 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

FP16

15GB

20.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

FP16

11GB

19.88 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

15GB

19.87 tok/sEstimated

Auto-generated benchmark

31GB

19.83 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

FP16

17GB

19.71 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

FP16

17GB

19.71 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

FP16

17GB

19.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

FP16

11GB

19.53 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

FP16

15GB

19.50 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

20GB

19.49 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

FP16

15GB

19.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen-Image-Edit-2509

FP16

16GB

19.48 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

FP16

15GB

19.47 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

FP16

11GB

19.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

31GB

19.43 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

FP16

15GB

19.41 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

FP16

15GB

19.41 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

19.39 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

19.38 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

FP16

15GB

19.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

FP16

17GB

19.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

FP16

15GB

19.23 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

8GB

19.22 tok/sEstimated

Auto-generated benchmark

16GB

19.21 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

FP16

15GB

19.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

FP16

17GB

19.18 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

FP16

15GB

19.16 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

20GB

19.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

FP16

11GB

19.10 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

FP16

17GB

19.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

FP16

15GB

19.08 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

25GB

19.06 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

FP16

15GB

19.00 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

22GB

19.00 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

FP16

15GB

19.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

34GB

19.00 tok/sEstimated

Auto-generated benchmark

FP16

9GB

18.96 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

FP16

15GB

18.94 tok/sEstimated

Auto-generated benchmark

black-forest-labs/FLUX.2-dev

FP16

16GB

18.93 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

FP16

15GB

18.90 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

18.89 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

FP16

15GB

18.86 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

FP16

15GB

18.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

FP16

9GB

18.84 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

FP16

15GB

18.82 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

28GB

18.81 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

FP16

15GB

18.77 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

FP16

15GB

18.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

FP16

13GB

18.72 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

FP16

15GB

18.71 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

18GB

18.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

31GB

18.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

31GB

18.60 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

FP16

15GB

18.60 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

FP16

15GB

18.59 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

FP16

16GB

18.59 tok/sEstimated

Auto-generated benchmark

FP16

15GB

18.59 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

FP16

15GB

18.58 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

FP16

15GB

18.47 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

31GB

18.46 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

FP16

17GB

18.45 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

FP16

9GB

18.42 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

FP16

15GB

18.38 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

FP16

15GB

18.38 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

FP16

9GB

18.32 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

FP16

15GB

18.30 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

31GB

18.28 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

FP16

15GB

18.22 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

FP16

15GB

18.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

FP16

13GB

18.14 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

FP16

9GB

18.12 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

34GB

18.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

FP16

13GB

18.07 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

18.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

FP16

9GB

18.03 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

FP16

15GB

18.00 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

17.99 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

FP16

11GB

17.96 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

FP16

11GB

17.94 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

FP16

17GB

17.93 tok/sEstimated

Auto-generated benchmark

tencent/HunyuanVideo-1.5

FP16

16GB

17.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

FP16

11GB

17.91 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

FP16

15GB

17.88 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

31GB

17.85 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

FP16

15GB

17.82 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

FP16

17GB

17.75 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

489GB

17.74 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

FP16

15GB

17.74 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

FP16

15GB

17.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

FP16

9GB

17.68 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

FP16

7GB

17.67 tok/sEstimated

Auto-generated benchmark

FP16

15GB

17.66 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

FP16

15GB

17.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

FP16

11GB

17.61 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

FP16

17GB

17.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

34GB

17.57 tok/sEstimated

Auto-generated benchmark

FP16

9GB

17.54 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

FP16

15GB

17.53 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

FP16

15GB

17.49 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

FP16

15GB

17.49 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

FP16

17GB

17.47 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

34GB

17.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

FP16

15GB

17.42 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

FP16

11GB

17.41 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

FP16

15GB

17.38 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

FP16

15GB

17.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

FP16

17GB

17.30 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

FP16

17GB

17.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

16GB

17.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

17.04 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

17GB

16.57 tok/sEstimated

Auto-generated benchmark

17GB

16.46 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

328GB

16.33 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

34GB

16.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

17GB

16.08 tok/sEstimated

Auto-generated benchmark

17GB

16.00 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

FP16

29GB

15.65 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

FP16

29GB

15.52 tok/sEstimated

Auto-generated benchmark

EssentialAI/rnj-1

FP16

19GB

15.33 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

FP16

27GB

15.32 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

FP16

17GB

14.59 tok/sEstimated

Auto-generated benchmark

mistralai/Ministral-3-14B-Instruct-2512

FP16

32GB

14.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

FP16

29GB

14.36 tok/sEstimated

Auto-generated benchmark

FP16

29GB

14.18 tok/sEstimated

Auto-generated benchmark

FP16

30GB

13.97 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

FP16

17GB

13.91 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

FP16

20GB

13.78 tok/sEstimated

Auto-generated benchmark

FP16

19GB

13.54 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

656GB

13.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

FP16

29GB

13.34 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

33GB

13.32 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

34GB

13.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

FP16

29GB

13.20 tok/sEstimated

Auto-generated benchmark

34GB

13.14 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

FP16

27GB

13.09 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

50GB

13.06 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

68GB

13.03 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

33GB

12.88 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

33GB

12.41 tok/sEstimated

Auto-generated benchmark

34GB

12.39 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

69GB

12.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

33GB

12.30 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

68GB

12.25 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

35GB

12.14 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

68GB

11.85 tok/sEstimated

Auto-generated benchmark

35GB

11.81 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

978GB

11.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

33GB

11.72 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

33GB

11.55 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

68GB

11.52 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

FP16

61GB

11.43 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

68GB

11.27 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

FP16

41GB

11.26 tok/sEstimated

Auto-generated benchmark

35GB

11.17 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

34GB

11.15 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

FP16

61GB

11.09 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

34GB

11.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

39GB

11.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

36GB

11.03 tok/sEstimated

Auto-generated benchmark

39GB

11.00 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

35GB

10.91 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

35GB

10.90 tok/sEstimated

Auto-generated benchmark

FP16

61GB

10.80 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

FP16

61GB

10.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

FP16

61GB

10.74 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

FP16

41GB

10.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

FP16

61GB

10.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

36GB

10.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

39GB

10.63 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

59GB

10.50 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

FP16

56GB

10.45 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

FP16

41GB

10.28 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

FP16

61GB

10.28 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

44GB

10.15 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

FP16

41GB

10.13 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-safeguard-20b

FP16

44GB

9.98 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

FP16

61GB

9.92 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

FP16

46GB

9.90 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

138GB

9.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

34GB

9.77 tok/sEstimated

Auto-generated benchmark

39GB

9.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

FP16

61GB

9.59 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

60GB

9.41 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

34GB

9.37 tok/sEstimated

Auto-generated benchmark

34GB

9.32 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

115GB

8.26 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

383GB

8.07 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-120b

117GB

7.58 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

70GB

7.50 tok/sEstimated

Auto-generated benchmark

FP16

68GB

7.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking

78GB

7.20 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-Linear-48B-A3B-Instruct

FP16

137GB

7.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

FP16

66GB

7.09 tok/sEstimated

Auto-generated benchmark

FP16

101GB

7.08 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

69GB

7.04 tok/sEstimated

Auto-generated benchmark

AI-MO/Kimina-Prover-72B

70GB

7.01 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

71GB

6.99 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

FP16

66GB

6.97 tok/sEstimated

Auto-generated benchmark

FP16

66GB

6.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

78GB

6.89 tok/sEstimated

Auto-generated benchmark

RedHatAI/Meta-Llama-3.1-70B-Instruct-quantized.w4a16

FP16

137GB

6.89 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

FP16

67GB

6.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

FP16

67GB

6.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

FP16

137GB

6.85 tok/sEstimated

Auto-generated benchmark

78GB

6.81 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

FP16

67GB

6.78 tok/sEstimated

Auto-generated benchmark

FP16

137GB

6.70 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

FP16

66GB

6.70 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

69GB

6.69 tok/sEstimated

Auto-generated benchmark

RedHatAI/Llama-3.2-90B-Vision-Instruct-FP8-dynamic

88GB

6.68 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

69GB

6.59 tok/sEstimated

Auto-generated benchmark

FP16

70GB

6.59 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V2.5

71GB

6.58 tok/sEstimated

Auto-generated benchmark

FP16

1312GB

6.56 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-Instruct-2411

120GB

6.54 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

FP16

66GB

6.52 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

256GB

6.43 tok/sEstimated

Auto-generated benchmark

moonshotai/Kimi-K2-Thinking

FP16

1956GB

6.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Instruct

78GB

6.39 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

69GB

6.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

FP16

66GB

6.37 tok/sEstimated

Auto-generated benchmark

FP16

70GB

6.35 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-70B-Instruct

FP16

137GB

6.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

115GB

6.22 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

FP16

70GB

6.18 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

255GB

5.62 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

378GB

5.54 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Instruct-0724

231GB

5.39 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Math-V2

766GB

5.32 tok/sEstimated

Auto-generated benchmark

mistralai/Mixtral-8x22B-Instruct-v0.1

FP16

275GB

4.67 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-235B-A22B

230GB

4.45 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-VL-01

511GB

4.27 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Large-3-675B-Instruct-2512

755GB

4.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

FP16

141GB

4.14 tok/sEstimated

Auto-generated benchmark

FP16

156GB

4.13 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-70B

FP16

138GB

4.04 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M1-40k

510GB

4.02 tok/sEstimated

Auto-generated benchmark

FP16

138GB

3.98 tok/sEstimated

Auto-generated benchmark

nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

FP16

142GB

3.91 tok/sEstimated

Auto-generated benchmark

FP16

138GB

3.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-72B-Instruct

FP16

142GB

3.80 tok/sEstimated

Auto-generated benchmark