RTX 3090

apple/OpenELM-1_1B-Instruct

2GB

65.51 tok/sEstimated

Auto-generated benchmark

1GB

65.47 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

2GB

65.33 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

65.31 tok/sEstimated

Auto-generated benchmark

1GB

65.30 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

2GB

64.98 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

2GB

64.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

63.13 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

2GB

63.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

62.37 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

62.09 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

3GB

61.91 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

61.30 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

60.74 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

60.55 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

60.29 tok/sEstimated

Auto-generated benchmark

2GB

60.07 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

59.80 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

59.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

58.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

58.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

58.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

58.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

57.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

56.98 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

56.86 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

56.45 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

56.42 tok/sEstimated

Auto-generated benchmark

4GB

56.25 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

56.19 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

56.18 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

56.03 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

56.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

56.02 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

55.91 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

55.86 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

55.67 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

55.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

55.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

55.28 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

55.24 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

55.21 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

55.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

54.72 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

54.65 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

54.40 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

54.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

54.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

54.32 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

54.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

54.24 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

5GB

54.13 tok/sEstimated

Auto-generated benchmark

4GB

54.13 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

54.07 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

53.95 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

53.95 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

53.94 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

53.64 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

53.59 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

53.24 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

53.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

52.62 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

52.58 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

52.45 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

52.39 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

52.38 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

52.36 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

52.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

52.07 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

52.03 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

51.75 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

51.73 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

51.64 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

51.62 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

51.61 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

51.54 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

51.39 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

51.37 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

51.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

51.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

51.21 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

3GB

51.03 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

50.98 tok/sEstimated

Auto-generated benchmark

4GB

50.62 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

50.54 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

50.18 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

50.17 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

50.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

50.00 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

49.99 tok/sEstimated

Auto-generated benchmark

4GB

49.96 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

49.90 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

49.85 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

49.83 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

49.82 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

49.77 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

49.60 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

49.37 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

49.09 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

49.04 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

49.03 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

49.01 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

5GB

48.91 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

48.89 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

48.87 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

5GB

48.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

48.44 tok/sEstimated

Auto-generated benchmark

4GB

48.32 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

48.25 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

48.15 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

48.10 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

47.99 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

5GB

47.99 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

47.92 tok/sEstimated

Auto-generated benchmark

4GB

47.77 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

47.73 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

47.71 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

47.62 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

47.62 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

47.57 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

47.44 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

47.10 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

46.98 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

46.98 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

46.88 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

46.80 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

46.74 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

46.59 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

46.38 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

46.32 tok/sEstimated

Auto-generated benchmark

4GB

46.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

45.86 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

45.76 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

45.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

45.26 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

45.21 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

4GB

45.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

44.41 tok/sEstimated

Auto-generated benchmark

3GB

44.26 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

43.95 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

43.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

43.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

43.32 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

43.29 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

43.28 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

43.02 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

43.02 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

6GB

42.85 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

42.68 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

42.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

42.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

42.24 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

42.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

41.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

41.86 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

41.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

41.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

41.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

40.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

40.65 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

40.43 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

9GB

40.35 tok/sEstimated

Auto-generated benchmark

4GB

40.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

40.07 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

39.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

39.74 tok/sEstimated

Auto-generated benchmark

7GB

39.39 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

39.35 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

39.27 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

39.20 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

39.15 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

39.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

38.96 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

38.63 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

38.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

38.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

38.28 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

38.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

37.95 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

37.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

37.70 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

37.55 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

37.49 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

37.45 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

8GB

37.42 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

8GB

37.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

37.39 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

37.33 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

8GB

37.31 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

37.29 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

37.21 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

37.17 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

37.16 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

36.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

36.88 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

36.86 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

36.83 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

36.56 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

8GB

36.54 tok/sEstimated

Auto-generated benchmark

7GB

36.53 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

36.52 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

36.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

36.32 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

36.32 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

36.29 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

36.26 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

9GB

36.24 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

36.24 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

36.23 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

36.15 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

36.11 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

36.10 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

8GB

35.99 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

35.93 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

35.91 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

35.84 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

35.70 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

35.69 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

35.65 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

11GB

35.38 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

35.36 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

35.34 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

35.32 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

8GB

35.31 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

35.17 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

35.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

8GB

34.98 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

34.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

34.70 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

8GB

34.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

34.05 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

34.03 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

33.95 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

33.83 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

33.70 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

8GB

33.64 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

33.63 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

33.57 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

33.43 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

8GB

33.23 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

8GB

33.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

33.13 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

33.11 tok/sEstimated

Auto-generated benchmark

7GB

32.91 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

8GB

32.89 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

32.87 tok/sEstimated

Auto-generated benchmark

9GB

32.86 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

32.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

32.76 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

32.75 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

32.71 tok/sEstimated

Auto-generated benchmark

7GB

32.68 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

32.68 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

8GB

32.62 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

32.59 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

32.57 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

8GB

32.57 tok/sEstimated

Auto-generated benchmark

google/gemma-2-27b-it

16GB

32.55 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-Small-Instruct-2409

13GB

32.46 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

8GB

32.45 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

8GB

31.82 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

8GB

31.73 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

8GB

31.66 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

31.46 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-4bit

15GB

31.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B

15GB

31.39 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

8GB

31.33 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

8GB

31.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Coder-30B-A3B-Instruct

15GB

31.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Thinking-2507

15GB

31.03 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

9GB

31.03 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

8GB

30.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507

9GB

30.85 tok/sEstimated

Auto-generated benchmark

15GB

30.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B

16GB

30.47 tok/sEstimated

Auto-generated benchmark

baichuan-inc/Baichuan-M2-32B

16GB

30.35 tok/sEstimated

Auto-generated benchmark

unsloth/DeepSeek-R1-Distill-Qwen-32B-bnb-4bit

16GB

30.16 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

14GB

30.02 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-32B-Instruct

14GB

29.90 tok/sEstimated

Auto-generated benchmark

19GB

29.78 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-33b-instruct

19GB

29.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B-Instruct

16GB

29.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-32B-Instruct

19GB

29.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-30B-A3B-Instruct-2507-FP8

15GB

29.14 tok/sEstimated

Auto-generated benchmark

Qwen/QwQ-32B-Preview

19GB

28.75 tok/sEstimated

Auto-generated benchmark

dphn/dolphin-2.9.1-yi-1.5-34b

17GB

28.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

14GB

28.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

14GB

28.03 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-8bit

15GB

27.77 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

16GB

27.67 tok/sEstimated

Auto-generated benchmark

01-ai/Yi-1.5-34B-Chat

20GB

27.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-32B

16GB

27.27 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

16GB

26.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

14GB

26.58 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

13GB

26.30 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-6bit

15GB

26.30 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-Coder-30B-A3B-Instruct-MLX-5bit

15GB

26.24 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

13GB

26.01 tok/sEstimated

Auto-generated benchmark

codellama/CodeLlama-34b-hf

17GB

25.79 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

20GB

25.32 tok/sEstimated

Auto-generated benchmark