RTX 4080

inference-net/Schematron-3B

2GB

69.15 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

2GB

68.96 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

68.77 tok/sEstimated

Auto-generated benchmark

google/gemma-3-1b-it

1GB

68.40 tok/sEstimated

Auto-generated benchmark

allenai/OLMo-2-0425-1B

1GB

68.34 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

68.27 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

2GB

68.01 tok/sEstimated

Auto-generated benchmark

2GB

67.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

2GB

67.59 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B-Instruct

1GB

66.54 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

2GB

65.30 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

64.84 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-1B

1GB

64.55 tok/sEstimated

Auto-generated benchmark

2GB

64.48 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

61.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

61.58 tok/sEstimated

Auto-generated benchmark

2GB

61.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

2GB

60.72 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

2GB

60.49 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

2GB

60.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

60.03 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

2GB

58.72 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

58.65 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

58.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

58.08 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

57.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

3GB

57.14 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

57.12 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

56.69 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

56.54 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

55.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

55.06 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

54.08 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

54.08 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

53.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

53.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

53.39 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

53.23 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

52.93 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

52.82 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

52.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

52.21 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

52.18 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

52.14 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

52.12 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

51.86 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

51.73 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

51.55 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

51.49 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

51.43 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

51.27 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

51.12 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

50.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

50.74 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

50.63 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

50.50 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

50.45 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

50.42 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

50.40 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

50.29 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

50.26 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

50.26 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

50.25 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

50.14 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

49.99 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

49.95 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

49.72 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

49.60 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

49.55 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

49.52 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

49.39 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

49.36 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

49.36 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

49.33 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

49.32 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

49.05 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

48.86 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

48.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

48.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

48.66 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

48.60 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

48.55 tok/sEstimated

Auto-generated benchmark

4GB

48.53 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

48.48 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

48.48 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

48.47 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

48.44 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

48.44 tok/sEstimated

Auto-generated benchmark

4GB

48.31 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

48.26 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

5GB

48.04 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

47.91 tok/sEstimated

Auto-generated benchmark

4GB

47.68 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

47.46 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

3GB

47.35 tok/sEstimated

Auto-generated benchmark

4GB

47.20 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

47.01 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

46.99 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

46.89 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

46.77 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

46.72 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

46.70 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

46.61 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

46.60 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

46.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

46.46 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

46.42 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

46.28 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

46.23 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

46.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

46.15 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

46.14 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

46.05 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

46.03 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

45.71 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

45.64 tok/sEstimated

Auto-generated benchmark

4GB

45.45 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

45.39 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

45.38 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

5GB

45.36 tok/sEstimated

Auto-generated benchmark

5GB

45.18 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

44.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

44.83 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

44.81 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

44.66 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

44.64 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

44.43 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

44.38 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

44.31 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

4GB

44.26 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

44.23 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

44.19 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

44.12 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

44.11 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

44.08 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

44.01 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

4GB

43.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

43.57 tok/sEstimated

Auto-generated benchmark

4GB

43.29 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

42.98 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

42.88 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

42.84 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

42.76 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

42.68 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

42.59 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

42.46 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

41.92 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

6GB

41.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

41.45 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

41.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

41.17 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

41.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

41.07 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

41.06 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

41.03 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

41.01 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

40.99 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

40.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

40.75 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

5GB

40.25 tok/sEstimated

Auto-generated benchmark

4GB

40.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

39.96 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

39.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

4GB

39.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

39.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

39.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

39.00 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

38.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

38.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

38.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

38.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

37.97 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

7GB

37.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

37.22 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

37.11 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

36.93 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

36.86 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

36.65 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

36.56 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

36.54 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

36.42 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

36.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

36.14 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

36.13 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

36.07 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

35.97 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

35.79 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

35.76 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

35.74 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

35.65 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

35.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

35.39 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

8GB

35.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

35.36 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

35.23 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

35.08 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

35.08 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

35.07 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

34.95 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

34.88 tok/sEstimated

Auto-generated benchmark

7GB

34.87 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

34.87 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

34.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B-Instruct

7GB

34.79 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

34.76 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

34.75 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

34.74 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

34.71 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

34.65 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

34.59 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

34.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B-Instruct

9GB

34.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

34.34 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

7GB

34.34 tok/sEstimated

Auto-generated benchmark

9GB

34.28 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

34.16 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

34.16 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

34.15 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

8GB

33.98 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

33.95 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

7GB

33.80 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

33.76 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

33.65 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

33.63 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

33.61 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

33.58 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

33.57 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

33.53 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

33.46 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

33.34 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

33.11 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

8GB

33.07 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

8GB

32.87 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

32.82 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

32.79 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

32.75 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

32.53 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

8GB

32.49 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

32.42 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

32.31 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

8GB

32.00 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

31.87 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

8GB

31.87 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

31.74 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

31.62 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

8GB

31.61 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

31.51 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

8GB

31.48 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

8GB

31.43 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

31.41 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

31.40 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

31.36 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

31.36 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

8GB

31.31 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

31.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

31.06 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

31.00 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

30.90 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

30.89 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

30.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

30.83 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

8GB

30.81 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

30.73 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

30.71 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

7GB

30.54 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

30.54 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

8GB

30.44 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

8GB

30.41 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

8GB

30.34 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

30.11 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

30.11 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

30.09 tok/sEstimated

Auto-generated benchmark

9GB

30.08 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

9GB

29.46 tok/sEstimated

Auto-generated benchmark

8GB

29.40 tok/sEstimated

Auto-generated benchmark