RTX 4070 Ti

meta-llama/Llama-Guard-3-1B

2GB

54.03 tok/sEstimated

Auto-generated benchmark

1GB

54.02 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

2GB

52.96 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

2GB

52.54 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

2GB

51.87 tok/sEstimated

Auto-generated benchmark

apple/OpenELM-1_1B-Instruct

1GB

51.03 tok/sEstimated

Auto-generated benchmark

unsloth/gemma-3-1b-it

1GB

50.49 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

2GB

50.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

2GB

49.12 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-1B

1GB

48.79 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-1B-Instruct

1GB

48.18 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

2GB

47.92 tok/sEstimated

Auto-generated benchmark

2GB

47.57 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

2GB

47.16 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

2GB

46.85 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

2GB

46.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

3GB

46.40 tok/sEstimated

Auto-generated benchmark

2GB

45.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

3GB

44.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

3GB

44.67 tok/sEstimated

Auto-generated benchmark

google/gemma-2b

2GB

44.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

2GB

43.57 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

2GB

43.41 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

2GB

43.24 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

3GB

42.29 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

2GB

42.19 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

3GB

41.89 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-2b-instruct

2GB

41.80 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

2GB

41.63 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

3GB

41.42 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

4GB

41.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

3GB

41.28 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

4GB

41.19 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

3GB

41.06 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

4GB

41.04 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

3GB

40.98 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

4GB

40.93 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

4GB

40.92 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

4GB

40.86 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

3GB

40.79 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

4GB

40.62 tok/sEstimated

Auto-generated benchmark

LiquidAI/LFM2-1.2B

2GB

40.57 tok/sEstimated

Auto-generated benchmark

3GB

40.46 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

4GB

40.39 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

4GB

40.14 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

4GB

40.04 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

4GB

40.01 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

3GB

39.96 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

4GB

39.95 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

4GB

39.87 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

4GB

39.83 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

4GB

39.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

4GB

39.55 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

4GB

39.53 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

4GB

39.46 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

4GB

39.38 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

3GB

39.28 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

4GB

39.27 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

3GB

39.26 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

3GB

39.21 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

4GB

39.20 tok/sEstimated

Auto-generated benchmark

4GB

39.02 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

4GB

38.96 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

4GB

38.96 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

4GB

38.86 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

4GB

38.81 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

4GB

38.80 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

4GB

38.75 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

4GB

38.69 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

4GB

38.69 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

4GB

38.58 tok/sEstimated

Auto-generated benchmark

google/gemma-2-2b-it

2GB

38.50 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

4GB

38.48 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

4GB

38.33 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

4GB

38.24 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

4GB

38.19 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

4GB

38.12 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

4GB

38.09 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

4GB

37.98 tok/sEstimated

Auto-generated benchmark

4GB

37.79 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

4GB

37.74 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Llama-8B

4GB

37.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

4GB

37.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B

4GB

37.65 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

4GB

37.56 tok/sEstimated

Auto-generated benchmark

context-labs/meta-llama-Llama-3.2-3B-Instruct-FP16

3GB

37.55 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

4GB

37.51 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

3GB

37.45 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

4GB

37.43 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

4GB

37.38 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

4GB

37.36 tok/sEstimated

Auto-generated benchmark

ibm-research/PowerMoE-3b

3GB

37.32 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

4GB

37.11 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

4GB

37.06 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

4GB

36.96 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

4GB

36.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

4GB

36.79 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

4GB

36.58 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

5GB

36.41 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B-Instruct

3GB

36.39 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

3GB

36.38 tok/sEstimated

Auto-generated benchmark

4GB

36.37 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

4GB

36.29 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

4GB

36.20 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

3GB

36.06 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

4GB

35.78 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

4GB

35.74 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

4GB

35.69 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

4GB

35.67 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

4GB

35.66 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

4GB

35.65 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

4GB

35.52 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.2-3B

3GB

35.52 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-8bit

4GB

35.51 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

4GB

35.32 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

4GB

35.16 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-4B

4GB

35.11 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

4GB

35.09 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

4GB

35.08 tok/sEstimated

Auto-generated benchmark

nvidia/NVIDIA-Nemotron-Nano-9B-v2

5GB

35.04 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

4GB

35.04 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

4GB

35.00 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

4GB

34.80 tok/sEstimated

Auto-generated benchmark

google-t5/t5-3b

3GB

34.66 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

3GB

34.62 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

4GB

34.52 tok/sEstimated

Auto-generated benchmark

4GB

34.51 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

4GB

34.35 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

4GB

34.33 tok/sEstimated

Auto-generated benchmark

deepseek-ai/deepseek-coder-1.3b-instruct

3GB

34.33 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

4GB

34.31 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

4GB

34.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-3B

3GB

34.10 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

4GB

34.04 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

4GB

34.04 tok/sEstimated

Auto-generated benchmark

NousResearch/Meta-Llama-3.1-8B-Instruct

4GB

33.92 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-4bit

4GB

33.89 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

4GB

33.78 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B

4GB

33.60 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

4GB

33.57 tok/sEstimated

Auto-generated benchmark

inference-net/Schematron-3B

3GB

33.54 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-4bit

4GB

33.52 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507

5GB

33.42 tok/sEstimated

Auto-generated benchmark

4GB

33.37 tok/sEstimated

Auto-generated benchmark

NousResearch/Hermes-3-Llama-3.1-8B

5GB

33.32 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

4GB

33.10 tok/sEstimated

Auto-generated benchmark

unsloth/Llama-3.2-3B-Instruct

3GB

33.00 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

4GB

32.80 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-13b-chat-hf

4GB

32.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B

5GB

32.41 tok/sEstimated

Auto-generated benchmark

bigcode/starcoder2-3b

3GB

32.39 tok/sEstimated

Auto-generated benchmark

7GB

32.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-1.5B

5GB

32.17 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Thinking-2507-FP8

4GB

32.13 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B-Instruct

5GB

32.00 tok/sEstimated

Auto-generated benchmark

google/gemma-2-9b-it

6GB

31.99 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

5GB

31.96 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-1.5B-Instruct

5GB

31.84 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B

5GB

31.61 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-0.5B

5GB

31.39 tok/sEstimated

Auto-generated benchmark

Alibaba-NLP/gte-Qwen2-1.5B-instruct

5GB

31.34 tok/sEstimated

Auto-generated benchmark

lmstudio-community/Qwen3-4B-Thinking-2507-MLX-6bit

4GB

30.84 tok/sEstimated

Auto-generated benchmark

kaitchup/Phi-3-mini-4k-instruct-gptq-4bit

4GB

30.60 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Base

4GB

30.35 tok/sEstimated

Auto-generated benchmark

Gensyn/Qwen2.5-0.5B-Instruct

5GB

30.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B-Base

6GB

30.22 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-0.6B

6GB

29.94 tok/sEstimated

Auto-generated benchmark

5GB

29.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B

7GB

29.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-4B-Instruct-2507

4GB

29.39 tok/sEstimated

Auto-generated benchmark

ai-forever/ruGPT-3.5-13B

7GB

29.08 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Math-1.5B

5GB

29.00 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-hf

7GB

28.91 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-LlamaForCausalLM-3.2

7GB

28.88 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-random-LlamaForCausalLM

7GB

28.83 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-xl

7GB

28.77 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-v0.1

7GB

28.73 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct

7GB

28.71 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-0.5B-Instruct

5GB

28.68 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B

7GB

28.52 tok/sEstimated

Auto-generated benchmark

rinna/japanese-gpt-neox-small

7GB

28.51 tok/sEstimated

Auto-generated benchmark

facebook/opt-125m

7GB

28.37 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-14B-Base

7GB

28.32 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-large

7GB

28.30 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Reranker-0.6B

6GB

28.17 tok/sEstimated

Auto-generated benchmark

huggyllama/llama-7b

7GB

28.11 tok/sEstimated

Auto-generated benchmark

unsloth/mistral-7b-v0.3-bnb-4bit

7GB

28.10 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-128k-instruct

7GB

28.07 tok/sEstimated

Auto-generated benchmark

microsoft/VibeVoice-1.5B

5GB

27.97 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-Coder-7B-Instruct

7GB

27.94 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-multimodal-instruct

7GB

27.82 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-1.5B-Instruct

5GB

27.75 tok/sEstimated

Auto-generated benchmark

distilbert/distilgpt2

7GB

27.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B-Instruct

7GB

27.43 tok/sEstimated

Auto-generated benchmark

BSC-LT/salamandraTA-7b-instruct

7GB

27.32 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2-7B-Instruct

7GB

27.32 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-2-7b-chat-hf

7GB

27.19 tok/sEstimated

Auto-generated benchmark

numind/NuExtract-1.5

7GB

27.09 tok/sEstimated

Auto-generated benchmark

swiss-ai/Apertus-8B-Instruct-2509

8GB

27.06 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-3.1-8B

8GB

27.04 tok/sEstimated

Auto-generated benchmark

OpenPipe/Qwen3-14B-Instruct

7GB

27.04 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-14B-Instruct

9GB

26.97 tok/sEstimated

Auto-generated benchmark

lmstudio-community/DeepSeek-R1-0528-Qwen3-8B-MLX-8bit

8GB

26.87 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen2.5-7B

7GB

26.86 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3.1

7GB

26.85 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-medium-128k-instruct

8GB

26.58 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-0.6B

6GB

26.57 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-0528

7GB

26.48 tok/sEstimated

Auto-generated benchmark

petals-team/StableBeluga2

7GB

26.47 tok/sEstimated

Auto-generated benchmark

IlyaGusev/saiga_llama3_8b

8GB

26.47 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2

7GB

26.40 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B-Base

7GB

26.39 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM-135M

7GB

26.34 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-FP8

8GB

26.34 tok/sEstimated

Auto-generated benchmark

sshleifer/tiny-gpt2

7GB

26.21 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-docling-258M

7GB

26.17 tok/sEstimated

Auto-generated benchmark

EleutherAI/pythia-70m-deduped

7GB

26.15 tok/sEstimated

Auto-generated benchmark

llamafactory/tiny-random-Llama-3

7GB

26.05 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-1.7B

7GB

25.98 tok/sEstimated

Auto-generated benchmark

dicta-il/dictalm2.0-instruct

7GB

25.95 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-BF16

10GB

25.91 tok/sEstimated

Auto-generated benchmark

meta-llama/Llama-Guard-3-8B

8GB

25.89 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1

7GB

25.85 tok/sEstimated

Auto-generated benchmark

HuggingFaceTB/SmolLM2-135M

8GB

25.81 tok/sEstimated

Auto-generated benchmark

7GB

25.78 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-small

7GB

25.73 tok/sEstimated

Auto-generated benchmark

microsoft/DialoGPT-medium

7GB

25.70 tok/sEstimated

Auto-generated benchmark

parler-tts/parler-tts-large-v1

7GB

25.70 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

8GB

25.66 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-8B-Base

8GB

25.65 tok/sEstimated

Auto-generated benchmark

trl-internal-testing/tiny-Qwen2ForCausalLM-2.5

7GB

25.64 tok/sEstimated

Auto-generated benchmark

7GB

25.64 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3-mini-4k-instruct

7GB

25.62 tok/sEstimated

Auto-generated benchmark

EleutherAI/gpt-neo-125m

7GB

25.60 tok/sEstimated

Auto-generated benchmark

liuhaotian/llava-v1.5-7b

7GB

25.60 tok/sEstimated

Auto-generated benchmark

lmsys/vicuna-7b-v1.5

7GB

25.54 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3

7GB

25.45 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.2

7GB

25.44 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B-Instruct

7GB

25.40 tok/sEstimated

Auto-generated benchmark

microsoft/phi-4

7GB

25.38 tok/sEstimated

Auto-generated benchmark

8GB

25.17 tok/sEstimated

Auto-generated benchmark

unsloth/gpt-oss-20b-unsloth-bnb-4bit

10GB

25.17 tok/sEstimated

Auto-generated benchmark

meta-llama/Meta-Llama-3-8B

8GB

25.16 tok/sEstimated

Auto-generated benchmark

bigscience/bloomz-560m

7GB

25.10 tok/sEstimated

Auto-generated benchmark

HuggingFaceM4/tiny-random-LlamaForCausalLM

7GB

25.09 tok/sEstimated

Auto-generated benchmark

MiniMaxAI/MiniMax-M2

7GB

24.94 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-4-mini-instruct

9GB

24.80 tok/sEstimated

Auto-generated benchmark

google/gemma-3-270m-it

7GB

24.74 tok/sEstimated

Auto-generated benchmark

7GB

24.61 tok/sEstimated

Auto-generated benchmark

microsoft/phi-2

7GB

24.50 tok/sEstimated

Auto-generated benchmark

rednote-hilab/dots.ocr

7GB

24.45 tok/sEstimated

Auto-generated benchmark

openai-community/gpt2-medium

7GB

24.44 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.5-Air

7GB

24.41 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Base

8GB

24.37 tok/sEstimated

Auto-generated benchmark

vikhyatk/moondream2

7GB

24.28 tok/sEstimated

Auto-generated benchmark

zai-org/GLM-4.6-FP8

7GB

24.28 tok/sEstimated

Auto-generated benchmark

microsoft/Phi-3.5-vision-instruct

7GB

24.23 tok/sEstimated

Auto-generated benchmark

openai/gpt-oss-20b

10GB

24.22 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

7GB

24.16 tok/sEstimated

Auto-generated benchmark

skt/kogpt2-base-v2

7GB

24.15 tok/sEstimated

Auto-generated benchmark

ibm-granite/granite-3.3-8b-instruct

8GB

24.11 tok/sEstimated

Auto-generated benchmark

Qwen/Qwen3-Embedding-8B

8GB

24.01 tok/sEstimated

Auto-generated benchmark

mlx-community/gpt-oss-20b-MXFP4-Q8

10GB

23.99 tok/sEstimated

Auto-generated benchmark

deepseek-ai/DeepSeek-V3-0324

7GB

23.97 tok/sEstimated

Auto-generated benchmark

hmellor/tiny-random-LlamaForCausalLM

7GB

23.93 tok/sEstimated

Auto-generated benchmark

GSAI-ML/LLaDA-8B-Instruct

8GB

23.85 tok/sEstimated

Auto-generated benchmark

unsloth/Meta-Llama-3.1-8B-Instruct

8GB

23.83 tok/sEstimated

Auto-generated benchmark

mistralai/Mistral-7B-Instruct-v0.1

7GB

23.73 tok/sEstimated

Auto-generated benchmark

HuggingFaceH4/zephyr-7b-beta

7GB

23.70 tok/sEstimated

Auto-generated benchmark