Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

One-click Deployment

Inference Endpoints

Microsoft Foundry

Amazon SageMaker AI

Misc

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

268

Base only

Active filters: sglang

EschaLabs/Qwen3.6-35B-A3B-Escha-W2

Text Generation • 7B • Updated 1 day ago • 201 • 95

baseten/GLM-5.2-Vision-NVFP4

Image-Text-to-Text • 381B • Updated 9 days ago • 3.08k • 139

RadixArk/Kimi-K3-DSpark

Text Generation • 2B • Updated 4 days ago • 98.4k • 23

z-lab/Qwen3.6-35B-A3B-DFlash

Text Generation • 0.4B • Updated Jun 19 • 233k • 282

poolside/Laguna-M.1

Text Generation • 226B • Updated 17 days ago • 2.53k • 138

vessl/Kimi-K3-W4AFP8

Image-Text-to-Text • 1.4T • Updated 1 day ago • 569 • 11

nvidia/Cosmos3-Super

65B • Updated 21 days ago • 115k • 221

bottlecapai/ThinkingCap-Qwen3.6-27B-FP8

Image-Text-to-Text • 28B • Updated 7 days ago • 71k • 41

nvidia/Cosmos3-Nano

16B • Updated 21 days ago • 328k • 322

baseten/GLM-5.2-Vision-FP8

Image-Text-to-Text • 754B • Updated 9 days ago • 178 • 7

EschaLabs/escha-runtime-qwen3moe

Updated 1 day ago • 5

PhalaCloud/GLM-5.2-W4AFP8

Text Generation • 392B • Updated 10 days ago • 54.8k • 43

Koopah/Qwen3.6-35B-A3B-NVFP4-DSPARK

2B • Updated 5 days ago • 473 • 4

z-lab/Qwen3.5-4B-DFlash

Text Generation • 0.6B • Updated Jun 19 • 12.3k • 37

nvidia/Cosmos3-Super-Image2Video

Image-to-Video • 65B • Updated 21 days ago • 7.4k • 149

ewinregirgojr/MiniCPM5-1B-Agentic-Tooluse-Merged-FP16

Text Generation • 1B • Updated 1 day ago • 2.35k • 6

scottgl/MiniMax-M2.7-REAP-172B-A10B-NVFP4-GB10

Text Generation • 98B • Updated Apr 16 • 3.71k • 5

nvidia/Cosmos3-Super-Text2Image

Text-to-Image • 65B • Updated 21 days ago • 2.8k • 174

RadixArk/Inkling-Small-DSpark-Preview

Text Generation • 0.9B • Updated about 9 hours ago • 2

Doradus-AI/Hermes-4.3-36B-FP8

Text Generation • 36B • Updated Dec 7, 2025 • 2.21k • 5

bullpoint/Qwen3-Coder-Next-AWQ-4bit

Text Generation • 14B • Updated Feb 3 • 81.7k • 30

z-lab/Qwen3.5-35B-A3B-DFlash

Text Generation • 0.4B • Updated Jun 19 • 7.07k • 43

poolside/Laguna-M.1-FP8

Text Generation • 226B • Updated 17 days ago • 1.74k • 11

operationrange/MiniMax-M2.7-8bit

Text Generation • 60B • Updated May 5 • 195 • 2

88plug/Qwen3.6-35B-A3B-W8A16

Image-Text-to-Text • 35B • Updated 16 days ago • 920 • 3

88plug/MiniCPM-o-4.5-W4A16

Image-Text-to-Text • 9B • Updated 17 days ago • 604 • 2

88plug/Qwen3.6-27B-W8A16

Image-Text-to-Text • 27B • Updated 16 days ago • 6.24k • 3

Anbeeld/Qwen3.6-35B-A3B-DFlash-GGUF

Feature Extraction • 0.4B • Updated 12 days ago • 5.71k • 9

AxionML/Gemma-4-12B-FP8

Image-Text-to-Text • 12B • Updated Jun 4 • 12.1k • 4

libertywing/FlashMemory-Deepseek-V4

Text Generation • Updated 13 days ago • 22