Jak spustit vLLM server na Hugging Face Jobs jedním příkazem

Spuštění vLLM serveru na Hugging Face Jobs je možné provést pomocí jediného příkazu. Tento přístup umožňuje vývojářům rychle testovat a vyhodnocovat modely bez nutnosti složitého nastavování serverů nebo Kubernetes.

Požadavky

Před spuštěním serveru je nutné mít pozitivní předplacený kredit nebo platnou platební metodu, protože Hugging Face Jobs účtuje za využití hardwaru. Dále je třeba mít nainstalovaný balíček huggingface_hub verze 1.20.0 nebo novější, což lze provést příkazem:

pip install -U "huggingface_hub>=1.20.0"

Také je nutné se přihlásit pomocí příkazu hf auth login.

Spuštění serveru

Pro spuštění serveru se používá příkaz hf jobs run, který zahrnuje volbu GPU a vystavení portu. Příklad příkazu pro spuštění serveru vLLM je:

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Tento příkaz spustí server s GPU a vystaví port 8000, což umožní přístup k serveru přes veřejný proxy server Hugging Face. Po spuštění serveru se zobrazí URL, na které je server dostupný.

Dotazování na server

vLLM server komunikuje pomocí OpenAI API a pro autorizaci vyžaduje HF token jako bearer token. Dotaz na server lze provést pomocí příkazu curl:

curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
-H "Authorization: Bearer $(hf auth token)" \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen/Qwen3-4B", "messages": [{"role": "user", "content": "Hello!"}] }'

Tento příkaz vrátí odpověď ve formátu JSON, který je kompatibilní s OpenAI API.

Údržba a zastavení serveru

Je důležité si uvědomit, že běžící job se dál účtuje podle využití hardwaru, a proto je doporučeno server po dokončení práce zastavit. K tomu slouží příkaz:

hf jobs cancel <job_id>

Tímto způsobem se vyhnete zbytečným nákladům.

Možnosti pro větší modely

Pokud plánujete používat větší modely, můžete upravit příkaz pro spuštění serveru pomocí parametru --tensor-parallel-size. Tento parametr umožňuje shardování modelu napříč GPU, což je užitečné pro efektivní využití dostupných zdrojů.

Zajímavé na tom je, že tento přístup dává vývojářům flexibilitu při práci s různými modely a umožňuje jim snadno experimentovat s různými konfiguracemi bez nutnosti složitého nastavování.

Cena za a10g-large server

Provoz serveru a10g-large na Hugging Face Jobs stojí $1.50 za hodinu.