Jak běhat SOTA LLMs lokálně: Doporučení a technické detaily

Běh state-of-the-art jazykových modelů (LLMs) lokálně vyžaduje pečlivé plánování a investice do správného hardwaru. Podle doporučení z repozitáře Jamesoba je klíčové mít na paměti specifikace GPU a další komponenty, které ovlivňují výkon.

Pro model Qwen3.6-27B je doporučeno mít 2x RTX 3090s, což poskytuje celkovou kapacitu 48GB VRAM. Na druhé straně, pro model GLM-5.2-Int8Mix-NVFP4-REAP-594B je potřeba investice do 4x RTX 6000 Pros, které dohromady nabízejí 384GB VRAM. Celková cena této sestavy se pohybuje kolem 46,000 USD.

Základní systém pro tyto GPU by měl být postaven na desce ASRock Rack ROMED8-2T, která je doporučena pro své schopnosti a kompatibilitu. Celková cena základního systému, včetně dalších komponentů, činí přibližně 5,587 USD.

Klíčové technické detaily

Nastavení BIOSu je zásadní pro správnou funkci PCIe switchů. Například je důležité nastavit PCIe link speed na Gen4 a bifurcaci slotu na x16, aby se zajistila maximální propustnost. Dále je nutné zakázat ACS (Access Control Services), což je kritické pro zajištění P2P komunikace mezi GPU. Bez tohoto nastavení by P2P traffic byl přesměrován přes CPU, což by snížilo výkon.

Pro optimální výkon je také doporučeno nastavit limit napájení na 350W na GPU, což pomůže udržet stabilitu systému a zabránit přetížení zdroje.

Výsledky a výkon

Měření P2P komunikace přes switch ukazuje, že unidirekcionální rychlost dosahuje 27.5 GB/s, zatímco bidirekcionální rychlost je 50.4 GB/s. Tyto hodnoty ukazují na efektivní komunikaci mezi GPU, což je klíčové pro běh náročných modelů.

Zajímavé na tom je, že správná konfigurace hardwaru a BIOSu může ovlivnit výkon a efektivitu běhu LLMs. S rostoucími požadavky na výpočetní výkon je důležité mít na paměti nejen výběr komponentů, ale také jejich správné nastavení.