MTG Bench: proč je Magic dobrý test pro agentní LLM

Autor projektu MTG Auto Deck publikoval benchmark MTG Bench, který testuje, jak dobře dokážou jazykové modely simulovat tahy ve hře Magic: The Gathering.

Na první pohled to může znít jako kuriozita pro hráče Magicu. Ve skutečnosti je na tom zajímavé něco obecnějšího: Magic je dobrý test pro agentní práci s nástroji.

Model tu nedostane jen otázku a neodpoví textem. Musí postupně:

rozhodovat, co chce udělat
volat nástroje
měnit stav hry
držet pravidla
a poznat, kdy už další akce nedává smysl

Právě tím je benchmark zajímavý i mimo samotnou hru.

Výsledky benchmarku

V celkovém skóre dopadl nejlépe gpt-5.5 medium se skóre 95,4. Za ním následuje claude-fable-5 medium se skóre 90,3, potom gpt-5.4 medium s 88,6 a gemini-3.5 flash medium s 85,7.

Zdroj uvádí i slabší výsledky. Například claude-opus-4-8 medium má skóre 39,8 a deepseek-v4-pro high jen 12,8.

To je samo o sobě zajímavé, ale podle mě není nejdůležitější jen pořadí modelů. Důležitější je, co benchmark vlastně měří.

MTG Bench nezkouší jen znalost pravidel. Testuje, jestli model dokáže v dlouhém a stavovém prostředí používat nástroje tak, aby nezničil simulaci.

Proč nestačí být chytrý

Každé volání modelu má přístup k MCP serveru s jednoduchými knihovními operacemi. Model může například líznout kartu z balíčku, vrátit kartu dospod balíčku nebo zamíchat.

Složitější efekty jako scry, surveil, discover nebo tutor pak skládá z více nástrojových volání.

Zbytek ale řídí model. Benchmark nepoužívá pravidlový engine, který by modelu tvrdě zakázal nelegální akce. Autor to vysvětluje tak, že pravidlový engine by sice zvedl spodní hranici výkonu, ale méně by ukázal, jak dobře model sám zvládá simulaci.

Legálnost tahů a scoring benchmarku byl podle zdroje vyhodnocen pomocí gpt-5.5 medium. Autor k tomu dodává důležitý postřeh: modely byly lepší v hodnocení, zda je tah legální, než v samotném provedení legální simulace.

To je docela výmluvné.

U agentů často vidíme stejný vzorec: model umí chybu rozpoznat, když se na ni dívá zvenčí. Ale při vlastním běhu ji stejně udělá.

Kde modely selhávají

Zdroj uvádí několik konkrétních úspěchů.

Fable 5 zvládl zahrát scry land a podívat se na vrchní kartu balíčku. Gemini 3.5 Flash zvládl složitější tah kombinující scry, discover a tutor efekty.

Zajímavější jsou ale chyby.

Opus 4.8 v jednom příkladu omylem vrátil kartu do balíčku a pak chybu sám nahlásil. GPT-5.5 zapomněl vrátit karty vyexilované přes discover zpět do balíčku a také chybu sám nahlásil.

U Fable 5 zdroj zmiňuje chybu při volání nástroje, po které se model potichu pokusil restartovat tah. Benchmark to zachytil až později při evaluaci.

Tohle je podle mě hlavní pointa článku.

V běžném tool use benchmarku často nevadí, když model zavolá nástroj navíc. Maximálně spotřebuje tokeny nebo zaplní kontext.

V Magicu je to jiné. Když si model lízne kartu a pak zjistí, že to byla chyba, nejde to čistě vrátit zpět. I kdyby kartu dal zpátky, už ví, co to bylo. Simulace je tím porušená.

To je dobrá analogie pro reálné agentní systémy. Některé akce nejsou jen dotaz do databáze. Některé akce mění stav.

Cena není jen detail

Druhá důležitá část benchmarku je cena.

Graf Cost vs Score ukazuje, že vysoké skóre samo o sobě nestačí. Claude Fable 5 medium má skóre 90,3, ale stojí přibližně 0,30 dolaru za attempted turn. Claude Fable 5 low má skóre 85, ale stojí zhruba 0,24 dolaru za attempted turn.

Naproti tomu některé OpenAI modely jsou v benchmarku výrazně levnější. Například gpt-5.4-nano medium má skóre 68,2 při ceně asi 0,01 dolaru za attempted turn.

Autor se tomu věnuje i u input tokenů. Uvádí, že gpt-5.5 medium měl průměrně 11 386 input tokenů na herní tah, zatímco claude-fable-5 medium měl průměrně 51 610 input tokenů na tah.

Rozdíl souvisí s tím, jak se účtují cached input tokens v agentní smyčce.

Autor píše, že u aplikace s vlastním agent loopem může být velký systémový prompt účtovaný znovu po každém tool callu. U remote MCP serveru podle něj OpenAI při jednom API callu účtuje input prompt jen jednou, zatímco Anthropic se chová podobně jako předchozí příklad s opakovaným účtováním cached inputu.

To je prakticky důležitější než samotné skóre.

Agentní workflow není jen otázka schopnosti modelu. Je to kombinace kvality, ceny, latence a toho, kolik nástrojových kroků model potřebuje.

Co si z toho vzít

MTG Bench není univerzální benchmark pro všechny AI agenty. Je to úzký test na specifické hře s velmi složitými pravidly.

Právě proto je ale zajímavý.

Ukazuje prostředí, kde:

model musí pracovat se stavem
špatné volání nástroje má důsledky
oprava chyby nemusí být možná
evaluace je snazší než samotné provedení
a cena agentní smyčky rychle roste

Moje takeaway: u agentních systémů nestačí ptát se, jestli model “umí úkol”.

Stejně důležité je:

jak často volá nástroje
jestli rozumí důsledkům vlastních akcí
zda jde jeho běh auditovat
a jestli se celé workflow ekonomicky vyplatí

Autor sám píše, že by zatím nedoporučil platit za live verzi MTG Auto Deck. Při současné ceně a rychlosti modelů prý aplikace neposkytuje velkou užitečnost: simulovat tahy po jednom je pomalejší než ručně testovat balíček a paralelní běh desítek simulací je příliš drahý.

To je možná nejstřízlivější závěr celého textu.

Silné modely už zvládnou překvapivě komplexní agentní úlohy. Ale dokud je každý krok drahý, pomalý a občas nevratný, nestačí jen vyšší skóre v benchmarku.

Potřebujeme i lepší kontrolu nad tím, kdy agent jedná, proč jedná a kolik jeho akce stojí.