Moderní LLM se neshodnou u 67 % ověřovaných tvrzení
Lenz Research ukazuje, že pět frontier modelů se často neshodne na verdiktu u reálných fact-checkingových claimů.
Lenz Research publikoval snapshot, který se dívá na to, jak se pět moderních jazykových modelů shoduje při hodnocení reálných ověřovaných tvrzení. Výsledek je zajímavý hlavně tím, že nejde o klasický benchmark s předem známým správným řešením.
Do analýzy vzali 1 000 nedávných claimů, které uživatelé poslali na fact-checkingovou platformu Lenz. Každý claim byl převeden do neutrální testovatelné formulace a pět modelů mělo zvolit jeden ze čtyř verdiktů:
- True
- Mostly True
- Misleading
- False
Studie neměří, který model měl pravdu. Měří něco užšího, ale prakticky důležitého: jak často se frontier modely mezi sebou neshodnou.
Jak často se modely neshodují
Na 67 % claimů, konkrétně v 672 z 1 000 případů, se panel modelů neshodl úplně. To znamená, že alespoň jeden model zvolil jiný verdikt než většina, nebo se nevytvořila žádná jasná většina.
Rozdělení vypadalo takto:
- 33 % claimů: všech 5 modelů zvolilo stejný verdikt
- 22 % claimů: 1 model nesouhlasil s většinou
- 32 % claimů: 2 modely nesouhlasily s většinou
- 13 % claimů: nevznikla žádná většina, například rozdělení 2-2-1
Důležité je, že většinový verdikt zde není ground truth. Autoři ho používají jen jako referenční bod pro měření neshody. Většina může být špatně a menšinový model může mít pravdu.
Shoda existuje, ale není dostatečně silná
Autoři uvádějí Krippendorffovo α na hodnotě 0,639. To naznačuje, že verdikty modelů nejsou náhodné. Nějaká struktura a shoda tam je.
Zároveň ale nejde o konzistenci, která by dovolovala brát panel modelů jako jednoho zaměnitelného arbitra pravdy. Modely často reagují podobně, ale ne dost spolehlivě na to, aby jejich verdikty působily jako stabilní systém.
To je podstatné hlavně pro aplikace, které s LLM pracují jako s hodnotitelem, kontrolorem nebo fact-checkingovým pomocníkem.
Není neshoda jako neshoda
Další důležitý výsledek se týká velikosti rozdílu mezi verdikty. V 34 % případů alespoň dva modely zvolily odpovědi vzdálené o dvě nebo více kategorií.
Rozdíl mezi True a Mostly True může být spíš otázka kalibrace. Modely se v principu shodnou, jen jeden je opatrnější.
Rozdíl mezi True a False je ale úplně jiný typ problému. Tam nejde jen o jemnou nuanci, ale o zásadní neshodu v samotném verdiktu.
Autoři proto rozlišují mezi nuanční neshodou a substantivní neshodou. Právě ta druhá je pro praktické použití problematičtější.
Co se dá říct o chybách
Protože studie nemá lidský ground truth pro každý claim, nemůže přímo říct, který model se mýlil. Přesto z ní plyne dolní hranice nekonzistence.
Pokud bychom udělali nejpříznivější možný předpoklad a řekli, že nejpopulárnější verdikt je vždy správný, pak platí:
- alespoň 1 model by byl mimo v 67 % claimů
- alespoň 2 modely by byly mimo ve 45 % claimů
- alespoň 3 modely by byly mimo ve 13 % claimů
To je pořád optimistický scénář. Skutečná chybovost může být vyšší, protože i případy, kde se shodlo všech pět modelů, mohou obsahovat společné slepé skvrny.
Proč je to zajímavé
Studie dobře připomíná rozdíl mezi schopným modelem a spolehlivým rozhodovacím systémem.
Frontier model může být velmi dobrý v mnoha úlohách, ale pokud má sloužit jako hodnotitel pravdivosti, nestačí jen vysoké obecné skóre v benchmarku. Potřebujeme vědět, jak stabilně se chová na reálných, nekurátorovaných tvrzeních.
A tady se ukazuje problém: modely se často neshodnou právě tam, kde by uživatel čekal jednoznačný verdikt.
To neznamená, že LLM nemají ve fact-checkingu místo. Spíš to znamená, že je potřeba s nimi pracovat opatrně:
- nebrat jeden výstup jako definitivní pravdu
- sledovat míru neshody mezi modely
- oddělovat faktické ověření od jazykové formulace
- a u důležitých rozhodnutí stále počítat s lidskou kontrolou
Pro vývojáře je z toho praktický závěr: pokud stavíte systém, kde LLM něco hodnotí, klasické benchmarky nestačí. Je potřeba testovat i konzistenci, kalibraci a chování na datech, která se podobají skutečnému provozu.
Zdroj
Lenz Research: Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks