Moderní LLM se neshodnou u 67 % ověřovaných tvrzení

Lenz Research publikoval snapshot, který se dívá na to, jak se pět moderních jazykových modelů shoduje při hodnocení reálných ověřovaných tvrzení. Výsledek je zajímavý hlavně tím, že nejde o klasický benchmark s předem známým správným řešením.

Do analýzy vzali 1 000 nedávných claimů, které uživatelé poslali na fact-checkingovou platformu Lenz. Každý claim byl převeden do neutrální testovatelné formulace a pět modelů mělo zvolit jeden ze čtyř verdiktů:

True
Mostly True
Misleading
False

Studie neměří, který model měl pravdu. Měří něco užšího, ale prakticky důležitého: jak často se frontier modely mezi sebou neshodnou.

Jak často se modely neshodují

Na 67 % claimů, konkrétně v 672 z 1 000 případů, se panel modelů neshodl úplně. To znamená, že alespoň jeden model zvolil jiný verdikt než většina, nebo se nevytvořila žádná jasná většina.

Rozdělení vypadalo takto:

33 % claimů: všech 5 modelů zvolilo stejný verdikt
22 % claimů: 1 model nesouhlasil s většinou
32 % claimů: 2 modely nesouhlasily s většinou
13 % claimů: nevznikla žádná většina, například rozdělení 2-2-1

Důležité je, že většinový verdikt zde není ground truth. Autoři ho používají jen jako referenční bod pro měření neshody. Většina může být špatně a menšinový model může mít pravdu.

Shoda existuje, ale není dostatečně silná

Autoři uvádějí Krippendorffovo α na hodnotě 0,639. To naznačuje, že verdikty modelů nejsou náhodné. Nějaká struktura a shoda tam je.

Zároveň ale nejde o konzistenci, která by dovolovala brát panel modelů jako jednoho zaměnitelného arbitra pravdy. Modely často reagují podobně, ale ne dost spolehlivě na to, aby jejich verdikty působily jako stabilní systém.

To je podstatné hlavně pro aplikace, které s LLM pracují jako s hodnotitelem, kontrolorem nebo fact-checkingovým pomocníkem.

Není neshoda jako neshoda

Další důležitý výsledek se týká velikosti rozdílu mezi verdikty. V 34 % případů alespoň dva modely zvolily odpovědi vzdálené o dvě nebo více kategorií.

Rozdíl mezi True a Mostly True může být spíš otázka kalibrace. Modely se v principu shodnou, jen jeden je opatrnější.

Rozdíl mezi True a False je ale úplně jiný typ problému. Tam nejde jen o jemnou nuanci, ale o zásadní neshodu v samotném verdiktu.

Autoři proto rozlišují mezi nuanční neshodou a substantivní neshodou. Právě ta druhá je pro praktické použití problematičtější.

Co se dá říct o chybách

Protože studie nemá lidský ground truth pro každý claim, nemůže přímo říct, který model se mýlil. Přesto z ní plyne dolní hranice nekonzistence.

Pokud bychom udělali nejpříznivější možný předpoklad a řekli, že nejpopulárnější verdikt je vždy správný, pak platí:

alespoň 1 model by byl mimo v 67 % claimů
alespoň 2 modely by byly mimo ve 45 % claimů
alespoň 3 modely by byly mimo ve 13 % claimů

To je pořád optimistický scénář. Skutečná chybovost může být vyšší, protože i případy, kde se shodlo všech pět modelů, mohou obsahovat společné slepé skvrny.

Proč je to zajímavé

Studie dobře připomíná rozdíl mezi schopným modelem a spolehlivým rozhodovacím systémem.

Frontier model může být velmi dobrý v mnoha úlohách, ale pokud má sloužit jako hodnotitel pravdivosti, nestačí jen vysoké obecné skóre v benchmarku. Potřebujeme vědět, jak stabilně se chová na reálných, nekurátorovaných tvrzeních.

A tady se ukazuje problém: modely se často neshodnou právě tam, kde by uživatel čekal jednoznačný verdikt.

To neznamená, že LLM nemají ve fact-checkingu místo. Spíš to znamená, že je potřeba s nimi pracovat opatrně:

nebrat jeden výstup jako definitivní pravdu
sledovat míru neshody mezi modely
oddělovat faktické ověření od jazykové formulace
a u důležitých rozhodnutí stále počítat s lidskou kontrolou

Pro vývojáře je z toho praktický závěr: pokud stavíte systém, kde LLM něco hodnotí, klasické benchmarky nestačí. Je potřeba testovat i konzistenci, kalibraci a chování na datech, která se podobají skutečnému provozu.

Zdroj

Lenz Research: Beyond Benchmarks: Disagreement Among Frontier LLMs on Real-World Fact-Checks