GLM 5.2 překonává Claude v benchmarku detekce zranitelností

V nedávném experimentu se ukázalo, že model GLM 5.2, vyvinutý společností Zhipu AI, dosáhl F1 skóre 39 % v detekci zranitelností typu IDOR (Insecure Direct Object References). Tento výsledek překonal výkon modelu Claude Code, který dosáhl pouze 32 % na stejném benchmarku. GLM 5.2 byl spuštěn bez pokročilého rámce, což znamená, že jeho výkon byl dosažen pouze s minimálním promptem v jednoduchém Pydantic AI rámci.

Ekonomika provozu GLM 5.2 je také pozoruhodná. Cena za detekci jedné zranitelnosti činila přibližně 0,17 USD, což je nižší náklad než u jiných modelů. Tato nákladová efektivita je klíčová pro týmy zabývající se bezpečností, které často čelí tisícům endpointů a potřebují efektivní metody detekce zranitelností.

GLM 5.2 má přibližně 750 miliard parametrů, z nichž je aktivních pouze 40 miliard na token. Tato architektura umožňuje udržet náklady na inference nízké. Model navíc rozšiřuje použitelnost kontextu z 200K na 1M tokenů, což zlepšuje schopnost modelu rozumět složitějším scénářům.

I když GLM 5.2 překonal Claude Code, je důležité si uvědomit, že výsledky se vztahují pouze na detekci IDOR a mohou se lišit pro jiné typy zranitelností. Například multimodální rámec Semgrep dosáhl F1 skóre 61 % a 53 % s různými modely, což ukazuje na jeho silný výkon v jiných oblastech.

Tento experiment ukazuje, že open-weight modely, jako je GLM 5.2, mohou být konkurenceschopné v oblastech, kde se dříve považovaly za méně výkonné. GLM 5.2 dokázal překonat i modely, které byly považovány za špičkové, a to při výrazně nižších nákladech. To může znamenat, že pro bezpečnostní týmy, které hledají efektivní a cenově dostupné řešení, může být GLM 5.2 atraktivní volbou.