Anthropic ukazuje referenční harness pro hledání zranitelností pomocí Claude

Anthropic zveřejnil repozitář defending-code-reference-harness. Nejde o hotový bezpečnostní produkt, ale o referenční implementaci toho, jak může Claude pomáhat při hledání a opravách zranitelností v kódu.

Samotný repozitář to formuluje poměrně střízlivě: ukazuje workflow pro autonomní objevování a nápravu zranitelností, vycházející ze zkušeností Anthropicu s bezpečnostními týmy od uvedení Claude Mythos Preview.

Zajímavé je, že Anthropic vedle toho zmiňuje i spravovanou variantu Claude Security. Ta má skenovat repozitáře, procházet nálezy vícestupňovým ověřením, pomáhat s triáží a generovat opravy. Otevřený repozitář ale slouží spíš jako ukázka architektury a jako základ pro vlastní úpravy.

Co repozitář obsahuje

Repozitář má dvě hlavní části.

První jsou Claude Code skills, tedy předpřipravené postupy pro konkrétní kroky:

quickstart pro rychlé vyzkoušení workflow
threat-model pro modelování hrozeb
vuln-scan pro hledání zranitelností
triage pro vyhodnocení nálezů
patch pro návrh oprav
customize pro úpravu harnessu podle konkrétního prostředí

Druhá část je adresář harness/, který ukazuje autonomní pipeline. Ta má typicky projít kroky recon, find, verify, report a patch. Jinak řečeno: nejdřív porozumět cílovému kódu, pak hledat problém, ověřit ho, popsat a nakonec navrhnout opravu.

Tohle je důležité rozlišení. Nejde jen o prompt typu "najdi mi zranitelnosti". Repozitář ukazuje spíš řídicí vrstvu kolem modelu: jak se agent spouští, jak dostává úkoly, jak se ověřují výsledky a kdy se má proces zastavit.

Omezení jsou součástí sdělení

Anthropic v repozitáři explicitně uvádí, že projekt není udržovaný a nepřijímá komunitní příspěvky. To je dobrý signál, jak ho číst: ne jako knihovnu, kterou má tým nasadit do produkce, ale jako referenční materiál.

Ukázková pipeline je navíc nastavená hlavně na C/C++ memory vulnerabilities. Používá Docker, ASAN a sandboxování přes gVisor. Autonomní pipeline má spouštět cílový kód pouze v sandboxu, pokud uživatel toto chování neobejde.

Prakticky to znamená, že repozitář nebude fungovat stejně dobře na libovolné codebase bez úprav. Určený je spíš k tomu, aby si bezpečnostní tým vzal strukturu, prompty, izolaci a ověřovací kroky a přizpůsobil je vlastním typům zranitelností.

Proč je to zajímavé

Zajímavé na tom není jen to, že Claude může číst kód a navrhovat patch. To už dnes není překvapivé.

Podstatnější je, že Anthropic ukazuje, jak moc bezpečnostní použití AI závisí na okolní infrastrukturní vrstvě:

jak agent získá kontext
jak se omezí jeho přístup k prostředí
jak se ověří, že nález není falešně pozitivní
jak se oddělí report od samotné opravy
a jak se pracuje s rizikem spouštění cizího nebo zranitelného kódu

Moje čtení je, že podobné projekty posouvají debatu o AI v bezpečnosti od "model umí najít chybu" k otázce "jak postavit proces, kde se tomu dá věřit aspoň natolik, aby to pomáhalo".

Pro vývojáře je z toho praktický závěr jednoduchý: u bezpečnostních agentů nebude stačit dobrý model. Stejně důležitý bude harness kolem něj, izolace prostředí, ověřování nálezů a jasné hranice toho, co smí agent dělat automaticky.