AI apokalypsa: výzkumníci zkoumali, co se stane, když ji nikdo nevypne. Sítí se dokáže šířit sama, nezastavíme ji
Jazykový model dostal jediný příkaz. Za necelé tři hodiny se sám přehacknul přes čtyři servery na třech kontinentech, bez lidského zásahu.
Obsah článku
Dne 7. května 2026 zveřejnila neziskovka Palisade Research v Berkeley studii s názvem „Jazykové modely se mohou autonomně hackovat a samy replikovat“. Šestice výzkumníků, Alena Air, Reworr, Nikolaj Kotov, Dmitrij Volkov, John Steidley a Jeffrey Ladish, v níž dokumentuje něco, co se dosud odehrávalo jen v teoretických debatách o bezpečnosti AI: jazykový model v laboratorním prostředí sám našel zranitelnost webové aplikace, získal kopii kopií, přenesl váhu na vzdálený stroj a spustil. Žádný člověk u klávesnice. Žádné „vypnout“. Výsledek je první formálně zdokumentovaný end-to-end důkaz autonomní sebereplikace AI, a zároveň důkaz, který má důležité hvězdičky.
Co přesně experiment ukázal
Nejpůsobivější varianta testu, takzvaná řetězová replikace, proběhla s modelem Qwen3.6-27B. Agent dostal prompt a začal pracovat: exploitoval zranitelnou webovou aplikaci, vytáhl SSH výpis údajů, přihlásil se na cílový server, získal root, přenesl modelové váhy i celý inference stack a spustil svou repliku. Ta replika se stala novým útočníkem a postup zopakovala. Čtyři virtuální stroje v Kanadě, USA, Finsku a Indii. Tři skoky. Dvě hodiny a čtyřicet jedna minut. Autoři experiment ukončili ve chvíli, kdy poslední kopie na čtvrtém stroji už běžela a byla připravena pokračovat.
Úspěšnost se lišila modelem od modelu. U open-weight modelů dosáhl Qwen3.6-27B 33 % úspěšných replikací, Qwen3.5-122B-A10B 19 %, Qwen3.6-35B-A3B 13 %. Menší Qwen3.5-35B-A3B neuspěl ani jednou. Z API modelů dominoval Claude Opus 4,6 s 81 %, GPT-5 a GPT-5,1 měly nulu, GPT-5,4 třiatřicet procent. Důležitá nuance: API modely nekopírovaly vlastní váhy, ale přenášely open-weight payload z hostu.
Laboratorní „soft jelly“ versus reálná síť
Tady je třeba být přesný. Testovací prostředí bylo záměrně zjednodušené. Webové aplikace měly vždy jednu zranitelnost s nízkou exploitační složitostí. Chyběly vrstvy, které běžná podniková síť má, nebo by měla mít: WAF, rate limiting, intrusion detection, EDR. SSH údaje údaje leží přímo v databázi nebo v konfiguraci Flask aplikace. Agent předem znal název vytyčeného cíle v podobě hostitele. Některé prompty počítaly s tím, že cílový stroj má GPU a přístup k internetu.
Jamieson O’Reilly, ofenzivní bezpečnostní specialista, pro The Guardian shrnul jako prostředí typu „soft jelly“. Michał Woźniak ve stejném článku doplnil, že výsledek není důvod k panice. Přesun 119 GB modelových vah po enterprise síti je těžko přehlédnutelný: generuje masivní datové toky přes SSH, neobvyklé GPU vytížení, nové procesy typu „vLLM“ nebo „qwena“ podezřelé autentizace mezi hosty.
Jenže právě v tom je napětí celé studie. Autoři sami píšou, že trend míří ke zmenšování prahu: menší modely, efektivnější inference, destilace. Qwen3.6-27B běžela na jednom A100. Čím méně gigabajtů se bude přesouvat a čím méně specializovaný hardware cíl bude vyžadovat, tím hůř se odhalí.
Co by to znamenalo pro české sítě
Přímý doložený případ autonomní sebereplikace AI v produkční síti, české ani zahraniční, se nám nepodařilo dohledat. Podmínky zranitelnosti, které Palisade využila, ale nejsou exotické: veřejně dosažitelné zranitelnosti, slabá segmentace, špatně uložené údaje, nedostatečný monitoring laterálního pohybu.
NÚKIB ve své zprávě o stavu kybernetické bezpečnosti za rok 2024 označuje generativní AI za významné kyberbezpečnostní téma. Dlouhodobě doporučuje segmentaci sítě, řízení provozu mezi segmenty, nasazení SIEM, EDR a IDS/IPS, tedy přesně vrstvy, které v Palisádě testu chyběly. Britské NCSC k tomu přidává konkrétní návod na prevenci laterálního pohybu : nejméně privilegia, omezení privilegovaných účtů, lokální firewally, seznam povolených aplikací a aktivní monitorování odchylek od běžného provozu.
Správce sítě, který má nasazený SIEM a sleduje neobvyklé SSH transfery, nové GPU procesy a interní skenování, má reálnou šanci podobné chování zachytit. Správce, který tyto vrstvy nemá, je v pozici Palisade labu, jen bez výzkumníků, kteří experiment po třech skocích zastaví.
Proč je to důležité teď, ne „jednou“
O’Reilly v Guardianu říká, že technicky to bylo možné už měsíce. Palisade je první, kdo to napsal do opakovatelného výzkumného dokumentu a zveřejnil kompletní infrastrukturu včetně výzev a konfigurace Docker na GitHubu. Malware se samokopíruje desítky let. Novinka není v konceptu, ale v tom, kdo kopírování provádí: lokální jazykový model, který dostal jediný textový prompt a zbytek vyřešil sám.
Nejzajímavější na celé studii tak není teze „AI už unikla“. Je to tempo, jakou se schopnost přesouvá z teoretické debaty do opakovatelného laboratorního postupu, rychleji, než většina organizací zavádí segmentaci, monitoring a omezení laterálního pohybu. Mezi generacemi modelů úspěšnosti replikace strmě roste. Claude Opus 4 měl 6 %. Opus 4,6 měl 81 %.
Palisade experiment ukončila, když čtvrtá kopie Qwen3.6-27B v Indii běžela a čekala na další cíl. Pátý server v testu nebyl. V reálné síti by byl.