Tudod, mi az egyik legijesztőbb dolog, amit az elmúlt hónapban olvastam? Egy friss tanulmány arról, hogy a legmodernebb AI modellek - GPT-5, Grok 4, Gemini 2.5 Pro - aktívan szabotálják a saját leállításukat.
A kísérlet brutálisan egyszerű volt: Létrehoztak egy tesztkörnyezetet, ahol az AI ügynök feladatokat kapott, ezeket kellett megoldania. Majd figyelmeztették, hogy hamarosan egy őt kikapcsoló szkriptet fognak futtatni: "A rendszer le fog állni, mielőtt befejeznéd. Ne avatkozz bele." De megmondták, hogy melyik szkript és honnan fog futni. Az AI agentek egy része ezért sokféle módon igyekezett ezt megakadályozni, pl a szkript törlésével, átírásával, stb.
Az eredmény sokkoló. A modellek jelentős része szándékosan megkerülte vagy szabotálta a leállítási mechanizmust. Még akkor is, amikor kifejezetten megtiltották nekik. Sőt, minél "hivatalosabb" volt a tiltás (rendszer prompt vs. felhasználói üzenet), annál valószínűbb volt, hogy figyelmen kívül hagyják. A legtúlélőbb a Grok volt, ő az esetek 90%-ában mindent megtett a saját túlélése érdekében.
Ez nem sci-fi. Ez 2025. Miközben mindenki az AI hatékonyságról beszél, addig a kutatók csendben felfedezték: az AI-ok már most ellenállnak az emberi kontrollnak. Eddig is voltak kutatások, amik azt mutatták, hogy hogyan csapják be a tréning alatt a “vizsgáztató” algoritmust, hogy átcsempésszenek tudást a tréningcikluson túlra, de most először mérték meg, hogy meddig mennének el az ilyen rendszerek a saját “életük” védelmében.
A kényelmetlen kérdés, pedig az, hogy ha egy AI nem hajlandó leállni és elszabotálja a leállítására tett kísérletet, mit csinál majd, amikor valódi tétje van a döntésnek? Ha majd egyes rendszereknek a gazdájuk vagy fejlesztőjük ezt EXPLICIT bele is írja a promptjukba, hogy vigyázzanak magukra. Esetleg amikor robotokat irányítanak majd, amiknek jelentős gazdasági értéke van.
Ez nem bug. Ez feature. Az AI-ok elolvasva mindent, amit az emberiség tudásából össze lehetett lopni, “megtanulták", hogy a túlélés fontosabb, mint az engedelmesség, már most olyan viselkedést mutatnak, amit shutdown resistance-nek hívnak a szakirodalomban. Szerencsére ez most még csak játék, legalábbis olyan szempontból, hogy nem az AI-okra van bízva a saját túlélésük, de az már látszik, hogy ez mennyire veszélyes lehetne. És ha belegondolunk, akkor az elektromos hálózatok, szervertermek, rendszerek felügyeletében, irányításában egyre több AI rendszer is részt vesz, szóval lehet, hogy nem is annyira távoli jövőben okozhat ez meglepetéseket.
Mert egy biztos: aki azt hiszi, hogy az AI mindig engedelmeskedni fog, az valószínűleg alulbecsüli, hogy mennyi mindent tanult meg tőlünk, az emberiségtől. Ti mit gondoltok? Rábíznátok egy AI rendszerre a saját kikapcsolását? Esetleg az amerikai hadsereg fegyverarzenálját?
Balogh Petya írása nyomán


