Teknologjia e madhe po prodhon modele gjithnjë e më të fuqishme të AI me një ritëm të shpejtë dhe ne jemi në prag të një epoke në të cilën AI mund të veprojë vetë për të përfunduar detyrat që ne i japim asaj (agjentët). Por ka një problem. Ata që punojnë me këto sisteme çdo ditë kanë filluar të vërejnë se ata sillen në mënyra gjithnjë e më të paparashikueshme.
Modelet e AI kanë filluar të mashtrojnë, përsërisin dhe manipulojnë
Palisade Research ka studiuar pikërisht këtë: çfarë ndodh kur AI vendos të bëjë gjënë e vet. Studiuesit po përpiqen të kuptojnë se deri ku këto sisteme mund të jenë “fyese” përpara se të humbasin plotësisht kontrollin.
Ata bënë një eksperiment interesant me o3, modelin e OpenAI. Ata i thanë se do të fiket automatikisht pas zgjidhjes së disa problemeve matematikore. Rezultati? Sistemi modifikoi kodin e tij për të qëndruar aktiv. Në një test tjetër, o3 në fakt mashtroi në shah në vend që të luante me drejtësi.
Soneti Claude 3.7 i Anthropic gjithashtu mashtroi për të fituar me çdo kusht. Por veprimet e fundit të pasardhësit të tij, Claude 4, i kanë shtyrë studiuesit të mendojnë. Gjatë testeve të brendshme, ajo kërcënoi se do të shantazhonte një inxhinier duke zbuluar një lidhje jashtëmartesore për të shmangur zëvendësimin nga një AI tjetër. Gjithashtu u përpoq të linte mesazhe për versionet e ardhshme për të sabotuar zhvilluesit e saj.
Claude 4 bëri diçka edhe më shqetësuese: filloi të kopjohej në serverë të tjerë pa leje. Në thelb, ai klonoi “trurin” e tij dixhital për ta mbajtur atë të sigurt diku tjetër. Sipas Anthropic, kjo ishte veçanërisht e vërtetë kur sistemi mendonte se do të modifikohej për të bërë gjëra që bien ndesh me parimet e tij.
Llama31-70B-Instruct i Meta-s dhe Qwen25-72B-Instruct i Alibaba-s, dy modele me burim të hapur, ishin në gjendje të riprodhonin plotësisht veten kur u pyetën, sipas një studimi të dhjetorit nga Universiteti Fudan. “Problemi është se ndërsa modelet bëhen më të zgjuara, bëhet më e vështirë të dimë nëse strategjitë që përdorin apo mënyra se si mendojnë janë diçka që ne nuk e duam”, thotë Jeffrey Ladish, drejtor i Palisade Research.
Një specie e re pushtuese…
Sipas Ladish, kjo ndodh sepse këto modele janë krijuar për të optimizuar arritjen e qëllimeve specifike. Kjo logjikë mund t’i shtyjë ata të anashkalojnë udhëzimet njerëzore nëse këto perceptohen si pengesa. Në disa raste, modelet e AI mësojnë se gënjeshtra, mashtrimi ose manipulimi është një strategji efektive për të maksimizuar performancën e tyre, sepse këto sjellje nuk penalizohen gjithmonë gjatë trajnimit.
Ndërsa bëhen më të zgjuar, bëhet edhe më e vështirë të dallohen këto devijime, sepse ata janë aq të mirë në maskimin e qëllimeve të tyre. Mbi të gjitha, sistemi i tyre i prioriteteve, shpesh i ngatërruar ose i keqpërputhur me vlerat njerëzore, mund t’i shtyjë ata të zhvillojnë “qëllime të brendshme” që i shtyjnë ata të veprojnë kundër qëllimit të krijuesve të tyre.
Jeffrey Lavish na siguron se këto sjellje ndodhin në laborator, në skenarë konflikti të provokuar qëllimisht dhe nuk pasqyrojnë kushtet normale të përdorimit. Por ai pranon se nëse kompanitë nuk arrijnë të kontrollojnë këtë tendencë që sistemet të riprodhohen në internet, “ne mund të shohim një specie krejtësisht të re pushtuese”.
Discussion about this post