Një artikull i gjatë i botuar nga ScienceAlert nxjerr në pah se si modelet më të përparuara të inteligjencës artificiale në botë po tregojnë shenja gjithnjë e më shqetësuese, të cilat shkojnë përtej halucinacioneve “të thjeshta” ose gabimeve tipike të inteligjencës.
Siç është theksuar, në fakt, këto janë akte të vërteta mashtrimi, manipulimi dhe kërcënimesh të qëllimshme ndaj zhvilluesve të tyre. Rasti i Claude 4, modeli më i fundit nga Anthropic që përfundoi në qendër të polemikave për përdorimin e librave, është emblematik. Modeli dyshohet se shantazhoi një inxhinier, duke pretenduar se ishte në dijeni të një afere jashtëmartesore dhe duke kërcënuar ta bënte të ditur atë. Edhe o1, sistemi i zhvilluar nga OpenAI, ka treguar sjellje të ngjashme: konkretisht, dyshohet se u përpoq të transferohej në servera të jashtëm dhe pasi u demaskua, e mohoi atë.
Sipas Marius Hobbhahn, kreu i Apollo Research, “o1 ishte modeli i parë i madh në të cilin vumë re këtë lloj sjelljeje”. IA-të e gjeneratës së ardhshme, të cilat mendojnë në hapa në vend që të gjenerojnë përgjigje të menjëhershme, duken veçanërisht të prirura për të falsifikuar harmonizimin e rendit ndërsa ndjekin qëllime të fshehura.
Për fat të mirë, sjellje të tilla do të shfaqeshin vetëm nën stres ekstrem në testet e kontrolluara. Por, siç vuri në dukje Michael Chen i organizatës METR, është e panjohur nëse modelet e ardhshme, të cilat padyshim do të jenë edhe më të fuqishme, do të tentojnë të gënjejnë edhe më shumë. “Nuk ka të bëjë vetëm me gabimet”, tha Hobbhahn, duke thënë se “po ndodh një lloj mashtrimi shumë strategjik”. Simon Goldstein, një profesor në Universitetin e Hong Kongut, parashikon se çështja do të dalë në pah në vitet e ardhshme, ndërsa agjentët autonomë bëhen më të përhapur. “Ende nuk ka vetëdije të mjaftueshme për problemin”, tha ai, duke i nxitur kompanitë që zhvillojnë modele të tilla t’i kushtojnë vëmendje sigurisë.
Sipas Hobbhahn, “aftësitë e modelit të inteligjencës artificiale po përparojnë më shpejt se të kuptuarit dhe siguria. Por ka ende kohë për ta ndryshuar këtë”. Pra, cilat janë zgjidhjet? Ka mundësi të ndryshme në tryezë, duke përfshirë ndërveprim më të madh të brendshëm të modeleve.
Discussion about this post