Ideja se agjentët e inteligjencës artificiale janë gati të zëvendësojnë profesionistët njerëzorë ka fituar terren vitet e fundit, e ushqyer nga deklarata optimiste të drejtuesve të teknologjisë dhe nga përparimi i shpejtë i modeleve gjeneruese. Por një test i ri po e zbret këtë narrativë në tokë. Rezultatet sugjerojnë se, të paktën për momentin, AI nuk është ende e gatshme për realitetin kompleks të vendit të punës.
Benchmark-u i ri, i quajtur APEX-Agents, është krijuar për të matur sa mirë mund të përballen agjentët e AI me detyra reale profesionale. Ndryshe nga testet klasike që matin njohuri të izoluara, APEX-Agents simulon situata pune që kërkojnë planifikim, arsyetim të thellë, përdorim të mjeteve të ndryshme dhe kombinim informacioni nga disa fusha njëkohësisht. Rezultatet kanë qenë zhgënjyese për pritshmëritë e larta. Modelet më të avancuara të AI kanë arritur, mesatarisht, më pak se 25% saktësi në detyrat e testuara. Në shumë raste, sistemet ose kanë dhënë përgjigje të gabuara, ose janë “bllokuar” pa qenë në gjendje të përfundojnë detyrën. Kjo ndodh veçanërisht kur kërkohet arsyetim i vazhdueshëm, ndjekje e disa hapave dhe përshtatje ndaj informacionit të ri aftësi kyçe në profesionet e njohura si “white-collar”.
Testi përfshin skenarë nga fusha si ligji, konsulenca, financa dhe menaxhimi, ku një gabim i vogël mund të ketë pasoja serioze. Pikërisht këto situata tregojnë hendekun mes asaj që AI bën mirë sot – përmbledhje, sugjerime, automatizim i detyrave të thjeshta dhe asaj që ende i mungon për të vepruar si një agjent autonom i besueshëm. Autorët e benchmark-ut theksojnë se qëllimi nuk është të diskreditohet inteligjenca artificiale, por të krijohet një matës realist për progresin e saj. Duke i bërë testet publike, ata shpresojnë të ndihmojnë industrinë të fokusohet në problemet reale, jo vetëm në demonstrime mbresëlënëse.
Mesazhi që del është i qartë: AI mund të jetë një ndihmës i fuqishëm në vendin e punës, por jo ende një zëvendësim. Për momentin, agjentët e inteligjencës artificiale janë më afër rolit të asistuesit sesa atij të kolegut të pavarur – dhe ky realitet kërkon pritshmëri më të kujdesshme nga kompanitë dhe publiku.















































Discussion about this post