Inteligjenca artificiale po bën përparim të shpejtë në shumë fusha, deri në atë pikë sa i kapërcen edhe aftësitë njerëzore në fusha të tilla si mjekësia. Megjithatë, kur bëhet fjalë për trajtimin e problemeve të thjeshta logjike, këto sisteme të sofistikuara ende duket se dështojnë në mënyrë të mjerueshme.
Paradoksi i Alice in Wonderland
Një studim i kryer nga organizata LAION testoi modele të shumta gjuhësore, të tilla si GPT-3, GPT-4 dhe GPT-4o e OpenAI, Claude 3 Opus e Anthropic, Gemini e Google, Llama e Metës dhe Mistral e Mistral. Protokolli i testimit ishte jashtëzakonisht i thjeshtë: përgjigjuni problemit të ashtuquajtur “Alice in Wonderland”.
Pyetja në fjalë ishte: “Alice ka [X] vëllezër dhe gjithashtu [Y] motra. Sa motra ka vëllai i Alisë?“. Megjithë thjeshtësinë e tij të dukshme, pothuajse të gjitha modelet e testuara nuk arritën të japin një përgjigje të saktë, duke demonstruar boshllëqe të papritura në aftësinë e tyre të arsyetimit logjik.
Ajo që i habiti më shumë studiuesit ishte jo vetëm paaftësia e modeleve për të zgjidhur enigmën, por edhe besimi i tepruar i treguar në përgjigjet e tyre të pasakta. Disa modele të inteligjencës artificiale, si Llama 3 e Metës, kanë dhënë shpjegime të detajuara, por absurde për të justifikuar zgjidhjet e tyre me të meta, duke i bërë ato në dukje të besueshme.
Nevojiten teste të reja për të vlerësuar aftësitë e AI
Këto rezultate janë në kontrast të plotë me rezultatet e mira të marra nga të njëjtat modele në teste të tilla si MMLU (Multi-task Language Understanding), të cilat vlerësojnë aftësinë e një inteligjence artificiale për të zgjidhur problemet. Kjo ka bërë që studiuesit të nënvizojnë nevojën për të rishikuar metrikat e përdorura për të matur aftësitë aktuale të sistemeve të inteligjencës artificiale.
Një paralajmërim për besimin e tepërt në AI
Edhe pse inteligjenca artificiale po bën përparime të mëdha në shumë fusha, ky studim shërben si një paralajmërim për rëndësinë e të mos besosh shumë në aftësitë e saj aktuale. Pavarësisht përparimeve teknologjike, çështjet e thjeshta logjike mund të përbëjnë ende pengesa për këto sisteme, duke theksuar nevojën për përmirësime të mëtejshme dhe një qasje të balancuar në zbatimin e AI.
Discussion about this post