Disa ditë më parë në këto faqe folëm se si Anthropic po teston AI-n e saj në Pokémon Red. Megjithatë, në orët e fundit një tjetër lajm është bërë viral në lidhje me një kërkim që po kryhet nga Hao AI Lab, një organizatë kërkimore në Universitetin e San Diegos.
Hulumtuesit testuan Claude 3.7 dhe 3.5 të Anthropic, Gemini 1.5 Pro të Google dhe GPT-4o të OpenAI në Super Mario Bros. Natyrisht, nuk ishte saktësisht i njëjti version i lojës i lëshuar 40 vjet më parë, pasi ajo funksiononte në një emulator të famshëm në botë, i cili integronte një emulator, por AI. megjithatë eksperimenti është interesant.
Hao AI Lab në fakt deklaroi se loja e detyroi secilin model të mësonte të planifikonte manovra komplekse dhe të zhvillonte strategji lojërash për të përfunduar nivelet e ndryshme: modele si o1 e OpenAI për shembull “mendojnë” për problemet hap pas hapi për të arritur në zgjidhje, dhe kjo çoi në performanca më të mira krahasuar me LLM-të që nuk arsyetonin, të cilat regjistruan rezultate më bindëse.
Rezulton se modelet e arsyetimit do ta kishin më të vështirë të luanin sepse ato janë shumë të ngadalta për të marrë vendime, dhe meqenëse koha është gjithçka në Super Mario Bros, të bësh gabime dhe të rrëzohesh për shkak të ngadalësisë bëhet shumë më e mundshme.
Calaude 3.7 i Anthropic performoi më së miri në përgjithësi, i ndjekur nga Claude 3.5, ndërsa Gemini 1.5 Pro dhe GPT-4o luftuan.
Discussion about this post