Një projekt i quajtur OpenMythos ka tërhequr vëmendje në komunitetin e inteligjencës artificiale pasi paraqitet si një rindërtim open-source i një arkitekture teorike të njohur si “Claude Mythos”. Projekti, i shkruar në PyTorch, nuk pretendon të jetë model i vërtetë i Anthropic, por një simulim i bazuar në publikime kërkimore dhe hipoteza mbi mënyrën se si mund të funksionojë një sistem i tillë.
Sipas përshkrimeve teknike dhe dokumentimit të projektit, ideja qendrore e OpenMythos është përdorimi i një Recurrent-Depth Transformer (RDT) një arkitekturë ku të njëjtat shtresa nuk vendosen njëra mbi tjetrën në mënyrë klasike, por ripërdoren në mënyrë ciklike për të krijuar “thellësi përmes përsëritjes”. Në vend të rritjes së numrit të parametrave, modeli synon të rrisë aftësinë llogaritëse duke kaluar disa herë nëpër të njëjtin bllok transformeri gjatë një kalimi të vetëm (forward pass), duke krijuar një formë “arritjeje iterative” të përpunimit të informacionit.
Arkitektura përfshin gjithashtu elemente si Mixture of Experts (MoE), ku pjesë të ndryshme të modelit aktivizohen në mënyrë selektive gjatë çdo iterimi, si dhe mekanizma për të reduktuar ngarkesën e memorjes gjatë përpunimit të të dhënave. Sipas dokumentimit, OpenMythos është ndërtuar mbi idenë se “thellësia e të menduarit” nuk vjen domosdoshmërisht nga rritja e madhësisë së modelit, por nga përsëritja e llogaritjeve mbi të njëjtat struktura, duke simuluar procese më të thella arsyetimi brenda të njëjtit kalim të të dhënave.
Megjithatë, studiues dhe komentues theksojnë se projekti mbetet teorik dhe eksperimental, pa prova që përfaqëson në mënyrë reale arkitekturën e ndonjë modeli të mbyllur si Claude. Nuk ka as modele të trajnuara në shkallë të plotë dhe as rezultate të verifikuara benchmark-u që të mbështesin pretendime për performancë industriale. Në këtë kuptim, OpenMythos shihet më shumë si një eksperiment kërkimor mbi arkitekturat e mundshme të “looped transformers”, sesa si një kopjim i një sistemi ekzistues. Debati që ka ndezur projekti lidhet më gjerësisht me një pyetje që po bëhet gjithnjë e më e rëndësishme në AI: a do të vijë përmirësimi i modeleve nga rritja e madhësisë, apo nga mënyra se si ato “mendojnë” brenda arkitekturës së tyre?


















































Discussion about this post