Meta sapo ka zbuluar një pamje paraprake të Chameleon, familjes së saj të re të modeleve të AI, të dizajnuara për të qenë origjinale multimodale. Kjo lëvizje strategjike është përgjigja e Metës ndaj konkurrencës në rritje në fushën e inteligjencës artificiale gjeneruese, dhe në veçanti ndaj modeleve të lëshuara nga rivalët e saj, OpenAI në radhë të parë.
Një qasje inovative ndaj multimodalitetit
Ndryshe nga qasja e zakonshme e trajnimit të një modeli të veçantë për secilin modalitet dhe më pas bashkimit të rezultateve duke përdorur agregatorë, të njohur si “bashkimi i vonë”, Chameleon miraton një arkitekturë “modale të përziera të bazuara në token të shkrirjes së hershme”. Kjo do të thotë se modeli është projektuar nga themeli për të mësuar nga një përzierje unike e imazheve, tekstit, kodit dhe modaliteteve të tjera.
Chameleon i transformon imazhet në shenja specifike, ashtu siç bëjnë modelet e gjuhës me fjalët, duke përdorur një fjalor të unifikuar teksti, kodi dhe shenjash imazhi. Kjo veçori lejon që e njëjta arkitekturë transformimi të zbatohet në sekuencat që përmbajnë simbole imazhi dhe teksti, duke lejuar modelin të arsyetojë dhe të gjenerojë sekuenca imazhi dhe teksti pa pasur nevojë për komponentë specifikë për secilin modalitet.
Sipas studiuesve, modeli më i ngjashëm me Chameleon është Google Gemini, i cili gjithashtu përdor një qasje të hershme të shkrirjes.
Kapërceni sfidat e trajnimit dhe shkallëzimit
Ndërsa arkitektura modale e përzier, e bazuar në token të shkrirjes së hershme ka avantazhe të dukshme, ajo gjithashtu paraqet sfida të rëndësishme gjatë trajnimit dhe shkallëzimit të modelit. Për të adresuar këto çështje, studiuesit e Meta zbatuan një sërë ndryshimesh arkitekturore dhe teknika inovative trajnimi.
Trajnimi i Chameleon ndodh në dy faza, duke përdorur një grup të dhënash që përmban 4.4 trilion shenja teksti, çifte imazh-tekst dhe sekuenca të lidhura teksti dhe imazhesh. Versionet prej 7 miliardë e 34 miliardë parametrash u trajnuan në mbi 5 milionë orë GPU Nvidia A100 80 GB.
Eksperimentet e kryera tregojnë se Chameleon arrin performancën më të fundit në detyra të ndryshme, duke përfshirë përgjigjen vizuale të pyetjeve (VQA) dhe nënshkrimin e imazhit, duke tejkaluar modelet si Flamingo, IDEFICS dhe Llava-1.5. Për më tepër, Chameleon mbetet konkurrues në standardet vetëm me tekst, duke përputhur me Mixtral 8x7B dhe Gemini-Pro.
Drejt një të ardhmeje të hapur multimodale
Ndërsa OpenAI dhe Google lëshojnë modele të reja multimodale, Meta mund të dallohet duke ofruar një alternativë të hapur ndaj modeleve private. Për më tepër, qasja e përzier modale e bazuar në token e shkrirjes së hershme të Chameleon mund të frymëzojë drejtime të reja kërkimore në modele më të avancuara, veçanërisht me integrimin e modaliteteve shtesë.
Studiuesit e Meta theksojnë se “Chameleon përfaqëson një hap të rëndësishëm drejt realizimit të vizionit të modeleve të unifikuara themelore të afta për të arsyetuar dhe gjeneruar përmbajtje multimodale në mënyrë fleksibël”.
Discussion about this post