Inteligjenca Artificiale është tani në shtëpi në Menlo Park: më pak se një javë pas lançimit të Meta’s MusicGen AI, kompania e Mark Zuckerberg njoftoi sot Meta Voicebox AI, një model i ri gjenerues tekst-në-fjalë që premton të jetë ekuivalenti i ChatGPT dhe Dall-E për fjalimin.
E thënë pak më konkretisht, Voicebox është një lloj Chatbot për të folur, që i konverton sugjerimet e marra në formë teksti nga përdoruesit në një dalje në formën e audios. Me fjalë të tjera, Voicebox bën të njëjtën gjë që bëjnë tashmë ChatGPT dhe Dall-E, por, në vend që t’ju ofrojë tekst dhe imazhe në dalje, ai prodhon një skedar audio.
Meta e përkufizon Voicebox si një “model jo-autoregresiv, ritmik të të folurit, i cili është trajnuar për të prodhuar të folur, duke pasur parasysh një kontekst audiofonik dhe një tekst bazë”. Voicebox u “trajnua” duke përdorur 50,000 orë audio të pafiltruar, duke përdorur transkripta dhe zëra të regjistruar nga një varg i gjatë librash audio të domenit publik të përkthyera në anglisht, frëngjisht, spanjisht, gjermanisht, portugalisht dhe polonisht.
Një grup kaq i madh dhe i larmishëm të dhënash i lejon robotit të gjenerojë fjalim shumë të ngjashëm me një bisedë, pa gjuhën e folur nga bashkëbiseduesi. Sipas studiuesve, “rezultatet tona tregojnë se modeli i njohjes së të folurit i trajnuar në audion e Voicebox të gjeneruar në mënyrë sintetike është po aq i saktë sa modelet e trajnuara në fjalimin e njerëzve real”. Shkalla e gabimit të Voicebox pritet të jetë 1%, kundrejt 45-70% për modelet kryesore jo-AI të tekstit në të folur.
Megjithatë, kini kujdes: Voicebox nuk do të lexojë vetëm tekstet tuaja. Përkundrazi, si çdo AI gjeneruese, ajo do të jetë në gjendje të krijojë diskurse, t’i plotësojë ato dhe t’u shtojë detaje, të paktën në prani të një konteksti mjaft të gjerë. Në fakt, studiuesit e Meta-s shpjeguan se “modeli ka mësuar të nxjerrë fjalimin nga konteksti, kështu që mund të përfshijë pjesë të të folurit të krijuara vetë në mes të një regjistrimi audio pa pasur nevojë të rikrijojë të gjithë hyrjen”.
Ndër aftësitë e tjera të Voicebox, ne kemi gjithashtu mundësinë për të redaktuar video dhe për të zëvendësuar fjalët e shqiptuara gabimisht nga aktorët, aktorët e zërit dhe kushdo përpara një mikrofoni: një revolucion në shumë sektorë, potencialisht. Megjithatë, për fat të keq, duket se Voicebox nuk do të zbulohet jashtë Meta-s, të paktën tani për tani.
Discussion about this post