AI gjeneruese po bën përparim të madh në klonimin e zërit, ose aftësinë për të riprodhuar stilet vokale të një personi – si intonacioni, timbri, ritmet, sjelljet dhe shqiptimet unike – me teknologji.
Disa startup, si ElevenLabs, kanë marrë fonde të rëndësishme për t’iu përkushtuar këtij kërkimi, por edhe Meta Platforms, kompania që kontrollon Facebook, Instagram, WhatsApp dhe Oculus VR, ka nisur programin e saj falas të klonimit të zërit, të quajtur Audiobox, me një kufizim. .
Audiobox, programi falas i Meta-s për klonimin e zërave me AI
Audiobox u zbulua sot në faqen e internetit Meta nga studiues nga laboratori i Facebook AI Research (FAIR), të cilët e përshkruan atë si një “model të ri kërkimor bazë për gjenerimin e audios”, bazuar në punën e tyre të mëparshme në këtë fushë, Voicebox. “Programi mund të gjenerojë zëra dhe efekte zanore duke përdorur një kombinim të hyrjes zanore dhe kërkesave të tekstit të gjuhës natyrore, duke e bërë më të lehtë krijimin e audios të personalizuar për një gamë të gjerë aplikacionesh.”
Për të përdorur Audiobox, thjesht shkruani një fjali që dëshironi të thotë një zë i klonuar ose një përshkrim i një tingulli që dëshironi të prodhoni, dhe AI do të bëjë pjesën tjetër. Përdoruesit gjithashtu mund të regjistrojnë zërin e tyre dhe ta klonojnë atë nga Audiobox.
Modelet e kutisë audio për mimikën vokale dhe gjenerimin e zërit
Meta deklaroi gjithashtu se ka krijuar një “familje modelesh”, njëra për mimikën vokale dhe tjetra për gjenerimin e tingujve mjedisorë dhe efekteve zanore si lehja e qenve, sirenat apo lojërat e fëmijëve, dhe se të gjitha janë “të ndërtuara në vetë Audiobox SSL”. -modeli i përbashkët i mbikëqyrur”.
Të mësuarit e vetë-mbikëqyrur (SSL) është një teknikë e të mësuarit të thellë (ML) në të cilën algoritmet e AI duhet të gjenerojnë etiketat e tyre për të dhënat e pakataloguara, ndryshe nga mësimi i mbikëqyrur, ku të dhënat tashmë janë etiketuar.
Studiuesit publikuan një punim shkencor duke shpjeguar një pjesë të metodologjisë së tyre dhe arsyet që i shtynë ata të zgjidhnin një qasje SSL, duke shkruar: “Për shkak se të dhënat e etiketuara nuk janë gjithmonë të disponueshme ose me cilësi të lartë, dhe shkallëzueshmëria e të dhënave është çelësi i përgjithësimit, strategjia jonë është për të trajnuar këtë model bazë duke përdorur audio pa ndonjë mbikëqyrje, të tilla si transkriptet, titrat ose etiketat e atributeve, të cilat mund të gjenden në sasi më të mëdha.”
Të dhëna me origjinë të dyshimtë
Sigurisht, shumica e modeleve kryesore të AI mbështeten shumë në të dhënat e krijuara nga njeriu për t’i trajnuar ata për të krijuar përmbajtje të re, dhe Audiobox nuk bën përjashtim. Studiuesit e FAIR përdorën “160,000 orë fjalim (kryesisht anglisht), 20,000 orë muzikë dhe 6,000 orë mostra tingulli.
Pjesa e të folurit përfshin libra audio, podkaste, fjali të lexuara, fjalime, biseda dhe regjistrime që përfshijnë kushte të ndryshme akustike dhe zëra joverbalë. Për të siguruar drejtësi dhe përfaqësim të mirë të njerëzve nga grupe të ndryshme, Meta ka përfshirë folës nga mbi 150 vende që flasin më shumë se 200 gjuhë të ndryshme kryesore.
Punimi kërkimor nuk specifikon saktësisht se nga janë marrë këto të dhëna dhe nëse ishin apo jo në domenin publik, por kjo është sigurisht një pyetje e rëndësishme, duke qenë se disa artistë, autorë dhe botues muzikorë kanë paditur një sërë kompanish për trajnim sistemet e tyre të inteligjencës artificiale në materiale potencialisht me të drejta autori pa pëlqimin e qartë të krijuesve/pronarëve të të drejtave.
Si funksionon Audiobox
Për të përdorur Audiobox, thjesht regjistroni zërin tuaj duke lexuar një fjali teksti. Më pas, mund të shkruani tekstin që dëshironi të thotë zëri juaj i klonuar dhe ta dëgjoni me zërin tuaj të klonuar.
Mund ta provoni këtë demonstrim. Audioja e klonuar e krijuar nga inteligjenca artificiale është shumë e ngjashme, edhe pse jo identike me zërin tuaj. Audiobox ju lejon gjithashtu të gjeneroni zëra krejtësisht të rinj nga përshkrimet tekstuale (p.sh. zëri i thellë femëror ose lehja e qenve).
Kufizimet e Audiobox
Megjithatë, Audiobox ka kufizime. Meta ka përfshirë një mohim për demonstrimet interaktive të Audiobox, i cili thotë se “kjo është një demonstrim kërkimor dhe nuk mund të përdoret për qëllime komerciale” dhe gjithashtu se është për përdorim nga ata që nuk janë “në shtetet e Illinois ose Teksasit, ” të cilat kanë ligje shtetërore që me sa duket ndalojnë llojin e koleksionit audio që Meta bën për demo.
Për më tepër, Audiobox nuk është meopen source, si aplikacioni i ri i uebit i gjenerimit të imazheve Imagine with Meta AI i zbuluar javën e kaluar.
Discussion about this post