Shtytja e Microsoft në sektorin e inteligjencës artificiale nuk është e re dhe konfirmohet gjithashtu nga thashethemet që janë shfaqur në orët e fundit sipas të cilave ChatGPT mund të integrohet në Office. Megjithatë, gjigandi Redmond ka zbuluar një model të ri të AI të quajtur VALL-E i cili bazohet në sintezën e të folurit.
Në fakt, VALL-E mund të simulojë zërin e kujtdo bazuar në një mostër audio prej vetëm tre sekondash. Në fakt, inteligjenca artificiale është në gjendje të sintetizojë zërin e çdo personi duke ruajtur edhe tonin emocional.
Microsoft shpjegon se VALL-E mund të përdoret për redaktimin e zërit dhe krijimin e përmbajtjes audio, kur kombinohet me modele të tjera gjeneruese të AI si GPT-3.
Në bazën e VALL-C ekziston një teknologji e quajtur EnCodec e cila u njoftua nga Meta në tetor 2022 dhe e cila, ndryshe nga modelet e tjera të sintezës së të folurit, gjeneron kode audio nga teksti dhe mesazhet akustike. Duke analizuar zërin e një personi, AI e thyen informacionin në shenja që përdoren për të trajnuar modelin nervor.
VALL-E u trajnua duke përdorur një bibliotekë Meta audio të quajtur LibriLight e cila përmban 60,000 orë fjalime në gjuhën angleze të folura nga 7,000 njerëz, kryesisht të shkëputura nga libra audio. Disa shembuj janë të disponueshëm në depo VALL-E GitHub.
Microsoft në dokument fokusohet gjithashtu në përdorimin e pahijshëm. “VALL-E mund të përbëjë rreziqe të mundshme në keqpërdorimin e shabllonit, të tilla si mashtrimi i ID-së së zërit ose imitimi i një altoparlanti specifik. Për të zbutur këto rreziqe, është e mundur të zhvillohet një sistem zbulimi për të kuptuar nëse një videoklip është sintetizuar nga VALL-E”, nënvizon gjigandi Redmond.
Discussion about this post