Gjithçka që nevojiten janë tre sekonda audio të folur që Vall-E të riprodhojë me besnikëri tonin dhe kadencën e një qenieje njerëzore.
Ky është kufiri i fundit i inteligjencës artificiale, i paraqitur nga studiuesit e Microsoft. Modeli u edukua për mbi 60,000 orë të folur dhe të folur, në anglisht, nga mbi 7,000 burime, duke përfshirë audiolibra të domenit publik nga arkivi LibriVox. Disa rezultate vokale të gjeneruara nga Vall-E janë publikuar në faqen https://valle-demo.github.io dhe demonstrojnë nivelin që ka arritur teknologjia.
Disa studiues të Universitetit Cornell kanë analizuar performancën e softuerit, duke arritur në përfundimin se ai tejkalon ndjeshëm sistemet aktuale të sintezës së të folurit, të njohura si “tekst në fjalim”, të cilat riprodhojnë një tekst të shkruar. “Nuk ka asgjë të tillë në treg sot për nga natyraliteti i shqiptimit dhe ngjashmëria me zërin origjinal”, thonë nga Universiteti.
Ashtu si në rastin e AI-së në të cilën bazohet platforma ChatGpt, e cila lejon këdo të bëjë pyetje përmes ueb-it dhe të marrë përgjigje komplekse, Vall-E gjithashtu ngre pyetje në lidhje me përdorimet e saj joetike. Rikrijimi i hyrjeve kompjuterike për t’u lidhur me video të rreme, të llojit të rremë të thellë, hap probleme sigurie ende të paeksploruara. Sipas ekspertëve, kriminelët kibernetikë mund të shfrytëzojnë teknologji të tilla për të mashtruar njerëzit, nëpërmjet bisedës ose telefonatave, që të besojnë dikë tjetër.
Megjithatë, duke adresuar rreziqet e përdorimit jo të duhur të Vall-E, studiuesit shpjegojnë se këto mund të zbuten: “Është e mundur të krijohet një model zbulimi për të diskriminuar nëse një videoklip është sintetizuar nga Vall-E apo jo. Ne gjithashtu do të zbatoni parimet e inteligjencës artificiale të Microsoft gjatë zhvillimit të mëtejshëm të teknikës”.
Discussion about this post