OpenAI ka prezantuar një seri të re funksionesh zanore në API-n e saj, duke e shtyrë më tej idenë e ndërveprimit në kohë reale mes njerëzve dhe inteligjencës artificiale përmes zërit. Kompania ka lansuar tre modele të reja audio që synojnë të ndryshojnë mënyrën si ndërtohen aplikacionet me zë: GPT-Realtime-2, GPT-Realtime-Translate dhe GPT-Realtime-Whisper. Modelet nuk janë thjesht për transkriptim apo komandë të thjeshta zanore. Ato janë projektuar për të mundësuar biseda më të natyrshme, ku AI jo vetëm dëgjon dhe përgjigjet, por edhe kupton kontekstin, përkthen në kohë reale dhe ndërmerr veprime gjatë dialogut.
Modeli kryesor, GPT-Realtime-2, sjell aftësi të avancuara arsyetimi dhe mund të trajtojë kërkesa më komplekse, duke mbajtur vazhdimësinë e bisedës edhe kur ajo ndërpritet apo ndryshon drejtim. OpenAI thotë se ky model është ndërtuar për ndërveprime që nuk ndihen më si “komanda dhe përgjigje”, por si komunikim i vazhdueshëm. Ndërkohë, GPT-Realtime-Translate fokusohet në përkthim të drejtpërdrejtë të të folurit në më shumë se 70 gjuhë, duke e kthyer atë në 13 gjuhë dalëse në kohë reale. Kjo synon aplikime praktike si shërbimi ndaj klientit, arsimi dhe komunikimi ndërkulturor. Modeli i tretë, GPT-Realtime-Whisper, është ndërtuar për transkriptim të menjëhershëm të zërit në tekst, duke krijuar mundësi për nënshkrime live, shënime takimesh dhe dokumentim automatik të bisedave. Sipas OpenAI, këto modele e zhvendosin teknologjinë e zërit nga një sistem i thjeshtë komandash drejt një platforme që mund të “dëgjojë, arsyetojë, përkthejë dhe veprojë” në kohë reale.
Kompania po synon të krijojë një gjeneratë të re aplikacionesh ku zëri nuk është vetëm një metodë hyrjeje, por një ndërfaqe kryesore për përdorimin e inteligjencës artificiale. Megjithatë, ky zhvillim vjen edhe me sfida të reja. Ndërveprimet në kohë reale kërkojnë saktësi të lartë, latencë të ulët dhe mekanizma të fortë sigurie, sidomos kur modelet fillojnë të marrin vendime ose të përdorin mjete të jashtme gjatë bisedës. OpenAI e sheh këtë hap si pjesë të një ndryshimi më të gjerë në mënyrën si njerëzit ndërveprojnë me teknologjinë, nga shkrimi dhe klikimi, drejt komunikimit të drejtpërdrejtë me zë. Në këtë drejtim, zëri po bëhet gjithnjë e më shumë jo një funksion shtesë, por një ndërfaqe qendrore e epokës së re të inteligjencës artificiale.



















































Discussion about this post