Qeniet njerëzore kanë aftësi unike të dëgjimit si dëgjimi binaural, i cili na lejon të identifikojmë llojet e tingullit, origjinën e tyre hapësinore dhe distancën, duke dalluar burime të shumta tingulli në të njëjtën kohë. Pavarësisht aftësive të jashtëzakonshme të modeleve të mëdha gjuhësore (LLM) për të kuptuar gjuhën e folur, për t’iu përgjigjur pyetjeve audio, madje edhe për të përkthyer dhe sintetizuar zërin e njeriut, ata ende nuk janë në gjendje të kapin disa aspekte kryesore të tingullit, si origjinën, drejtimin dhe distancën. të burimit të zërit.
LLM-të aktuale, sado të avancuara, nuk kanë të njëjtën mprehtësi dëgjimi si njerëzit në gjetjen dhe deshifrimin e tingujve në hapësirën tredimensionale.
BAT: hapësira e parë LLM e bazuar në audio
Tani një ekip studiuesish ka bërë përparim të rëndësishëm në këtë sfidë komplekse, duke zhvilluar BAT, LLM e parë hapësinore e bazuar në audio, e aftë për të arsyetuar rreth tingujve në një mjedis tredimensional. Kjo risi i afron aftësitë e AI me dëgjimin e sofistikuar të njeriut.
BAT, në fakt, tregon saktësi të jashtëzakonshme në klasifikimin e llojeve të audios, drejtimin dhe distancën e burimeve të zërit dhe arsyetimin hapësinor në situatat e mbivendosjes së tingujve të ndryshëm.
Rëndësia e audios hapësinore për AI
Audioja hapësinore është një teknologji që krijon efektin e burimeve të zërit në hapësirën tredimensionale. Përdoret në fusha të ndryshme, si realiteti virtual, sistemet e avancuara të teatrit dhe metaverse. Sidoqoftë, audio hapësinore është një sfidë për inteligjencën artificiale dhe mësimin e makinerive, sepse kërkon që agjentët e AI të lokalizojnë dhe interpretojnë burimet e zërit në hapësirat tredimensionale. Për të adresuar këtë sfidë, janë zhvilluar disa teknika dhe algoritme që integrojnë informacionin e zërit hapësinor, si YouTube-360 dhe STARSS23.
Kufijtë e modeleve të tjera në fushën audio
Pavarësisht përparimeve të fundit në përpunimin e audios me AI, modelet ekzistuese kanë ende kufizime në perceptimin dhe arsyetimin rreth tingujve hapësinorë në mjedise komplekse 3D kumbuese. Sistemet si AudioGPT, LTU dhe Qwen-audio shfaqin cilësi të paqëndrueshme dhe u mungojnë “etiketat e së vërtetës” themelore si distanca dhe drejtimi i burimit.
Për më tepër, ata shpesh mbështeten në një kuptim sipërfaqësor të audios hapësinore, siç është zbulimi dhe lokalizimi i ngjarjeve të zërit në Lokalizimin dhe Zbulimin e Ngjarjeve të Zërit. Për të perceptuar më thellë hapësirën e zërit 3D, si dëgjimi i njeriut, nevojiten modele më të avancuara.
Aftësitë e BAT
Sipas studiuesve që e zhvilluan atë, BAT përfaqëson një hap të rëndësishëm përpara drejt sistemeve vërtet multimodale të inteligjencës artificiale. Ky model gjuhësor demonstron aftësi të forta të arsyetimit hapësinor nëpër tinguj dhe burime të përziera të tingullit, duke arritur saktësi 77% në teste.
Enkoderi i tij inovativ themelor i audios hapësinore arriti një saktësi mesatare prej më shumë se 50% në identifikimin e llojit të zërit, një gabim mesatar këndor prej vetëm 18 gradë në drejtimin e vendndodhjes dhe një vlerësim të distancës brenda 1.64 këmbëve nga vendndodhja aktuale në 32.54% të rastet. Këto janë rezultate që sjellin AI më afër aftësive të dëgjimit të njeriut.
Discussion about this post