Apple prezanton sistemin AI ReALM : asistentë zëri më natyralë

02/04/2024

in Kryesore

Reading Time: 3 mins read

Sipas një punimi të botuar së fundmi, studiuesit e Apple kanë zhvilluar një sistem inovativ të inteligjencës artificiale të quajtur ReALM (Reference Resolution As Language Modeling). Ky sistem mund të kuptojë referenca të paqarta për subjektet në ekran, si dhe kontekstin bisedor dhe sfondin, duke lejuar ndërveprime më të natyrshme me asistentët zanorë.

Cilat janë referencat e paqarta për entitetet në ekran
Referencat e paqarta për entitetet në ekran ndodhin kur një sistem AI bisedor, si p.sh. një chatbot, nuk është në gjendje të kuptojë saktësisht se cilit ent (objekt, person, koncept, etj.) i referohet një përdoruesi gjatë një bisede.

Kjo paqartësi mund të ndodhë për shembull kur përdoruesi përdor përemrat (“ajo”, “ai”, “ajo”) ose dëftore (“ky”, “ajo”) për të treguar një entitet të pranishëm vizualisht në ekran, por pa e specifikuar atë në mënyrë unike. Sistemi i AI mund të mos jetë në gjendje të zgjidhë referencën e paqartë bazuar vetëm në tekst, pa marrë parasysh edhe kontekstin vizual.

ReALM përdor LLM-të për të transformuar detyrën komplekse të rezolucionit të referencës, duke përfshirë kuptimin e referencave ndaj elementeve vizuale në ekran, në një problem të pastër modelimi të gjuhës. Falë kësaj qasjeje, ReALM është në gjendje të arrijë përmirësime të rëndësishme të performancës mbi metodat ekzistuese.

Rëndësia e të kuptuarit të kontekstit për asistentët bashkëbisedues
Ekipi hulumtues i Apple theksoi rëndësinë e aftësisë për të kuptuar kontekstin, duke përfshirë referencat, për një asistent bashkëbisedues. Lejimi i përdoruesit për të bërë pyetje rreth asaj që shohin në ekran është një hap kritik për të siguruar një përvojë vërtet pa duar me asistentët zanorë.

Për të trajtuar referencat e bazuara në ekran, ReALM prezanton një risi kryesore: rindërtimin e ekranit duke përdorur entitetet e analizuara dhe pozicionet e tyre për të gjeneruar një paraqitje tekstuale që kap paraqitjen vizuale. Studiuesit demonstruan se kjo qasje, e kombinuar me rregullimin e modeleve specifike të gjuhës për zgjidhjen e referencës, mund të tejkalojë GPT-4 në këtë detyrë.

Zbatimet praktike dhe kufizimet e sistemit ReALM
Puna e Apple thekson potencialin e modeleve të gjuhës së synuar për të trajtuar detyra të tilla si rezolucioni i referencës në sistemet e prodhimit, ku përdorimi i modeleve masive nga skaji në fund mund të mos jetë i realizueshëm për shkak të vonesës ose kufizimeve të llogaritjes. Publikimi i këtij hulumtimi sinjalizon angazhimin e vazhdueshëm të Apple për t’i bërë Siri dhe produkte të tjera gjithnjë e më të ndërgjegjshëm për kontekstin.

Megjithatë, studiuesit pranojnë se mbështetja në analizimin automatik të ekranit ka kufizime. Trajtimi i referencave vizuale më komplekse, të tilla si dallimi midis imazheve të shumta, ka të ngjarë të kërkojë integrimin e vizionit kompjuterik dhe teknikave multimodale.

Gara e Apple për të mbyllur hendekun e inteligjencës artificiale
Apple po bën përparim të rëndësishëm në kërkimin e inteligjencës artificiale, pavarësisht nga rivalët e teknologjisë së mbetur në këtë fushë me zhvillim të shpejtë. Zbulimet nga laboratorët e kërkimit të kompanisë sugjerojnë interes dhe ambicie në rritje për AI.

Megjithatë, Apple përballet me konkurrencë të ashpër nga Google, Microsoft, Amazon dhe OpenAI, të cilat tashmë kanë integruar AI gjeneruese në produkte dhe shërbime të ndryshme. Gjatë Konferencës Botërore të Zhvilluesve në qershor, Apple pritet të zbulojë veçori të reja të fuqizuara nga AI në të gjithë ekosistemin e saj.