Vetëm disa orë para fillimit të Google I/O 2024 (7 pasdite ET), Google tregoi në veprim një prototip të ri Gemini, i cili duket se përdor video të drejtpërdrejta dhe mesazhe zanore. Kjo demonstrim përfaqëson një hap përpara nga chatbot-et tradicionale të AI, të cilët deri më tani janë fokusuar kryesisht në mesazhet me tekst dhe imazhet.
Gemini di si të ndërveprojnë me video live
Në një demonstrim të ri të krijuar ndoshta gjatë përgatitjeve për Google I/O, chatbot Gemini shfaqet në veprim në një smartphone Pixel. Në klip, Gemini përdor si video live ashtu edhe mesazhe zanore për t’iu përgjigjur pyetjeve të parashtruara.
Kur pyetet “Çfarë mendoni se po ndodh këtu?”, chatbot-i analizon saktë videon që tregon një skenë që po ngrihet, duke kuptuar se është përgatitja për një ngjarje të madhe. Biseda vazhdon natyrshëm, me Gemini që u përgjigjen pyetjeve të mëpasshme, duke identifikuar shkronjat në ekran që i referohen Google I/O dhe duke ofruar një përshkrim të shkurtër të ngjarjes.
Demoja thekson aftësitë e Gemini në kombinimin e informacionit nga modalitete të ndryshme – video, audio dhe tekst – për të kuptuar kontekstin dhe për të dhënë përgjigjet përkatëse. Krahasuar me chatbot-et e mëparshme, prandaj duket se ka bërë përparim të rëndësishëm në integrimin e inputeve multimodale.
One more day until #GoogleIO! We’re feeling 🤩. See you tomorrow for the latest news about AI, Search and more. pic.twitter.com/QiS1G8GBf9
— Google (@Google) May 13, 2024
Google sfidon OpenAI
Demoja në tërësi është mjaft mbresëlënëse, jo vetëm për përdorimin multimodal të zërit dhe videos në kërkesat, por edhe për natyrshmërinë me të cilën zhvillohet biseda. Megjithatë, është e rëndësishme të theksohet se Google më parë tregoi një demonstrim shumë të ngjashëm në nivel bisede të Gemini, i cili doli të ishte paksa shumë i mirë për të qenë i vërtetë.
Është e paqartë nëse e njëjta gjë është e vërtetë për këtë demonstrim të ri, por ndërfaqja e përdoruesit e shfaqur në ekran tregon qartë se po përdorni video dhe Google thotë se është një “prototip”.
Koha e publikimit të këtij ngacmuesi nuk është rastësi: videoja u ngarkua në X më pak se një orë përpara një ngjarjeje OpenAI, ku ChatGPT, me GPT-4o, arriti të njëjtin funksionalitet të paraqitur nga Google, e gjitha falas. Kjo tregon se si Google po përpiqet të ruajë pozicionin e saj drejtues në fushën e inteligjencës artificiale, duke parashikuar lëvizjet e konkurrentëve të saj.
Discussion about this post