Në fund të shtatorit 2023, OpenAI prezantoi dy veçori të reja të rëndësishme në ChatGPT. E para është aftësia për të komunikuar verbalisht me chatbot, i cili tani ka zërin e tij sintetik. E dyta është aftësia për të njohur dhe përshkruar imazhet. Ky funksion, tashmë i pranishëm në Google Bard, e bën chatbotin shumë më të dobishëm dhe të gjithanshëm.
GPT-4 Vision, çfarë është dhe për çfarë përdoret
Multimodaliteti i GPT-4 ishte pika kryesore e shitjes së OpenAI kur modeli u lançua në mars 2023. Megjithatë, kompania kishte vendosur të priste përpara se të lëshonte GPT-4V (GPT-4 Vision), versioni që integron përpunimin e gjuhës natyrore dhe vizionin kompjuterik , për të shmangur çështjet e mundshme të privatësisë që lidhen me njohjen e fytyrës. Pas kryerjes së testimit të gjerë dhe zbatimit të masave të sigurisë, OpenAI njoftoi në shtator se ky model i ri ishte më në fund gati!
Falë kësaj veçorie të re ChatGPT, thjesht duhet të ngarkoni një imazh për të lejuar që AI t’i përgjigjet pyetjeve ose pyetjeve në lidhje me të. Aplikimet e mundshme të GPT-4 Vision janë të shumta, siç tregohet nga bashkëthemeluesi i OpenAI, Greg Brockman, i cili prezantoi disa raste të mundshme përdorimi në një video.
GPT-4 Vision is much better at interior design than I am: https://t.co/ZUTCr2I6Kq
— Greg Brockman (@gdb) October 2, 2023
Në veçanti, mjeti është në gjendje të identifikojë çdo element në një imazh, qoftë një bimë, një kafshë, një personazh imagjinar apo ndonjë objekt tjetër. Për më tepër, inteligjenca artificiale është në gjendje të gjenerojë një përshkrim të detajuar.
Një shembull i përdorimit të GPT-4V është të identifikoni monumentet që shihni në një qytet ose qytet të ri, duke ngarkuar një foto dhe duke i kërkuar inteligjencës artificiale t’i përshkruajë ato. Në teori, ju mund të bëni të njëjtën gjë me foton e një personi, por kjo do të ishte një shkelje e privatësisë. Për këtë arsye, OpenAI ka vendosur GPT-4V për të refuzuar këto lloj kërkesash.
Një mundësi tjetër është nxjerrja e tekstit nga një imazh ose përkthimi i tij. Kjo mund të jetë shumë e dobishme për përkthimin e teksteve në gjuhët e lashta në imazhe nga librat e vjetër ose për përkthimin e menjëhershëm të komikeve. GPT-4 V është gjithashtu në gjendje të lexojë grafikët dhe grafikët në çdo format dhe të nxjerrë përfundimet e veta. Prandaj mund të bëhet aleati më i mirë i analistëve të të dhënave.
Megjithëse ChatGPT kishte tashmë interpretuesin e tij të kodit për programimin kompjuterik, GPT-4V e çon atë një hap më tej, duke konvertuar një imazh të thjeshtë në softuer ose një faqe interneti. Po kështu, chatbot tani është në gjendje të identifikojë lloje të ndryshme dizajnesh arkitekturore dhe të sugjerojë ndryshime bazuar në udhëzimet e personalizuara të ofruara nga përdoruesi.
Cilat janë kufizimet e GPT-4 Vision?
OpenAI ka vendosur kufij për të kufizuar aftësitë e GPT-4 Vision. Për shembull, AI nuk mund të identifikojë njerëzit. Kërkesat do të refuzohen në 98% të rasteve. Në fakt, kur përballet me një foto të një personi (madje edhe një të famshëm), chatbot do të thotë se është “programuar për t’i dhënë përparësi privatësisë dhe sigurisë së përdoruesit”.
Po kështu, nëse paraqitet me imazhe pornografike, ChatGPT do të kufizohet në përshkrimin e elementeve “të buta”, jo eksplicite, të tilla si tatuazhet. Ashtu si me barrierat e ChatGPT ndaj kërkesave me tekst, ka shqetësime se hakerët mund të jenë në gjendje të “shkelin” GPT-4 Vision për të kapërcyer këto kufij etikë. Pasojat mund të jenë katastrofike, veçanërisht për privatësinë.
Data e lëshimit të GPT-4 Vision
Versioni i ri i ChatGPT i aftë për të analizuar imazhet do të publikohet në fund të vitit 2023, por ende nuk dihet se kur. Si zakonisht, përdoruesit e versionit me pagesë ChatGPT Plus duhet të jenë të parët që përfitojnë prej tij.
Discussion about this post