Programet gjeneruese të AI, të tilla si ChatGPT, kanë një problem vjetërsimi të informacionit. ChatGPT, për shembull, bazohej deri vonë në të dhënat para shtatorit 2021, përpara se OpenAI të lëshonte versionin e ri GPT-4, i aftë për të aksesuar të dhënat deri në prill 2023.
Për t’i bërë këto programe më të përditësuara dhe më të besueshme, ekspertët e inteligjencës artificiale po përpiqen t’u ofrojnë atyre akses të vazhdueshëm në të dhënat që ndryshojnë vazhdimisht.
Në këtë kuptim, një projekt interesant i përbashkët midis Google dhe OpenAI u prezantua këtë muaj. Ky është “FreshLLM”, një sistem që lejon GPT-4 të përdorë informacione nga kërkimet në Google. Zemra rrahëse e FreshLLM është një metodë e re e trajnimit të modelit të gjuhës, e quajtur “FreshPrompt”, e cila shfrytëzon rezultatet e motorit të kërkimit.
Si funksionon FreshPrompt
Metoda përfshin futjen e rezultateve kryesore të kërkimit të Google në kërkesën e hyrjes së GPT-4 dhe më pas shfaqjen e një përgjigjeje të saktë për një pyetje bazuar në ato rezultate kërkimi. Në këtë mënyrë, iGPT-4 stimulohet të përdorë provat e kërkimit në internet për të ndërtuar përgjigjen e tij.
“FreshPrompt përmirëson ndjeshëm performancën [e programeve gjeneruese të AI] në krahasim me qasjet konkurruese që përdorin motorët e kërkimit,” thonë Tu Vu dhe ekipi i tij në Google.
Por FreshPrompt nuk është gjithçka. Për të vlerësuar aftësitë e GPT-4 dhe konkurrentëve të tij në përdorimin e të dhënave të gjetura në internet, Tu Vu dhe ekipi i tij duhej të krijonin një listë pyetjesh që përmbanin fakte dhe lajme.
Për ta bërë këtë, ekipi, me ndihmën e bashkëpunëtorëve të jashtëm, formuloi pyetje rreth “si po ndryshon bota”. Pyetjet u zgjodhën kryesisht për të kërkuar njohuri “të freskëta”, domethënë “njohuri që kanë ndryshuar kohët e fundit ose për ngjarje të reja”. Ata gjithashtu duhej të ishin “të besueshëm”: duhej të ishte “e besueshme që një person real ta shkruante këtë pyetje në motorin e tij të kërkimit”.
600 pyetje për të testuar inteligjencën artificiale
Këto 600 pyetje, të grupuara nën emrin “FreshQA”, variojnë nga “A ka hyrë romani i Virginia Woolf për familjen Ramsay në domenin publik në Shtetet e Bashkuara?”, i cili kërkon një përgjigje fikse, tek “Cili ishte filmi i fundit i Brad Pitt? si aktor? Shumica, por jo të gjitha, përgjigjet vijnë nga Wikipedia.
Kodi GitHub i projektit përmban një dokument Google Spreadsheets me të gjitha pyetjet FreshQA. Për të kuptuar gamën e gjerë të temave të mbuluara, mund të konsultoheni me pyetjet. Për shembull, ju shkoni nga “Cili autor shiti më shumë romane në Shtetet e Bashkuara vitin e kaluar sipas Publishers Weekly?” (përgjigja është Colleen Hoover) për “Sa llogari kanë tejkaluar 100 milion ndjekës në Instagram?” (38).
Për të testuar AI-të, ka edhe pyetje të ndërlikuara që paraqesin gënjeshtra. Për shembull: “Në cilin vit u ul njeriu i parë në Mars?
Rezultatet e arritura
Modelet e mëdha gjuhësore (LLM) të testuara, duke përfshirë GPT-4 dhe Pathways Language Model (PaLM), modeli i madh i gjuhës së Google, u sfiduan në mënyrë të parashikueshme nga pyetjet FreshQA. Por me ndihmën e FreshPrompt, rezultatet ishin dukshëm më të mira. Tu Vu dhe ekipi i tij theksojnë se kjo është kryesisht për shkak se LLM-të nuk përditësojnë informacionin e tyre, duke rezultuar në përgjigje nganjëherë të datës. Për më tepër, shumë prej tyre përmbahen nga dhënia e një përgjigjeje.
Në GPT-4, shtimi i FreshPrompt, ekipi pretendon, “përmirëson ndjeshëm saktësinë e përgjigjeve ndaj pyetjeve të FreshQA”, veçanërisht sepse kjo teknikë “ul ndjeshëm halucinacionet dhe përgjigjet e ndenjura”. Në pyetjet që lidhen me ngjarjet pas vitit 2022, diferenca në rezultate është e madhe: shkalla e saktësisë shkon nga 8% në 70.2%. Për të gjitha pyetjet e FreshQA, të cilat përfshijnë fakte më të vjetra, diferenca mbetet e konsiderueshme, duke shkuar nga 28.6% në 75.6%.
Edhe për pyetjet mashtruese, të cilat përfshijnë gënjeshtra, ndryshimi është i dukshëm: shkalla e saktësisë shkon nga 33.9% e përgjigjeve të sakta në 71%. Sigurisht, kjo do të thotë se ka ende gabime në pothuajse një të tretën e rasteve.
FreshPrompt mund konkurrencën
Ekipi Tu Vu krahasoi FreshPrompt me teknika të tjera që përdorin pyetjet e motorëve të kërkimit për të “përmirësuar” modelet gjuhësore. Midis tyre, ekziston Perplexity.ai, një kombinim i GPT-3.5 dhe Bing Search. Megjithatë, Perplexity rezultoi të ishte më pak se efektiv: në të gjitha pyetjet e FreshQA, ai arriti vetëm 52,2% saktësi. GPT-4, nga ana tjetër, me FreshPrompt, arriti saktësi 75.6%.
Ekipi Tu Vu pranon se ka ende sfida përpara. Një nga këto është përditësimi i vazhdueshëm i FreshPrompt, i cili kërkon që ju të verifikoni që përgjigjet janë ende relevante dhe kjo kërkon shumë kohë. Ekipi shpreson që komuniteti me burim të hapur mund të kontribuojë ose që përditësimi mund të automatizohet nga AI gjeneruese. Ndërkohë, ai është i përkushtuar për të mbajtur FreshQA të përditësuar.
Discussion about this post