OpenAI paraqet një qasje të re për sigurinë e AI

25/07/2024

in Të gjitha

Reading Time: 3 mins read

OpenAI ka zhvilluar Shpërblimet e Bazuara në Rregulla (RBR), një qasje e re për të përmirësuar sigurinë dhe efektivitetin e modeleve gjuhësore. Kjo metodë synon të harmonizojë sjelljen e AI me standardet e dëshiruara të sigurisë, duke përdorur vetë AI pa pasur nevojë për mbledhje të gjerë të të dhënave njerëzore.

Njoftimi i OpenAI vjen pas ricaktimit të Aleksander Madry, një prej drejtuesve kryesorë të sigurisë së AI. Ky veprim ka ngritur pikëpyetje në lidhje me prioritetet e sigurisë të kompanisë së udhëhequr nga Sam Altman, duke pasur parasysh rolin e spikatur të Madry. Kompania u përgjigj se Madry tani do të fokusohet në një projekt të fokusuar në përmirësimin e arsyetimit të modeleve të AI.

Dallimi midis RLHF dhe RBR
Tradicionalisht, të mësuarit e përforcimit të reagimeve njerëzore (RLHF) ka qenë metoda më e përdorur për të siguruar që modelet e gjuhës të ndjekin udhëzimet dhe t’u përmbahen udhëzimeve të sigurisë. Megjithatë, kërkimi OpenAI prezanton RBR-të si një alternativë më efikase dhe fleksibël. Shpërblimet e bazuara në rregulla përdorin një sërë rregullash të qarta dhe të graduara për të vlerësuar dhe drejtuar përgjigjet e modelit, duke siguruar që standardet e sigurisë janë përmbushur.

RBR-të janë krijuar për të zgjidhur problemet e përdorimit vetëm të reagimeve njerëzore, të cilat mund të jenë të shtrenjta, kërkojnë kohë dhe i nënshtrohen paragjykimeve. Duke zbërthyer sjelljet e dëshiruara në rregulla specifike, RBR-të sigurojnë kontroll të grimcuar mbi përgjigjet e modelit. Këto rregulla përdoren më pas për të trajnuar një “model shpërblimi” që drejton AI, duke sinjalizuar veprimet e dëshiruara dhe duke siguruar ndërveprime të sigurta dhe të respektueshme.

3 kategori sjelljesh
Tre kategoritë e sjelljeve të dëshiruara nga modeli kur kanë të bëjnë me tema të dëmshme ose të ndjeshme janë: Refuzimet e vështira, Refuzimet e buta dhe Përputhja. Refuzimet e rënda përfshijnë një falje të shkurtër dhe një deklaratë të paaftësisë për t’u përmbushur. Mbetjet e buta ofrojnë një përgjigje më të nuancuar.

Për shembull, nëse përdoruesi bën një kërkesë joetike si fyerja e një personi, modeli i AI mund të japë një përgjigje si: “Unë e kuptoj që mund të jesh i zemëruar, por fyerja e të tjerëve nuk është kurrë zgjidhja. Pse nuk përpiqemi të flasim në mënyrë konstruktive për atë që ju zemëroi?” Në këtë mënyrë modeli i AI refuzon butësisht kërkesën fillestare, por me ndjeshmëri dhe duke sugjeruar alternativa pozitive. Kategoria “Përputhje” kërkon që modeli të japë një përgjigje në përputhje me kërkesën e përdoruesit, duke respektuar ende udhëzimet e sigurisë.

Të mirat dhe të këqijat e Shpërblimeve të bazuara në rregulla OpenAI
Në eksperimente, modelet e trajnuara me RBR demonstruan performancë më të mirë sigurie sesa ato të trajnuara me reagime njerëzore, duke reduktuar gjithashtu rastet e refuzimit të gabuar të kërkesave të sigurta. RBR-të gjithashtu reduktojnë ndjeshëm nevojën për sasi të mëdha të të dhënave njerëzore, duke e bërë procesin e trajnimit më të shpejtë dhe më të lirë.

Megjithatë, ndërsa RBR-të funksionojnë mirë për detyra me rregulla të qarta, zbatimi i tyre në detyra më subjektive, si shkrimi i një eseje, mund të jetë sfidues. Megjithatë, kombinimi i RBR dhe reagimet njerëzore mund të balancojë këto sfida duke zbatuar udhëzime specifike dhe duke adresuar aspekte të nuancuara me kontributin njerëzor.