Cloudflare njoftoi zhvillimin e Firewall për AI, një shtresë mbrojtjeje që ndihmon në zbulimin e abuzimit përpara se të arrijë në LLM (Large Language Model). Modelet gjeneruese të inteligjencës artificiale, të përdorura brenda aplikacioneve që aksesojnë internetin, mund të kenë dobësi që shfrytëzohen nga sulmuesit.
Harder mbron aplikacionet e AI
Firewall për AI është një firewall i aplikacionit në ueb (WAF) i zhvilluar posaçërisht për aplikacionet që përdorin modele të AI. Cloudflare thekson se kriminelët kibernetikë mund të përdorin udhëzime specifike për të shfrytëzuar dobësitë e shablloneve. Por mbrojtja e një aplikacioni AI është më e ndërlikuar sesa një aplikacion tradicional në internet.
Këto të fundit janë deterministe, që do të thotë se ju lejojnë të kryeni të njëjtat operacione për çdo hyrje. Aplikacionet e AI, nga ana tjetër, janë jo-përcaktuese për arsye të ndryshme. Para së gjithash, inputi bazohet në gjuhën natyrore, kështu që është e vështirë të identifikohet kërkesa problematike. Për më tepër, përgjigjet janë gjithmonë të ndryshme edhe me të njëjtën kërkesë.
Në një aplikacion tradicional, kodi ndahet nga të dhënat. Në LLM, megjithatë, të dhënat janë pjesë e vetë modelit gjatë procesit të trajnimit. Fondacioni OSWAP ka renditur 10 dobësitë kryesore. Disa mund të adresohen gjatë fazave të projektimit, zhvillimit dhe trajnimit. Tre prej tyre (Injeksioni i menjëhershëm, Refuzimi i Modelit të Shërbimit dhe Zbulimi i Informacionit të ndjeshëm) mund të zbuten me Firewall për AI.
Aplikacioni AI hyn në firewall përmes API për të vërtetuar kërkesat (hyrjet). Përgjigjet (dalja) e modelit gjithashtu kalojnë përmes firewall
përpara se të mbërrijnë në aplikacionin AI. Modeli i Mohimit të Shërbimit është i ngjashëm me një sulm tradicional DoS, kështu që firewall ju lejon të zbatoni një kufizim në numrin e kërkesave për seancë të vetme.
Zbulimi i informacionit sensitiv, nga ana tjetër, ndodh kur modeli zbulon të dhëna konfidenciale në përgjigje, pasi ato janë futur gabimisht në të dhënat e trajnimit. Ju mund të krijoni rregulla në mënyrë që firewall të bllokojë daljen me informacione të ndjeshme. Ai gjithashtu funksionon në të kundërt për të parandaluar përdoruesit nga futja e të dhënave personale në kërkesat.
Një nga teknikat më të përdorura për manipulimin e modeleve njihet si Injeksioni i shpejtë. Futen kërkesa që gjenerojnë halucinacione ose përgjigje të gabuara dhe fyese. Firewall-i i Cloudflare mund t’i bllokojë këto kërkesa nëpërmjet rregullave të përcaktuara nga klienti.
Dy mbrojtjet e para janë tashmë të disponueshme, ndërsa e treta është ende në zhvillim dhe një version beta do të dalë në muajt e ardhshëm. Të interesuarit mund të regjistrohen në listën e pritjes.
Discussion about this post