Garantuesi për mbrojtjen e të dhënave personale ka publikuar një sërë indikacionesh që faqet (kontrolluesit e të dhënave) duhet të ndjekin për të parandaluar të ashtuquajturin scraping në ueb nga kompanitë që zhvillojnë modele gjeneruese të inteligjencës artificiale. Këshilla vlen për menaxherët e faqeve që publikojnë të dhëna për të përmbushur disa detyrime, për shembull atë për transparencën administrative.
Masat për të parandaluar mbledhjen e të dhënave
Garantuesi kishte nisur një hetim faktmbledhës më 22 nëntor 2023 për të verifikuar miratimin e masave të sigurisë nga faqet publike dhe private që pengojnë grumbullimin masiv të të dhënave personale. Më 21 dhjetor 2023 u kërkoi palëve të interesuara të japin vëzhgime, komente dhe propozime për masat që mund të merren nga menaxherët e kantierit.
Duke marrë parasysh kontributet e marra, Garantuesi ka publikuar disa indikacione mbi masat që menaxherët e faqeve, si kontrollues të të dhënave, mund të marrin për të parandaluar ose penguar scrapinge ueb-it. Kjo e fundit është teknika që ju lejon të “krehni” internetin dhe të krijoni grupet e të dhënave të përdorura për trajnimin e modeleve gjeneruese të AI. Kompanitë shfrytëzojnë robotë të ngjashëm me ato që përdor Google ose Microsoft për të indeksuar faqet.
Garantuesi rekomandon katër masa. E para përfshin krijimin e zonave të rezervuara, të aksesueshme përmes regjistrimit, në të cilat janë të pranishme të dhënat e përdoruesit. Në këtë mënyrë ato fshihen nga robotët. Opsioni i dytë është futja e klauzolave specifike në kushtet e përdorimit të shërbimit. Kjo nuk parandalon scraping e uebit, por është një pengesë sepse operatorët e faqes mund të paraqesin një pretendim për shkelje të kontratës.
Garantuesi sugjeron gjithashtu zbatimin e monitorimit të trafikut në rrjet (kërkesat HTTP) për të zbuluar flukset anormale të të dhënave hyrëse dhe dalëse. Është gjithashtu e mundur të bllokohet trafiku që vjen nga adresa IP specifike (në disa raste aktiviteti i skrapimit të uebit është i ngjashëm me një sulm DDoS).
Më në fund, menaxherët e faqeve mund të kufizojnë aksesin e robotëve duke shtuar CAPTCHA, duke redaktuar shënimin HTML, duke futur tekst në imazhe, duke bllokuar agjentët e padëshiruar të përdoruesve dhe duke redaktuar skedarin robots.txt. Në këtë të fundit duhet të futet një ndalim për robotët, por zgjidhja nuk është shumë efektive sepse pak kompani komunikojnë emrin e robotit (për shembull, GPTBot nga OpenAI për GPT ose Google-Extended nga Google për Gemini).
Discussion about this post