Sipas Elon Musk, ne kemi shteruar tashmë të gjitha të dhënat e botës reale për të trajnuar modelet e AI.
Në një bisedë të drejtpërdrejtë në X me kryetarin e Stagwell, Mark Penn, Musk tha: “Ne kemi shfrytëzuar pothuajse të gjithë pasurinë kumulative të njohurive njerëzore për të fuqizuar sistemet e AI”. Dhe kur do të kishte ndodhur kjo? “Në thelb vitin e kaluar,” tha manjati i Tesla.
Elon Musk: “Trajnimi i AI, na kanë mbaruar të dhënat reale”
Musk nuk është i vetmi që mendon në këtë mënyrë. Ilya Sutskever foli gjithashtu për një “kulm të të dhënave”. Duke folur në NeurIPS në dhjetor, ish-shkencëtari kryesor në OpenAI parashikoi se mungesa e të dhënave të trajnimit do të detyrojë një ndryshim në mënyrën se si ne zhvillojmë modelet e AI.
Dhe cila është zgjidhja sipas Musk? Të dhëna sintetike, të cilat janë të dhëna të krijuara nga vetë modelet e AI. “E vetmja mënyrë për të integruar [të dhënat e botës reale] është me të dhëna sintetike, ku AI krijon [të dhënat e trajnimit],” tha ai. “Me të dhëna sintetike… [Inteligjenca artificiale] do të vetëvlerësohet dhe do të kalojë përmes këtij procesi të vetë-mësimit.”
Kompanitë e AI përdorin të dhëna sintetike për të trajnuar modelet
Musk nuk po thotë asgjë të re. Gjigantët si Microsoft, Meta, OpenAI dhe Anthropic tashmë po përdorin të dhëna sintetike për të trajnuar modelet e tyre kryesore. Gartner vlerëson se deri në vitin 2024, 60% e të dhënave të përdorura për AI dhe projektet analitike do të gjenerohen në mënyrë sintetike.
Phi-4 i Microsoft-it, i zbuluar muajin e kaluar, u trajnua si për të dhënat sintetike ashtu edhe për ato të botës reale. E njëjta gjë vlen edhe për shabllonet Gem të Google. Anthropic përdori disa të dhëna sintetike për të zhvilluar një nga sistemet e saj me performancën më të mirë, Claude 3.5 Sonnet. Dhe Meta ka rafinuar serinë e saj më të fundit të modeleve Llama duke përdorur të dhëna të krijuara nga AI.
Të mirat dhe të këqijat e të dhënave sintetike
Trajnimi i AI mbi të dhënat sintetike ka të mirat e veta, siç janë kursimet e kostos. Por ka edhe disavantazhe. Disa kërkime sugjerojnë se të dhënat sintetike mund të çojnë në kolaps të modelit, duke e bërë atë më pak “kreativ” dhe më të njëanshëm në rezultatet e tij, deri në atë pikë sa të komprometojë seriozisht funksionalitetin e tij. Meqenëse modelet krijojnë të dhëna sintetike, nëse të dhënat e përdorura për t’i trajnuar ato kanë paragjykime dhe kufizime, rezultatet e tyre gjithashtu do të kontaminohen në të njëjtën mënyrë.
Discussion about this post