Lansimi i modelit R1 nga DeepSeek, një startup deri atëherë pak i njohur kinez, ka tronditur sektorin e inteligjencës artificiale dhe më gjerë. Duke lënë mënjanë për një moment pyetjet e mëdha që rrethojnë projektin, nga kostot aktuale të trajnimit deri te përdorimi i mundshëm i të dhënave nga OpenAI, njeriu pyet veten se çfarë është kaq e veçantë për chatbotin e balenës blu dhe pse edhe liderët e mëdhenj të teknologjisë po e komplimentojnë kompaninë.
Përgjigjet janë të shumta, duke përfshirë edhe ato teknike. Por le ta bëjmë hap pas hapi.
Të menduarit jashtë kutisë dhe optimizimi
DeepSeek është një kompani kineze e themeluar në vitin 2023 nga Liang Wenfeng, bashkëthemelues i fondit të madh të investimeve High-Flyer. Wenfeng ka mbrojtur gjithmonë një qasje të ndryshme ndaj kërkimit të AI, duke synuar të punësojë studiues të rinj nga universitetet më të mira të Kinës. Për më tepër, kontrollet e eksportit të vendosura nga Shtetet e Bashkuara nuk lejojnë që një startup kinez si DeepSeek të ketë akses zyrtarisht në teknologjitë më të fundit, si GPU-të e nivelit më të lartë të destinuara për tregun global, por më së shumti për produktet e krijuara posaçërisht për qëllimi.
Për të trajnuar një model konkurrues të AI, kinezët duhej të ishin shumë shpikës dhe të mendonin jashtë skemave.
Si rezultat, Wenfeng donte të rrethohej me të rinj dhe profesionistë jashtë sektorit të IT, në mënyrë që të kishte njohuri në fronte të shumta.
Është falë këtij ekipi të larmishëm që, duke marrë në vlerë nominale njoftimin e DeepSeek, modeli R1 kërkoi vetëm 2,048 GPU NVIDIA H800 për t’u trajnuar, duke marrë dy muaj dhe duke shpenzuar më pak se 6 milionë dollarë, një shifër shumë më e ulët se konkurrentët e drejtpërdrejtë amerikanë. Vlen të theksohet se këto të dhëna janë vënë në pikëpyetje nga ekspertë të ndryshëm të AI, por ka një element që lë pak vend për dyshim: gjetjet interesante në fushat e trajnimit dhe arsyetimit të përshkruara në dokumentacionin teknik.
Në punimin e botuar në arXiv më 22 janar 2025, në fakt, konceptet inovative për AI janë aplikuar konkretisht, duke përfshirë një mënyrë alternative për të trajnuar një model të inteligjencës artificiale që në fakt tejkalon teknikat tashmë premtuese të shkallëzimit të konkluzioneve në kohë të prezantuara nga modeli i arsyetimit o1 i OpenAI. .
Le të përpiqemi ta thjeshtojmë konceptin sa më shumë që të jetë e mundur: një LLM, pra një model gjuhësor në shkallë të gjerë, trajnohet në tre faza.
E para është para-trajnimi: është e nevojshme t’i jepet AI një sasi e madhe tekstesh për ta bërë modelin të mësojë njohuri të përgjithshme. Kjo është faza ku AI mëson të parashikojë fjalën tjetër në një fjali, ose më mirë, token tjetër. Siç e kemi përmendur tashmë në këto faqe, në fakt, AI zgjedh fjalën tjetër në bazë të probabilitetit. Megjithatë, trajnimi paraprak nuk është i mjaftueshëm që një model të jetë në gjendje t’i përgjigjet në mënyrë koherente kontributit njerëzor.
Këtu hyn në lojë faza e rregullimit të mbikëqyrur. Këtu fillon në fakt pas-trajnimi, domethënë përdorimi i teknikave për ta bërë modelin më efikas dhe për të përmirësuar përgjigjet e tij.
Kjo është një frazë thelbësore për të rafinuar modelin e AI dhe për ta bërë atë të aftë për të “kuptuar” kërkesat e përdoruesve përmes teknikave të tilla si etiketimi i të dhënave dhe trajnimi për detyra specifike.
Megjithatë, nevojitet një fazë e tretë për të përfunduar procesin e trajnimit: të mësuarit përforcues trajnon më tej modelin duke marrë reagime, si nga njerëz realë (RLHF, Përforcimi i të mësuarit nga Human Feedback) dhe nga modelet e AI (RLAIF, Përforcimi i të mësuarit nga AI Feedback). ).
Në fund të këtyre tre fazave, operacioni i trajnimit të një LLM përfundon, megjithëse mund të nevojiten operacione të mëtejshme përsosjeje.
Këto janë fazat kryesore në të cilat trajnimi është strukturuar sot nga kompani të mëdha në sektorin e AI.
DeepSeek ka demonstruar se si është e mundur të eliminohet, të paktën pjesërisht, faza e dytë, duke filluar nga trajnimi i modelit R1-Zero.
Pas fazës së para-trajnimit, në vend që të kalonte në hapin e dytë, ekipi i ri i studiuesve kinezë përdori një teknikë të re pronësore në fushën e të mësuarit përforcues, të ashtuquajturin Group Relative Policy Optimization (GRPO), duke kapërcyer Optimizimin e Politikave Proksimale. (PPO).
Algoritmi i ri, i cili mbështet aftësitë e nivelit të lartë të arsyetimit të modelit të AI, rishkruan teknikisht mënyrën e trajtimit të shpërblimeve dhe optimizimit, duke eliminuar nevojën për një funksion të vlerës. Vini re se asnjë model nervor nuk përdoret për të gjeneruar shpërblime.
Me fjalë të tjera, sistemi GRPO e bën më të lehtë trajnimin e një LLM, duke reduktuar konsumin e kujtesës dhe duke e bërë procesin e trajnimit më pak të kushtueshëm. Për më tepër, falë asaj që është efektivisht një mësim përforcues i bazuar në rregulla, koncepti mund të zgjerohet më lehtë edhe në një shkallë të gjerë.
DeepSeek ishte në gjendje të përsosë më tej teknikat e tij të trajnimit me një model të dytë përveç DeepSeek-R1-Zero, domethënë DeepSeek-R1.
Një aspekt i rëndësishëm i punimit ka të bëjë me konceptin e shkallëzimit në kohë testimi, i cili shkon përtej fazave klasike para-trajnimit dhe pas-trajnimit duke u fokusuar në kapacitetin e shpërndarjes së burimeve: në vend të përmirësimit të parametrave, kjo metodë fokusohet në përcaktimin e fuqisë së përpunimi i nevojshëm për të prodhuar përgjigjet.
Zbulimi i studiuesve të DeepSeek, me pak fjalë, hap dyert për metoda të reja për trajnimin e AI, duke lejuar përmirësimin e aftësive të arsyetimit dhe uljen e kostove: një evolucion në drejtim të optimizimit, aktualisht duke u studiuar edhe nga kompani të mëdha amerikane.
Ndërsa përparimi i Kinës përfaqëson një hap përpara në efikasitet, kjo nuk do të thotë se një infrastrukturë e përparuar në shkallë të gjerë nuk është e nevojshme për të mbështetur zhvillimin e AI.
Megjithatë, ajo që është e sigurt është se DeepSeek na ka kujtuar se gara për AI nuk po zhvillohet vetëm në fushën e harduerit dhe sasisë, por edhe në studimet globale të optimizimit të algoritmeve. Tani topi është në fushën e Shteteve të Bashkuara dhe përgjigja e tyre sigurisht që nuk do të vonojë shumë.
Discussion about this post