Google ka publikuar një dokument që jep disa detaje mbi superkompjuterin e përdorur për të trajnuar modelet e AI, duke përfshirë atë që qëndron pas Bard. Njësia e përpunimit të tensorit (TPU) e gjeneratës së katërt e tejkalon çipin NVIDIA A100 ndërsa konsumon shumë më pak energji.
Superkompjuter me 4.096 TPU v4
Kërkohet fuqi e jashtëzakonshme kompjuterike për të trajnuar modelet e AI. Të ashtuquajturat Modele të Mëdha të Gjuhës (LLM) po bëhen gjithnjë e më të mëdha (miliarda parametra), kështu që Google e përmirësoi superkompjuterin nga 256 TPU v2 në 4,096 TPU v4. Në të njëjtën kohë, u përditësuan çelësat optikë që lejojnë lidhjen midis nyjeve të ndryshme.
Për shkak të madhësisë së modeleve të AI që do të trajnohen (LaMDA e Google, e përdorur për Bard, ka 137 miliardë parametra) është e nevojshme të shpërndahen llogaritjet midis mijëra çipave që punojnë paralelisht. Modeli PaLM i Google, më i madhi në botë me 540 miliardë parametra, është trajnuar në dy superkompjuterë me 4096 çipa për 50 ditë.
Një TPU v4 e vetme jep 275 TFLOPS fuqi maksimale, ndërsa konsumon një maksimum prej 192 Watts. Krahasuar me çipin NVIDIA A100, ai është deri në 1,7 herë më i shpejtë dhe deri në 1,9 herë më efikas. NVIDIA njoftoi çipin H100, pasardhësin e A100, por Google nuk bëri një krahasim sepse i përket një gjenerate të mëvonshme.
V4 TPU-të kërkojnë më pak energji, kështu që ato gjenerojnë më pak emetime CO2. Superkompjuterët e përdorur për të trajnuar modelet e AI të Google janë të vendosur në qendrën e të dhënave Mayes County në Oklahoma. Sistemi u përdor gjithashtu nga Midjourney për të trajnuar modelin e tij që mund të gjenerojë imazhe nga një përshkrim tekstual (në thelb konkurrenti i Bing Image Creator bazuar në DALL-E 2 të OpenAI).
Discussion about this post