Google DeepMind ka prezantuar Robotics Transformer 2 (RT-2), modeli i parë Vision-Language-Action (VLA) që ju lejon të trajnoni robotë duke përdorur tekst dhe imazhe të marra nga Interneti. Modeli i AI është i ngjashëm me ato të përdorura nga Google Bard dhe chatbot të tjerë, por në këtë rast rezultatet janë udhëzime që roboti ekzekuton në botën reale.
Modeli i ri i AI për robotët
Robotët përdoren për të kryer detyra të ndryshme të përsëritura sepse është praktikisht e pamundur të programohen për të kryer detyra komplekse. Çdo aktivitet njerëzor kërkon një sekuencë të gjatë udhëzimesh. Një robot nuk mund të heqë një mollë nga tavolina nëse nuk e ka parë kurrë një të tillë. Rreth dy vjet më parë, Google DeepMind vendosi të përdorë modele të AI për të mundësuar robotët të kryejnë detyra të ndryshme, duke shmangur programimin e ri.
RT-2 përmirëson aftësitë e të kuptuarit duke përdorur tekstin dhe imazhet e marra nga Interneti, ashtu si Google Bard. Videoja tregon një demonstrim praktik të modelit VLA të zhvilluar nga kompania Mountain View. Ka disa artikuj në tryezë. Një inxhinier i Google i kërkon robotit të marrë një kafshë të zhdukur. Roboti kërkon dhe kap dinosaurin.
Modeli VLA nuk është perfekt. Në disa raste, roboti kryen veprime të gabuara. Google aktualisht nuk ka planifikuar shitjen e këtyre robotëve. Analizat kryhen në laborator, pra jo në prani të personave të tjerë. Megjithatë, disa masa sigurie janë zbatuar.
Në anën e pasme është një buton i madh i kuq që bllokon robotin. Disa sensorë lejojnë robotin të shmangë njerëzit dhe objektet gjatë rrugës. Për më tepër, nuk është e mundur të kërkohet të marrësh një enë plot me ujë që mund të dëmtojë qarqet e saj.
Discussion about this post