Projekti i ri hap të dhënat e Wikipedia-s për AI

Një bazë e re semantike bashkëpunuese për të përmirësuar kërkimet dhe modelimin me gjuhë natyrore duke përdorur Wikipedia dhe platformat e saj

Wikimedia Deutschland ka shpallur një projekt të ri që do ta bëjë pasurinë e njohurive të Wikipedia-s shumë më të qasshme për modelet e inteligjencës artificiale (AI). Projekti quhet Wikidata Embedding Project dhe përdor një metodë të quajtur kërkim semantik me vektorë — teknikë që ndihmon kompjuterët të kuptojnë kuptimin dhe marrëdhëniet mes fjalëve — dhe aplikon këtë metodë në të dhënat ekzistuese në Wikipedia dhe platformat e saj shoqëruese, me thuajse 120 milionë hyrje.

Për më tepër, projekti mbështetet në Model Context Protocol (MCP), një standard që lehtëson komunikimin e sistemeve AI me burime të jashtme të të dhënave. Kjo do të lejojë që modelet e gjuhës (LLMs – Large Language Models) të bëjnë pyetje në gjuhë natyrore dhe të tërheqin informacion nga baza që është verifikuar nga redaktorë të Wikipedia-s.

Wikimedia Deutschland po punon bashkë me kompanitë Jina.AI dhe DataStax (e cila ofron mjete për trajnimin e të dhënave në kohë reale) për këtë projekt.

Përpara këtij projekti, Wikidata kishte ofruar të dhëna të lexueshme nga makina (machine-readable) që nga pronat e Wikimedia-s, por mjetet e vjetra lejonin kryesisht kërkime bazuar në fjalë kyçe ose përdorimin e SPARQL — një gjuhë e specializuar kërkimi.

Versioni i ri është i përmirësuar për t’u integruar me sistemet që përdorin retrieval-augmented generation (RAG) — këto janë sisteme AI që marrin informacion të jashtëm për të mbajtur modelet më të “tokësuara” në njohuri të verifikuara.

Për shembull, një kërkim për fjalën “scientist” në këtë sistem nuk do të japë vetëm emra të shkencëtarëve të njohur, por edhe përkthime të fjalës në gjuhë të ndryshme, imazhe të aprovuar që lidhen me punën e shkencëtarëve, dhe lidhje me koncepte të afërta si “hulumtues” ose “shkencëtar i cili ka punuar në Bell Labs”.

Baza e të dhënave është publikisht e aksesueshme përmes mjetit Toolforge në adresën wd-vectordb.toolforge.org. Wikimedia gjithashtu po organizon një webinar me zhvilluesit të interesuar më 9 tetor.

Drejtuesi i projektit për AI te Wikidata, Philippe Saadé, theksoi se kjo nismë është e pavarur nga laboratorët kryesorë të AI apo kompanitë e mëdha teknologjike. Ai tha se ky projekt tregon se një inteligjencë artificiale e fuqishme nuk duhet të jetë nën kontrollin e një grupi kompanish — ajo mund të jetë e hapur, bashkëpunuese dhe në shërbim të të gjithëve.