Hem Samhälle Politik Kazakstans bud på AI -suveränitet

Kazakstans bud på AI -suveränitet

Kazakhstan’s Bid For AI Sovereignty

Den 13 mars har Kazakstans president Kassym-Jomart Tokayev met med Thomas Pramotedham, Verkställande direktören för Presight AI, ett artificiellt underrättelseföretag, för att diskutera planer för ett superdatorkluster i landet. Projektet är en del av ett antal initiativ från regeringen för att positionera sig som en regional ledare inom konstgjord intelligens.

Astana placerar hopp i tekniken inte bara för ekonomisk tillväxt. Det finns också en kulturell aspekt av drivkraften, med en stark inhemsk AI -industri som ses som avgörande för språklig bevarande.

Men som en ny dröjsmål För superdatorprojektet visar att även de bästa planerade planerna kan bli offer för geopolitiska krafter. Medan Kazakstan kan prata ett stort spel på AI, kan det leverera?

Kontrollerar berättelsen

Stora språkmodeller, eller LLM, är grunden för AI -program som chatgpt, som process, förstår och genererar mänskligt språk. Dessa modeller är överväldigande utbildade på en handfull dominerande språk, som engelska, mandarin och spanska, medan mindre språk som kazaker ofta förbises.

”Medan de större LLM: erna lägger till ytterligare språk, stöds dessa språk inte nödvändigtvis i lika stor utsträckning,” sade Preslav Nakov, avdelningsordförande och professor i naturligt språkbehandling vid Mohamed Bin Zayed University of Artificial Intelligence (MBZUAI) i Abu Dhabi. ”LLMS använder neurala nätverk och har en begränsad kapacitet; deras utvecklare frågar sig oundvikligen om de vill investera i att använda den kapaciteten för att stödja fler språk eller förbättra i andra områden, till exempel resonemang.”

Den sekundära betydelsen som ges till mindre språk leder till AI-modeller som främjar en västerländsk världssyn, säger Dion Wiggins, CTO of Allviscience, ett företag som specialiserat sig på AI-driven språkbehandlingslösningar. ”Om du går till grok eller lama eller chatgpt är de mer eller mindre lika eftersom de alla lär sig av samma data,” sade han.

Men om länder som Kazakstan kunde producera sina egna LLM: er, skulle det innebära mer kontroll över berättelsen.

”Om du har en suverän LLM, har det kazakiska moral, kazakhistoria, kazakiska linser och en synvinkel från denna del av världen,” sa Wiggins. Han citerar Kinas Deepseek, som begränsar tillgången till information om Tiananmen Square -massakern, och Googles Tvillingarna, som vägrar att svara på en enkel fråga som ”Vem är USA: s president?” Som exempel på hur vi redan ser AI används för censur.

Tänk på ditt språk

LLMS kräver enorma mängder data för att utbilda dem för att vara effektiva.

”Och det är problemet,” sa Wiggins. ”Det finns bara inte mycket kazakiska data.”

En av de största datakällorna för AI -utbildning är Krypaen ideell som arkiverar onlineinformation och gör den fritt tillgänglig för allmänheten. Dess statistik visar en enorm språklig förspänning: 43,4 procent av vanliga genomsökningswebbsidor är på engelska. Faktum är att över 70 procent av alla webbaserade data är från sju huvudspråk: engelska, ryska, tyska, japanska, kinesiska, spanska och franska.

Kazakiska står för 0,0298 procent. Med andra ord, om du slumpmässigt bläddrade igenom 10 000 webbsidor, skulle tre vara i kazakiska; 605 på ryska och 4 337 på engelska.

Detta har verkliga konsekvenser: Sökmotorer prioriterar engelska innehåll, AI-drivna assistenter kämpar med icke-engelska frågor och automatiserade översättningar förblir opålitliga på många språk.

”I Kazakstan förvärras denna fråga ytterligare av det historiskt inneboende problemet som härrör från Reliance på ryska,” sade Aisana Kassenova, en kazakisk-född doktorand i AI vid Esade Business & Law School i Barcelona. ”Många översättningsverktyg, som Google Translate, använder fortfarande ryska som mellanhand när man översätter kazakiska, vilket gör det ofta felaktigt.”

Astana har en långvarig politik för att försöka främja det kazakiska språket över ryska, som under många år ansågs vara den urbanelitens språk på landet. Många skulle hävda att det fortfarande är: ryska har ett enormt försprång över kazakiska i det digitala rymden, vilket innebär att majoriteten av interaktioner med AI genomförs på ryska.

”Detta leder till brist på kazakiska språkdatasätt, vilket förstärker uppfattningen att ryska förblir det mer” praktiska ”språket för teknik och AI -utveckling i Kazakstan,” sade Kassenova.

Hemodlade LLMS

Som sådan började sökningen efter Kazakstans första stora språkmodell. I december 2024 slog landet guld när Nazarbayev University’s Institute of Smart Systems and Artificial Intelligence (Issai) avslöjade Kazllm. Kazllm, som är designad för att bearbeta och generera text i kazakiska, ryska, engelska och turkiska, utvecklades med hjälp av en enorm datasätt som samlats in från källor som nyhetsställen, regeringswebbplatser och öppna åtkomstmaterial. Modellens prestanda till och med drog beröm från Yan Lecun, chef för AI och forskning vid USA: s teknikjätte meta.

Det följdes i februari 2025 av Sherkala, en annan kazakisk AI -modell, utvecklad i samarbete på Mbzuai i Abu Dhabi.

Professor Nakov, projektets ledare, berättade för diplomaten att Sherkala följer JAI: s fotspår (2023) och Nanda (2024), som är fokuserade på arabiska respektive hindi.

”Sherkala är byggd på Llama, den allmänt antagna AI-modellen med öppen källkod från Meta, som redan inkluderar ett visst flerspråkigt stöd, men inte tillräckligt för att ge nivån på noggrannhet och kulturell medvetenhet för språk som Kazakh,” sade han. För att utveckla modellen såg hans team till att finjustera den med extra information om Kazakstans kultur och historia.

Kassenova hävdar att Kazllm och Sherkala inte har utformats för att konkurrera med mainstream AI -modeller, utan snarare för att ge mer inkludering. ”Modeller som Chatgpt, Gemini och Qwen är byggda med massiva resurser, oändliga flerspråkiga datasätt och banbrytande datorkraft, som strävar efter allmän intelligens,” sade hon. ”Däremot skapades kazakiska LLMS i relativt små team (och med en relativt liten budget) för att säkerställa att kazakhögtalare har AI -verktyg anpassade efter vårt språk och kulturella sammanhang.”

Bygga AI -infrastruktur

Kazakstans AI -ambitioner sträcker sig utöver språkmodeller. En annan plank av strategin involverar skapandet av en nationell superdator.

”(Detta) skulle vara nyckeln för AI -utvecklingen,” sade Kassenova. ”Landet har länge varit beroende av ryska datorsystem, men med Ryssland inför sina egna AI -chipbrister är det inte ett alternativ att vända sig till det.”

Regeringen har samarbetat med Presight.AI, ett annat UAE -företag, för att bygga superdatorn. Förseningar i att förvärva högpresterande NVIDIA-chips på grund av amerikanska exportbegränsningar har emellertid minskat framstegen med projektet, som skulle slutföras förra året. Detta NVIDIA -embargo har skapat betydande flaskhalsar, där företaget kontrollerar runt 80 procent av den globala marknaden för AI -chips.

Wiggins föreslår att Kazakstan kan vända österut för hjälp. ”Huawei i Kina har skapat GPU: er som inte är lika bra ännu, men de är tillräckligt bra,” sade han med hänvisning till det senaste positiv prestation av Huawei Ascend 910 C -chip, som har börjat stänga klyftan på Nvidia.

Att bygga ett AI -ekosystem kräver såväl mänskligt kapital som infrastruktur. 2024 började Kazakstan införa AI -läskunnighetskurser i alla universitet i landet. Astana Hub Technopark har också börjat ett årligt projekt till tåg 700 AI -lärare från 47 nationella universitet.

Astana föreställer sig också att bli ett regionalt AI -nav. Planer pågår för att upprätta en Internationellt AI -centrum År 2025 har ett drag utformat för att locka globala forskningssamarbeten och investeringar.

Vagnen före hästen

Att tillkännage att 1 miljon människor kommer att utbildas i AI skiljer sig emellertid från att övertyga dem att genomföra utbildningen, precis som övertygande människor att använda Sherkala över ryska språkekvivalenter är inte en given. Kazakstan har varit här tidigare, för tidigt förkunnat sig ett globalt nav för allt från logistik till religion.

En annan fråga är öppenhet. Stora språkmodeller trivs med enorma mängder korrekt, omfattande information.

Medan regeringar som tenderar mot opacitet, såsom Kina, har visat att en mycket kontrollerad, top-down-strategi med statlig stöd, massiv data och företagsinriktning också kan driva framsteg, kanske Kazakstan inte har resurser för att emulera den modellen.

Ett billigare tillvägagångssätt skulle vara en miljö som främjar öppen och enkel tillgång till data, särskilt med tanke på den relativa bristen på kazakiska språkkällor. Men med reportrar utan gränser som rankade landet 142 av 180 på dess 2024 World Press Freedom Indexdetta verkar inte vara en prioritering.

För alla dess stora mönster kan Astanas järngrepp om information hamna i landet tillbaka.

Issai, skaparna av Kazllm, svarade inte på begäran om kommentar.

Presight.ai vägrade att kommentera och föreslog att frågor riktas mot regeringen.

Regeringens ministerium för digital utveckling var inte tillgänglig för kommentarer.