AI i Kubernetes – så kommer du igång utan dyra GPU:er

Jasmina Dimitrievska
21 aug. 2025
3 min läsning

Open source-LLM (Large Language Models, stora språkmodeller) har gjort att kraftfulla AI-funktioner nu finns i händerna på utvecklare. Men även om det mesta fokuset hamnar på jättelika modeller med miljarder parametrar som körs i GPU-kluster i molnet, är det minst lika viktigt att förstå hur man kan köra mindre språkmodeller (SLM, Small Language Models) lokalt.

För test, utveckling och prototypning är det inte bara möjligt – det är ofta den mest praktiska vägen. Att köra LLM inference i Kubernetes direkt på din laptop kan spara både tid och kostnader. Det här är något som våra DevOps-konsulter och AI/MLOps-konsulter ofta stöter på, där företag vill experimentera lokalt innan de bygger större lösningar i molnet tillsammans med exempelvis en cloud-konsult för GCP eller AWS.

🖥️ Bygg en CPU-only LLM Inference Server

I det här upplägget körs hela modellen lokalt. När Docker-containern startas laddas den förtränade modellen från disk till minnet. All inferens sker sedan på din CPU (Central Processing Unit, datorns vanliga processor) helt utan externa API-anrop. Internet används bara en gång, när modellen hämtas via from_pretrained. Därefter kan du serva modellen själv via FastAPI och Docker och till och med köra helt offline om du vill.

👉 Det innebär full kontroll, hög säkerhet och inget beroende av tredjepartsleverantörer – något som ofta är en förutsättning när MLOps-konsulter bygger interna AI-plattformar.

Exempel på små modeller som fungerar bra för CPU:

distilgpt2
EleutherAI/gpt-neo-125M

Nackdelen med mindre modeller är att de oftare halllucinerar och övergeneralisera. De kan ge självsäkra men felaktiga svar, särskilt på faktabaserade frågor. Perfekt för prototyper och tester – men inget du bör använda för produktionskritiska uppgifter.

🔍 CPU eller GPU – när ska man använda vad?

CPU fungerar bra för modeller på cirka 125M–350M parametrar (distilgpt2, gpt2, gpt-neo-125M). På en modern laptop är prestandan fullt acceptabel.
GPU (Graphics Processing Unit, grafikkort) behövs när du vill köra större modeller som LLaMA 2 7B, Mistral eller Falcon 7B+. Här talar vi om krav på 12–40GB VRAM, hög minnesbandbredd och CUDA-stöd för att köra beräkningarna effektivt.

💡 Enkelt sagt:

För lokala tester och utveckling → kör på CPU.
För produktion och tyngre workloads → flytta till GPU-backade Kubernetes-noder i molnet (EKS, GKE). Här kan en cloud-konsult hjälpa dig att bygga rätt arkitektur.

🛠️ Minikube + FastAPI: så här gjorde jag

Jag byggde en FastAPI-baserad SLM inference-server och deployade den i en lokal Kubernetes-kluster med Minikube – helt utan GPU, Docker Hub eller externa beroenden.

Exempel:

Python-kod: run.py
Dockerfile: Dockerfile

Bygg lokalt:

$ docker build -t llm-api .

Ladda sedan in imagen i Minikube och deploya med kubectl apply. När allt rullar kan du anropa API:et via port-forward och curl.

🍏 Köra LLM med ONNX Runtime på macOS (M1–M4)

Om du utvecklar på Mac (M1–M4) fungerar inte GPU-backends som vLLM eller TGI native. Här är ONNX Runtime (Open Neural Network Exchange Runtime) ett riktigt bra alternativ. Det är byggt för CPU och fungerar optimalt på Apple Silicon.

Fördelar med ONNX Runtime:

Native stöd för macOS ARM64
Stöd för INT8-kvantiserade modeller (snabbt och minnesnål)
Ingen GPU krävs för små modeller
Enkelt att containerisera och köra i Kubernetes

Jag konverterade EleutherAI/gpt-neo-125M till ONNX-format (via conversion.py) och byggde en FastAPI-server som sedan deployades i Minikube. Allt körs lokalt, helt frikopplat från externa tjänster.

🤖 Hallucinationer i små modeller

Små modeller som distilgpt2 och gpt-neo-125M har begränsad kapacitet. Resultatet kan bli:

upprepade fraser
felaktiga fakta (”hallucinationer”)
utliga och förutsägbara svar

Exempel:

”Kubernetes är ett open-source, open-source, open-source…”

För att minska detta kan du använda:

top-k/top-p sampling
justera temperature
sätta repetition penalty
begränsa längden på genereringen

De här modellerna passar bäst för prototyper, UI-tester och snabb utveckling. Men för produktion, QA eller kodgenerering behövs större modeller eller RAG-system – något våra AI/MLOps-konsulter ofta hjälper företag att implementera.

Sammanfattning

Med ONNX Runtime och Kubernetes kan du köra små LLM:er lokalt nästan lika enkelt som en Flask-app. Det är snabbt, privat, flexibelt – och du slipper dyra GPU:er.

Det handlar inte bara om att ”köra en modell”, utan om att möjliggöra:

Offline-tester
Effektiv utveckling i inner-loop
Självhostade AI-funktioner
Full frihet från molnberoenden

👉 För organisationer som vill börja utforska AI i Kubernetes är detta ett smart första steg. Och när det är dags att ta nästa kliv – mot produktion, moln och skalning – kan rätt DevOps-konsulttjänster och cloud-konsulter (GCP/AWS) vara avgörande för att bygga en hållbar lösning.

🚀 Ta nästa steg med AI och Kubernetes

Vill du utforska hur LLM i Kubernetes kan skapa värde för ditt företag? Våra DevOps-konsulter och AI/MLOps-konsulter hjälper dig att gå från prototyp till produktion – oavsett om du kör lokalt, i GCP, AWS eller hybridmiljö.

👉 Vi kan stötta med: