top of page

AI i Kubernetes – så kommer du igång utan dyra GPU:er

Open source-LLM (Large Language Models, stora språkmodeller) har gjort att kraftfulla AI-funktioner nu finns i händerna på utvecklare. Men även om det mesta fokuset hamnar på jättelika modeller med miljarder parametrar som körs i GPU-kluster i molnet, är det minst lika viktigt att förstå hur man kan köra mindre språkmodeller (SLM, Small Language Models) lokalt.



För test, utveckling och prototypning är det inte bara möjligt – det är ofta den mest praktiska vägen. Att köra LLM inference i Kubernetes direkt på din laptop kan spara både tid och kostnader. Det här är något som våra DevOps-konsulter och AI/MLOps-konsulter ofta stöter på, där företag vill experimentera lokalt innan de bygger större lösningar i molnet tillsammans med exempelvis en cloud-konsult för GCP eller AWS.



🖥️ Bygg en CPU-only LLM Inference Server


I det här upplägget körs hela modellen lokalt. När Docker-containern startas laddas den förtränade modellen från disk till minnet. All inferens sker sedan på din CPU (Central Processing Unit, datorns vanliga processor) helt utan externa API-anrop. Internet används bara en gång, när modellen hämtas via from_pretrained. Därefter kan du serva modellen själv via FastAPI och Docker och till och med köra helt offline om du vill.


👉 Det innebär full kontroll, hög säkerhet och inget beroende av tredjepartsleverantörer – något som ofta är en förutsättning när MLOps-konsulter bygger interna AI-plattformar.


Exempel på små modeller som fungerar bra för CPU:

  • distilgpt2

  • EleutherAI/gpt-neo-125M


Nackdelen med mindre modeller är att de oftare halllucinerar och övergeneralisera. De kan ge självsäkra men felaktiga svar, särskilt på faktabaserade frågor. Perfekt för prototyper och tester – men inget du bör använda för produktionskritiska uppgifter.



🔍 CPU eller GPU – när ska man använda vad?


  • CPU fungerar bra för modeller på cirka 125M–350M parametrar (distilgpt2, gpt2, gpt-neo-125M). På en modern laptop är prestandan fullt acceptabel.

  • GPU (Graphics Processing Unit, grafikkort) behövs när du vill köra större modeller som LLaMA 2 7B, Mistral eller Falcon 7B+. Här talar vi om krav på 12–40GB VRAM, hög minnesbandbredd och CUDA-stöd för att köra beräkningarna effektivt.


💡 Enkelt sagt:


  • För lokala tester och utveckling → kör på CPU.

  • För produktion och tyngre workloads → flytta till GPU-backade Kubernetes-noder i molnet (EKS, GKE). Här kan en cloud-konsult hjälpa dig att bygga rätt arkitektur.



🛠️ Minikube + FastAPI: så här gjorde jag


Jag byggde en FastAPI-baserad SLM inference-server och deployade den i en lokal Kubernetes-kluster med Minikube – helt utan GPU, Docker Hub eller externa beroenden.


Exempel:


Bygg lokalt:

$ docker build -t llm-api .

Ladda sedan in imagen i Minikube och deploya med kubectl apply. När allt rullar kan du anropa API:et via port-forward och curl.



🍏 Köra LLM med ONNX Runtime på macOS (M1–M4)


Om du utvecklar på Mac (M1–M4) fungerar inte GPU-backends som vLLM eller TGI native. Här är ONNX Runtime (Open Neural Network Exchange Runtime) ett riktigt bra alternativ. Det är byggt för CPU och fungerar optimalt på Apple Silicon.


Fördelar med ONNX Runtime:

  • Native stöd för macOS ARM64

  • Stöd för INT8-kvantiserade modeller (snabbt och minnesnål)

  • Ingen GPU krävs för små modeller

  • Enkelt att containerisera och köra i Kubernetes


Jag konverterade EleutherAI/gpt-neo-125M till ONNX-format (via conversion.py) och byggde en FastAPI-server som sedan deployades i Minikube. Allt körs lokalt, helt frikopplat från externa tjänster.


🤖 Hallucinationer i små modeller


Små modeller som distilgpt2 och gpt-neo-125M har begränsad kapacitet. Resultatet kan bli:

  • upprepade fraser

  • felaktiga fakta (”hallucinationer”)

  • utliga och förutsägbara svar


Exempel:

”Kubernetes är ett open-source, open-source, open-source…”

För att minska detta kan du använda:


  • top-k/top-p sampling

  • justera temperature

  • sätta repetition penalty

  • begränsa längden på genereringen


De här modellerna passar bäst för prototyper, UI-tester och snabb utveckling. Men för produktion, QA eller kodgenerering behövs större modeller eller RAG-system – något våra AI/MLOps-konsulter ofta hjälper företag att implementera.


Sammanfattning


Med ONNX Runtime och Kubernetes kan du köra små LLM:er lokalt nästan lika enkelt som en Flask-app. Det är snabbt, privat, flexibelt – och du slipper dyra GPU:er.


Det handlar inte bara om att ”köra en modell”, utan om att möjliggöra:

  • Offline-tester

  • Effektiv utveckling i inner-loop

  • Självhostade AI-funktioner

  • Full frihet från molnberoenden


👉 För organisationer som vill börja utforska AI i Kubernetes är detta ett smart första steg. Och när det är dags att ta nästa kliv – mot produktion, moln och skalning – kan rätt DevOps-konsulttjänster och cloud-konsulter (GCP/AWS) vara avgörande för att bygga en hållbar lösning.



🚀 Ta nästa steg med AI och Kubernetes


Vill du utforska hur LLM i Kubernetes kan skapa värde för ditt företag? Våra DevOps-konsulter och AI/MLOps-konsulter hjälper dig att gå från prototyp till produktion – oavsett om du kör lokalt, i GCP, AWS eller hybridmiljö.


👉 Vi kan stötta med:

  • Arkitektur och design av AI-plattformar

  • Implementation av infrastruktur som kod

  • Drift och optimering i Kubernetes

  • Säkerhet, DevSecOps och skalning i molnet


💡 Hör av dig till oss så berättar vi hur vi kan hjälpa dig att bygga en framtidssäker AI-lösning.




Kommentarer


bottom of page