top of page

De bästa open source-verktygen för AIOps

Efter flera år av att bygga och drifta LLM-baserade system i produktion finns det en sak som blivit väldigt tydlig: det går inte att arbeta långsiktigt med AI utan ordentlig De bästa open source-verktygen för AIOpsmätbarhet, struktur och kontroll.



I början fungerar det ofta ändå. Någon justerar prompts direkt i kod. Någon testar manuellt i ChatGPT. Logs saknas eller är ofullständiga. Utvärderingar görs genom att titta på några enstaka outputs i en notebook.


Men ju fler AI-funktioner som går live, desto snabbare börjar den tekniska skulden växa.

Inte bara för utvecklaren som byggt lösningen — utan för hela organisationen.

Det positiva är att open source-ekosystemet för AI har mognat snabbt de senaste åren. Idag finns det riktigt bra verktyg för att bygga stabila, skalbara och säkra AI-plattformar utan att låsa sig till en specifik leverantör.


AIOps — alltså arbetet med att drifta, övervaka och kvalitetssäkra AI-system och LLM:er — är inte längre något som bara stora AI-bolag arbetar med. Det är fullt möjligt för företag och IT-organisationer att implementera redan idag.


I mitt arbete finns det framför allt fyra verktyg som jag tycker sticker ut och som tillsammans skapar en väldigt stark grund för modern AI-drift:


  • Langfuse — för tracing, prompt management och AI observability

  • LiteLLM — för routing och styrning av modellanrop mellan olika AI-modeller

  • Promptfoo, DeepEval och Ragas — för automatiserad AI-utvärdering och regressionstester

  • Guardrails AI — för validering, säkerhet och strukturerade outputs


Här nedanför går jag igenom varför just de här verktygen blivit centrala i mitt sätt att arbeta med AI-system i produktion.



Langfuse: en central plattform för observability och prompt management


En av de vanligaste utmaningarna i AI-projekt är egentligen ganska enkel:

man vet inte riktigt vad modellen faktiskt gör i produktion.


Det är här Langfuse kommer in.


Langfuse är en open source-plattform för LLM engineering som gör betydligt mer än bara tracing. Plattformen fungerar som en central “source of truth” där prompts, tracing-data, utvärderingar, kostnader och feedback samlas på ett ställe.


Det gör enorm skillnad när AI-system börjar bli mer komplexa.


Det här är framför allt det som gör Langfuse så användbart


⮑ Full observability för AI-system

Inputs, outputs, latency, token-användning, kostnader och metadata loggas genom hela AI-flödet, även vid komplexa agentflöden och multi-step-processer.


Det gör det betydligt enklare att förstå varför ett AI-system beter sig som det gör.


Prompt management som faktiskt fungerar i praktiken

Prompts kan versionshanteras, taggas och rollbackas utan att applikationen behöver deployas om. Istället hämtar applikationen aktuell produktionsprompt dynamiskt vid runtime, vilket gör att utvecklingsteam och verksamhet kan iterera snabbare utan att fastna i releaseprocesser.


⮑ Inbyggda AI-utvärderingar och datasets

Langfuse gör det möjligt att köra modellbaserade utvärderingar direkt mot produktionsdata, bygga regressionstester från verklig trafik och upptäcka kvalitetsförsämringar innan användarna påverkas.


I praktiken innebär det att nya prompts kan rullas ut, övervakas i realtid och automatiskt återställas om kvaliteten försämras för mycket.



LiteLLM: ett gemensamt lager för alla LLM-anrop


LiteLLM har snabbt blivit en av de mest intressanta open source-lösningarna för routing och hantering av språkmodeller.


Istället för att bygga separata integrationer mot exempelvis OpenAI, Anthropic, Azure OpenAI, AWS Bedrock eller Google Vertex använder applikationen ett enda standardiserat API-anrop.


LiteLLM hanterar resten.


Och det sparar väldigt mycket tid.


Några funktioner som gör stor skillnad i praktiken


Automatisk routing och failover

LiteLLM hanterar provider-val, retries, fallbacks och rate limiting automatiskt.

Om en modell går ner eller blir långsam kan trafiken automatiskt skickas vidare till en annan modell utan att applikationen påverkas.


  Ett gemensamt gränssnitt för över 100 modeller

Samma API fungerar mot OpenAI, Anthropic, Cohere, Mistral, Ollama, vLLM, AWS Bedrock, Azure OpenAI och många fler. Det minskar leverantörslåsning och gör AI-arkitekturen betydligt enklare att underhålla.


  Inbyggd observability

LiteLLM integrerar direkt med verktyg som Langfuse, OpenTelemetry, Helicone och Arize Phoenix. Alla modellanrop loggas och spåras automatiskt.


  Kostnadskontroll och budgethantering

Kostnader kan följas upp per användare, team, projekt eller API-nyckel.

Det går också att sätta budgetgränser för att undvika att AI-kostnader skenar iväg.


✦  Central policyhantering

Rate limits, modellåtkomst och användarpolicys kan styras centralt istället för att ligga utspritt i applikationskoden. Det gör lösningen betydligt enklare att drifta och skala över tid.



Python-baserade evalueringsverktyg: så mäter man AI-kvalitet på riktigt


Observability visar vad som hänt.


Routing visar vart requests skickats.


Men inget av det säger egentligen om resultatet faktiskt var bra.


Det är här moderna AI-utvärderingsverktyg kommer in.


Open source-ekosystemet har utvecklats snabbt och idag finns det flera riktigt bra ramverk för att systematiskt mäta kvalitet i generativ AI.


Tre verktyg som jag tycker sticker ut är:


  1. Promptfoo


Promptfoo är ett CLI-baserat verktyg för att jämföra prompts och modeller.

Det integreras smidigt i CI/CD-flöden och kan stoppa pull requests som försämrar kvaliteten mot definierade testdataset.


En sak jag tycker är extra bra är att Promptfoo också innehåller avancerade funktioner för red teaming och säkerhetstester, exempelvis:

  • Prompt injection

  • Jailbreak-försök

  • PII-extraktion

  • Adversarial attacks


  1. DeepEval

DeepEval brukar beskrivas som “pytest för LLM:er”.

Det integrerar AI-utvärdering direkt i Python-baserade testflöden och innehåller färdiga metoder för att mäta bland annat:

  • Faktakorrekthet

  • Relevans

  • Bias

  • Toxicitet

  • Hallucinationer

Det fungerar både för löpande övervakning och mer traditionella tester.

3. Ragas


Ragas är byggt specifikt för RAG-system (Retrieval-Augmented Generation).


Det mäter exempelvis:

  • Retrieval-kvalitet

  • Kontextrelevans

  • Faithfulness i svaren


Och det gör det betydligt enklare att förstå om ett RAG-system faktiskt fungerar som tänkt.



Ett modernt AI-testflöde i praktiken


När en utvecklare öppnar en pull request som ändrar en prompt kan ett CI-jobb:

  1. Hämta produktionsdata från Langfuse

  2. Köra tester via LiteLLM

  3. Mäta resultaten med exempelvis DeepEval eller Promptfoo

  4. Publicera regressioner direkt i pull requesten

Det gör att teamet kan fatta beslut baserat på data istället för magkänsla.

Och det är faktiskt en ganska stor skillnad jämfört med hur många AI-projekt fortfarande arbetar idag.



Guardrails AI: säkerhet och validering vid runtime


Även om man har bra observability och tydliga utvärderingar behövs fortfarande skydd direkt vid inference.


LLM:er kan fortfarande:


  • Generera trasig JSON

  • Läcka känslig information

  • Hallucinera källor

  • Bryta mot interna policies


Guardrails AI fungerar som ett skyddslager mellan modellen och applikationen.


Det här är framför allt det jag tycker är mest användbart.


Strukturerade outputs

Schemas definieras i kod och outputs som inte uppfyller kraven kan:

  • Nekas

  • Repareras

  • Genereras om automatiskt

Det är särskilt viktigt i agentbaserade AI-lösningar och tool-calling workflows.


⮑ Inbyggd innehållsvalidering

Guardrails kan kontrollera exempelvis:

  • PII

  • Toxicitet

  • Prompt injections

  • Policybrott

  • Off-topic-svar


Egna domänspecifika regler

Det går också att skapa egna regler beroende på verksamhetens krav.

Exempelvis:

  • Finansiella disclaimers

  • Medicinska begränsningar

  • Juridiska krav


Middleware för hela AI-stackar

Guardrails kan integreras direkt med LiteLLM och appliceras konsekvent över alla modeller och leverantörer.


Det gör att säkerhet och policyhantering blir betydligt enklare att standardisera.



Så fungerar verktygen tillsammans i en modern AIOps-arkitektur


Det som gör de här verktygen så starka är att de kompletterar varandra väldigt bra.

Ett vanligt AI-flöde kan exempelvis se ut så här:


  1. Applikationen skickar en request till LiteLLM

  2. Guardrails AI validerar input och kontrollerar policykrav

  3. LiteLLM väljer modell och hanterar routing, retries och budgetar

  4. Modellens output valideras igen av Guardrails AI

  5. All tracing-data skickas till Langfuse

  6. Produktionsdata används sedan i Promptfoo, DeepEval eller Ragas för automatiserade utvärderingar och regressionstester


Varje verktyg löser egentligen sitt eget problemområde:

  • Routing

  • Säkerhet

  • Observability

  • Kvalitetsmätning


Tillsammans blir det en väldigt stabil grund för företag som bygger AI-lösningar i produktion.



Slutsats


Att bygga AI-system i produktion handlar idag om betydligt mer än att bara välja rätt modell. Det handlar om observability, governance, säkerhet, kostnadskontroll och kvalitetssäkring över tid.


För mig har Langfuse, LiteLLM, Promptfoo, DeepEval, Ragas och Guardrails AI blivit några av de mest intressanta open source-verktygen för att skapa stabila och skalbara AI-plattformar.


Det kräver lite arbete att sätta upp rätt arkitektur från början.


Men vinsterna är stora:


  • bättre kontroll

  • bättre kvalitet

  • bättre säkerhet

  • bättre skalbarhet


Och framför allt, det blir möjligt att faktiskt drifta AI på ett långsiktigt och professionellt. sätt.



Vill ni komma igång med AIOps?


Att bygga stabila AI-lösningar i produktion kräver rätt arkitektur, observability och governance — och det blir snabbt mer komplext än många tror.


Hos oss jobbar våra AI- och AIOps-konsulter dagligen med generativ AI, LLM-plattformar och moderna AI-lösningar för företag och organisationer.


Vill ni ha hjälp att bygga, förbättra eller skala era AI-lösningar?





Eller hör av er till vår kollega Ronnie Qvist direkt, så hjälper han er vidare.


AIOps-konsulter på SDNit


📲 +46 791 04 70 00

Kommentarer


bottom of page