Wenn ein KI-Agent die endgültige Antwort liefert, besteht der nächste Schritt darin, zu erklären, wie der Agent dorthin gelangt ist. Leider können viele Teams den vom Agenten eingeschlagenen Pfad, den abgerufenen Kontext, die aufgerufenen Tools und die am Ende ausgelöste Geschäftsaktion nicht rekonstruieren.

KEY TAKEAWAYS

AI agent observability is not just LLM monitoring. It shows the full execution path of an agent: what it saw, what context it used, which tools it called, what it changed, where it failed, and whether the system should have allowed that action.

Metrics show symptoms, but traces explain behavior. Latency, cost, errors, and tool-call rates are useful, but they do not explain why an agent made a wrong decision. End-to-end tracing shows the step where the problem entered the workflow.

The more autonomy an agent has, the more observability it needs. A chatbot can be reviewed by reading the final answer. An agent connected to CRM, EHR, billing, support, or internal tools needs audit trails, permissions, guardrails, evaluation, and human override paths.

Observability must be designed before production, not added after launch. A dashboard cannot show tool calls, context choices, approvals, or memory updates that were never recorded. For production AI agents, observability is part of the architecture, not a reporting layer added later.

Dieser blinde Fleck wird als Sichtbarkeitslücke bezeichnet. Sie ist die Distanz zwischen dem, was ein Agent getan hat, und dem, was seine Bediener im Nachhinein nachvollziehen können. Bei einem Chatbot sind die Kosten für diese Lücke gering, da das Lesen der Antwort die meisten benötigten Informationen liefert. Bei einem Agenten, der Datensätze aus einem CRM abruft, in ein Abrechnungssystem schreibt oder eine Patientenakte aktualisiert, ist die Antwort der kleinste Teil dessen, was geschehen ist.

Die Lücke weitet sich mit der Zeit aus. Deloittes Bericht „State of AI in the Enterprise 2026“ ergab, dass 74 % der Unternehmen erwarten, KI-Agenten bis 2027 zumindest moderat einzusetzen, während nur 21 % ein ausgereiftes Governance-Modell für diese Agenten angeben. Teams gewähren Agenten Autonomie schneller, als sie diese erklären können.

Gartner schätzt die Kosten dieses Ungleichgewichts und prognostiziert, dass mehr als 40 % der agentenbasierten KI-Projekte bis Ende 2027 abgebrochen werden aufgrund steigender Kosten, unklarem Geschäftswert oder unzureichender Risikokontrollen.

Observability ist die Kontrollschicht zwischen diesen beiden Zahlen. Wenn Sie sie so früh wie möglich in die Architektur integrieren, bleibt ein autonomes System überprüfbar. Wird sie jedoch erst nach dem Start als Dashboard hinzugefügt, fehlen die wichtigsten Beweise möglicherweise bereits.

KI-Agenten-Observability: Die kurze Antwort

Die Observability von KI-Agenten ist die Praxis des Nachverfolgens, Messens, Bewertens und Überwachens, wie sich ein KI-Agent über einen vollständigen Workflow hinweg verhält. Sie zeichnet die Modellaufrufe, Prompts, abgerufenen Kontexte, Tool-Aufrufe, Speicheroperationen, Übergaben, Guardrail-Prüfungen, Latenz, Kosten, Fehler, menschliche Eingriffe und Geschäftsergebnisse auf, die einen einzelnen Agentenlauf ausmachen.

Sie unterscheidet sich von der grundlegenden LLM-Observability in entscheidender Hinsicht. Ein Sprachmodell generiert Text, daher deckt die Beobachtung des Prompts und der Vervollständigung den Großteil der relevanten Aspekte ab. Ein Agent handelt. Er ruft Tools auf, greift auf externe Systeme zu und ändert Daten, daher muss die Observability diesen Aktionen folgen und nicht nur den Worten um sie herum.

Auf einen Satz reduziert ist die Observability von KI-Agenten die Fähigkeit, zu rekonstruieren, was während eines Agentenlaufs geschah: was der Benutzer gefragt hat, welchen Kontext der Agent verwendet hat, welche Modell- und Prompt-Version geantwortet hat, welche Tools er aufgerufen hat, was er geändert hat, was fehlgeschlagen ist, was es gekostet hat und wo ein Mensch eingegriffen hat.

Was ist KI-Agenten-Observability?

AI agent observability diagram showing an agent run captured from input through context, model and prompt, tools, approval, and output, with traces, metrics, logs, cost, latency, and failure markers recorded in a replayable trace. — Die Observability von KI-Agenten zeichnet auf, was während eines Agentenlaufs geschah, damit Teams das Verhalten im Nachhinein überprüfen können. Eine wiederholbare Nachverfolgung zeigt den verwendeten Kontext, die Modell- und Prompt-Version, die aufgerufenen Tools, die berührten Systeme, Genehmigungen, Kosten, Latenz, Fehler und die endgültige Ausgabe.

Die Observability von KI-Agenten ist die Sichtbarkeitsschicht für Systeme in der Produktion, bei denen ein Sprachmodell mit Tools, Daten, Speicher, APIs, Workflows und menschlichen Genehmigungen verbunden ist. Entfernt man das Modell aus dieser Beschreibung, bleibt gewöhnliche verteilte Software übrig, die Ingenieurteams bereits zu überwachen wissen.

Herkömmliche Observability basiert auf drei Signalen: Traces, die eine Anfrage verfolgen, während sie sich durch ein verteiltes System bewegt; Metriken, die zählen, was das System tut; und Logs, die diskrete Ereignisse aufzeichnen. OpenTelemetry, der Open-Source-Standard für Cloud-native Observability, dient dazu, diese Signale in einem konsistenten Format zu erfassen. Die Agenten-Observability nutzt dieselbe Maschinerie und richtet sie auf ein schwierigeres Ziel. Eine traditionelle Anfrage folgt dem Code, den ein Ingenieur geschrieben hat und lesen kann. Ein Agentenlauf folgt den Entscheidungen, die das Modell zur Laufzeit getroffen hat, und jede dieser Entscheidungen hätte anders ausfallen können.

Die Aufgabe verlagert sich also von der Bestätigung, dass Code ausgeführt wurde, zur Rekonstruktion dessen, was der Agent entschieden hat. Eine nützliche Observability-Schicht ermöglicht es einem Team, eine bestimmte Reihe von Fragen zu jedem einzelnen Lauf zu beantworten:

Was hat der Agent empfangen?
Welchen Kontext hat es abgerufen?
Welches Modell und welche Prompt-Version haben die Antwort erzeugt?
Welche Tools hat es aufgerufen?
Auf welche Berechtigungen hat es sich gestützt?
Welche externen Systeme hat es berührt?
Hat es den vorgesehenen Workflow eingehalten?
Hat es eskaliert, als die Situation es erforderte?
Wo traten Latenz, Kosten oder Fehler auf?
Kann der Durchlauf wiedergegeben, geprüft und bewertet werden?

Für Teams, die den Architekturansatz verfolgen, hängen die Antworten von Entscheidungen ab, die lange vor dem Start getroffen wurden. Sobald ein Agent mit einem CRM, einem EHR, einem LMS oder einer Abrechnungsplattform verbunden ist, sind die Trace-Struktur, das Berechtigungsmodell, der Eskalationspfad und die Evaluationsschleife bereits durch die Art und Weise festgelegt, wie das System gebaut wurde. Das nachträgliche Einpassen dieser Aufzeichnung in ein System, das seine eigenen Schritte nie erfasst hat, bedeutet einen Neuaufbau des Systems. Teams, die ihre Agenten inspizieren können, haben die Aufzeichnung in die Architektur integriert, anstatt sie nachträglich hinzuzufügen.

Beobachtbarkeit von KI-Agenten vs. Beobachtbarkeit von LLMs

Teams verwenden die beiden Begriffe, als wären sie identisch. Sie decken unterschiedliche Bereiche ab. Die LLM-Beobachtbarkeit überwacht die Interaktion mit dem Modell. Sie umfasst den eingegebenen Prompt, die zurückgegebene Vervollständigung, die verbrauchten Tokens, die Latenz und die Kosten. Und sie beantwortet eine Frage gut: Hat das Modell eine gute Antwort erzeugt?

Die Beobachtbarkeit von KI-Agenten überwacht den Ausführungspfad um das Modell herum. Derselbe Modellaufruf wird zu einem Span innerhalb eines längeren Durchlaufs, der auch Abruf, Tool-Auswahl, Tool-Eingaben und -Ausgaben, Speicherlese- und -schreibvorgänge, Guardrail-Prüfungen, Übergaben, Wiederholungsversuche und die Aktion des Agenten am Ende umfasst. Sie beantwortet eine viel umfassendere Frage: Hat sich das System über den gesamten Workflow hinweg korrekt verhalten?

Dimension	LLM observability	AI agent observability
Main object	A single model call	A full agent run
What it tracks	Prompt, completion, tokens, latency, cost	Model calls, tool calls, retrieval, memory, handoffs, guardrails, workflow actions
Core question	Did the model produce a good response?	Did the system behave correctly across the workflow?
Typical failures	Hallucination, high latency, an expensive prompt	Wrong tool call, stale context, a retry loop, an unauthorized action, a failed handoff
Visibility needed	Prompt-and-completion trace	End-to-end execution trace
Business risk	A bad answer	A bad action: a wrong data update, a compliance breach, an operational failure

Die LLM-Beobachtbarkeit wird hier nicht obsolet, da ein Team immer noch wissen muss, wann das Modell halluzinierte, sich verlangsamte oder einen teuren Prompt ausführte. Sichtbarkeit auf Modellebene ist notwendig und für sich genommen unvollständig, da das Modell nun eine Komponente in einem System ist, das auf die Welt einwirken kann. Die LLM-Beobachtbarkeit sagt Ihnen, was um das Modell herum geschah. Die Beobachtbarkeit von KI-Agenten sagt Ihnen, was um das Modell, die Tools, den Workflow und die Geschäftsaktion herum geschah.

Jüngste Forschungsergebnisse argumentieren dasselbe aus der Evaluationsperspektive. Eine Umfrage aus dem Jahr 2026 zur Ausführungsprovenienz in LLM-Agenten, Von Agenten-Traces zu Vertrauen, stellt fest, dass die Genauigkeit der Endantwort nicht vollständig erklären kann, wie eine Ausgabe erzeugt wurde, da zwei Durchläufe, die dieselbe Antwort liefern, sich in Zuverlässigkeit, Sicherheit und Prüfbarkeit unterscheiden können, und eine korrekte Antwort immer noch von einem unnötigen oder gegen Richtlinien verstoßenden Tool-Aufruf stammen kann, von denen nichts in der endgültigen Antwort erscheint.

Warum KI-Agenten eine Sichtbarkeitslücke erzeugen

Die Sichtbarkeitslücke ist das zentrale Problem, und sie resultiert daraus, dass ein KI-Agent über Schritte, Systeme, Tools und Berechtigungen hinweg arbeitet, wobei jeder Schritt ein Punkt ist, an dem der Durchlauf schiefgehen kann, ohne dass sich die Ausgabe ändert.

Die eingangs erwähnten Erkenntnisse von Deloitte und Gartner beschreiben diese Lücke von außen. So sieht es von innen aus. Verfolgen Sie einen Durchlauf von Anfang bis Ende:

Benutzeranfrage → abgerufener Kontext → Prompt-Zustand → Modellentscheidung → Tool-Aufruf → Antwort des externen Systems → Speicheraktualisierung → Agentenaktion → Endgültige Ausgabe → Geschäftliche Konsequenz

Jeder Pfeil steht für eine Übergabe, bei der etwas schiefgehen kann. Wenn die Observability nur das letzte Feld, die endgültige Ausgabe, erfasst, verliert das Team die Beweise, die jedes Feld davor erklären würden. Die Ausgabe kann korrekt erscheinen, während der Pfad, der sie erzeugt hat, falsch war.

Die Fehler, die sich in diesem Pfad verbergen, sind konkret:

Der Agent ruft veralteten oder irrelevanten Kontext ab und schließt aus falschen Fakten.
Der Agent wählt das falsche Tool für die Aufgabe.
Ein Tool-Aufruf ist technisch erfolgreich und liefert dennoch das falsche Geschäftsergebnis.
Der Agent gerät in eine Wiederholungsschleife und verursacht Kosten, ohne Fortschritte zu erzielen.
Der Agent überspringt eine menschliche Genehmigung, die der Workflow erforderte.
Der Agent legt sensible Daten offen.
Der Agent aktualisiert ein CRM, eine Ticketing-Warteschlange, ein EHR, ein LMS oder einen Abrechnungsdatensatz falsch.
Der Agent versagt unbemerkt, weil keine Spur die endgültige Ausgabe mit den Schritten verbindet, die sie erzeugt haben.

Jedes davon kann passieren, während die Antwort als Erfolg gewertet wird. Die Forschung zur Ausführungsherkunft macht die gleiche Beobachtung: Eine korrekte Antwort kann aus einem unnötigen oder richtlinienverletzenden Tool-Aufruf resultieren, und die Genauigkeit der Endergebnisse wird dies nicht aufdecken. OWASP benennt die Version dieses Risikos, die zuschlägt, sobald ein Agent handeln kann. Dessen übermäßige Handlungsfähigkeit Kategorie beschreibt schädigende Aktionen, die als Reaktion auf unerwartete, mehrdeutige oder manipulierte Modellausgaben ergriffen werden, ermöglicht durch übermäßige Funktionalität, Berechtigungen oder Autonomie, die das System gewährt hat.

Die Sichtbarkeitslücke ist kein fehlendes Dashboard. Sie ist die Unfähigkeit, den Pfad des Agenten vom Kontext zur Aktion zu rekonstruieren.

Zentrale Metriken zur Beobachtbarkeit von KI-Agenten

AI agent observability metrics dashboard showing an agent run connected to six diagnostic metric categories: performance, LLM cost, context, behavior, governance, and business outcome. — Die Observability von KI-Agenten sollte Metriken um das herum organisieren, was Teams in der Produktion diagnostizieren müssen. Ein nützliches Dashboard verbindet jeden Agentenlauf mit Zuverlässigkeit, Kosten, Kontextqualität, Agentenverhalten, Governance-Risiko und Geschäftsergebnissen.

Eine Liste von vierzig Metriken hilft niemandem. Eine Metrik ist dann sinnvoll, wenn sie eine Frage beantwortet, die ein Team klären muss. Die nützliche Art, sie zu organisieren, ist daher nach dem, was sie diagnostizieren. Sechs Kategorien decken einen Agenten im Betrieb ab.

Category	What it diagnoses	Representative metrics
System performance	Whether the agent system is technically reliable	Latency, throughput, error rate, timeout rate, retry rate, availability, queue time
LLM usage and cost	Where tokens and money go, and under which configuration	Input, output, and total tokens; cost per run; cost per completed workflow; model version; prompt version; temperature and configuration
Retrieval and context	Whether the agent reasoned over the right material	Context precision, context recall, context relevance, faithfulness, groundedness, answer relevance
Agent behavior	Whether the agent chose and acted correctly	Tool-call success, accuracy, failure, and retry rates; agent goal accuracy; loop rate; handoff rate; escalation rate; human override rate; task completion rate
Risk and governance	Whether the agent stayed inside its authority	Unauthorized tool attempts, sensitive-data exposure, policy-violation rate, guardrail-trigger rate, approval-bypass attempts, high-risk-action frequency, audit completeness
Business outcome	Whether the workflow produced value	Successful task completion, time saved per workflow, cost per resolved issue, revenue-workflow accuracy, ticket-deflection quality, CRM update accuracy, clinical or admin workflow completion, user correction rate

Einige dieser Kategorien tragen den Großteil zur Diagnose bei.

Abruf- und Kontextmetriken entscheiden, ob der Agent das richtige Material verarbeitet hat. Ragas definiert Kontextpräzision als die Fähigkeit des Retrievers, relevante Textabschnitte über irrelevante zu reihen, und kombiniert sie mit Recall, Faithfulness und Groundedness, um eine fundierte Antwort von einer selbstbewussten Vermutung zu unterscheiden. Eine falsche Antwort bei korrektem Abruf deutet auf den Prompt hin. Eine falsche Antwort bei schlechtem Abruf deutet auf die vorgelagerte Abrufschicht hin. Die Metrik sagt dem Team, was behoben werden muss.

Agentenverhaltensmetriken entscheiden, ob der Agent korrekt gewählt und gehandelt hat. Ragas definiert die Zielgenauigkeit des Agenten als binäre Messgröße dafür, ob der Agent das Ziel des Benutzers identifiziert und erreicht hat. Tool-Call-Genauigkeit, Schleifenrate, Übergaberate, Eskalationsrate und Rate menschlicher Übersteuerung wandeln die Entscheidungen des Agenten in Zahlen um, die ein Team über die Zeit beobachten kann.

Risiko- und Governance-Metriken entscheiden, ob der Agent innerhalb seiner Befugnisse geblieben ist. Die OWASP-Schwachstelle für übermäßige Agentenbefugnisse ist der Grund für die Existenz dieser Kategorie. Unautorisierte Tool-Versuche, Guardrail-Auslöser und Versuche zur Umgehung von Genehmigungen sind frühe Anzeichen dafür, dass ein Agent sein Mandat überschreitet, oft bevor eine einzelne Aktion sichtbaren Schaden anrichtet. Die GenAI-Konventionen von OpenTelemetry standardisieren die Attribute für Token-Nutzung und Modellaufrufe, von denen die Kostenkategorie abhängt, was diese Zahlen über verschiedene Tools hinweg vergleichbar macht.

Die richtige Auswahl hängt vom Workflow ab. Ein Vertriebsrecherche-Agent und ein Radiologie-Workflow-Assistent sollten kein Dashboard teilen. Der eine benötigt Kontosignal-Genauigkeit und CRM-Aktionsverfolgbarkeit. Der andere benötigt Datenzugriffsverfolgbarkeit, Abdeckung durch menschliche Überprüfung und Audit-Bereitschaft. Die wichtigste Metrik ist diejenige, die mit der Aktion verknüpft ist, die der Agent ausführen darf.

Tracing: Die wichtigste Schicht

Metriken sagen einem Team, dass etwas passiert ist. Traces zeigen, wie es passiert ist, und dieser Unterschied entscheidet, ob ein Fehler diagnostiziert oder nur bemerkt werden kann.

Ein Trace ist die Aufzeichnung eines Agentenlaufs. Ein Span ist eine Operation innerhalb dieses Laufs: ein Modellaufruf, ein Abruf, ein Tool-Aufruf, eine Guardrail-Prüfung. Ordnet man die Spans in der richtigen Reihenfolge an, wird der Trace zur Dokumentation der Arbeit des Agenten.

Ein nützlicher Agenten-Trace zeichnet auf:

Die Benutzereingabe
Der System-Prompt und die Anweisungsversion
Jeder Modellaufruf
Die abgerufenen Dokumente oder der Kontext
Das ausgewählte Tool, seine Eingaben und seine Ausgaben
Guardrail-Prüfungen
Speicherlese- und -schreibvorgänge
Übergaben zwischen Agenten oder Schritten
Wiederholungsversuche
Fehler
Menschliche Genehmigungen
Die endgültige Ausgabe
Die erfolgte Geschäftsmaßnahme

Das OpenAI Agents SDK verfolgt diesen Ansatz in der Praxis. Sein Tracing erfasst einen Verlauf eines Agentenlaufs über Modellgenerationen, Tool-Aufrufe, Übergaben und Schutzmechanismen hinweg, und OpenTelemetry standardisiert dieselben Spans, sodass sie in den bestehenden Observability-Stack eines Teams gelangen. Tools wie Arize Phoenix erfassen Modellaufrufe, Retrieval und Tool-Nutzung Schritt für Schritt.

Betrachten wir einen konkreten Fall. Codebridge entwickelte RecruitAI, eine Multi-Agenten-Rekrutierungsplattform für ein US-amerikanisches Technologieunternehmen, die die Einstellungszeit von 24 auf 10 Tage verkürzte, wobei bei jeder endgültigen Entscheidung eine menschliche Aufsicht gewährleistet war. Ein Durchlauf dort ist nicht ein einziger Modellaufruf. Das System prüft einen Kandidaten, führt eine technische Validierung durch, bewertet die Passung für eine Rolle und übergibt eine engere Auswahl an einen Personalvermittler zur Entscheidung. Ist die engere Auswahl falsch, könnte die Ursache in jedem Schritt liegen: ein Screening-Prompt, der ein Signal überbewertet hat, ein Validierungstool, das einen Test falsch bewertet hat, ein veraltetes Rollenprofil im abgerufenen Kontext oder eine Übergabe, die ein für den Personalvermittler wichtiges Kennzeichen fallen gelassen hat. Ein Trace zeigt, welcher. Eine Bewertung allein zeigt nur, dass die engere Auswahl nicht stimmte.

Ein Log besagt, dass der Agent fehlgeschlagen ist. Ein Trace zeigt, wo der Fehler ins System gelangt ist.

Evaluierung und Überwachung

Observability bedeutet nicht nur, die Produktion zu überwachen. Dieselben Traces und Metriken sollten in die Qualitätskontrolle einfließen: Evaluierung vor der Veröffentlichung, Überwachung danach und menschliche Überprüfung für die Läufe, die das größte Risiko bergen.

Die Offline-Evaluierung erfolgt vor der Veröffentlichung. Sie testet den Agenten anhand bekannter Szenarien. Kann er das richtige Tool auswählen, eine unsichere Aktion ablehnen, eskalieren, wenn er sollte, und nur aus genehmigten Quellen antworten? OpenAIs Leitfaden zu Evaluierungen argumentiert, dass generative Systeme variabel sind, sodass die für deterministische Software entwickelten Testmethoden sie nicht abdecken. Anthropic definiert eine Evaluierung als einen Test mit einer definierten Eingabe und Bewertungslogik, die den Erfolg misst – eine Disziplin, die verhindert, dass das Verhalten eines Agenten zwischen den Versionen abweicht.

Das Online-Monitoring läuft in der Produktion. Es verfolgt reale Interaktionen, Latenz, Kosten, Fehler, Benutzerfeedback und Drift und fängt die Probleme ab, die erst auftreten, wenn echte Benutzer und echte Daten das System erreichen.

Menschliche Überprüfung und Kalibrierung decken die Hochrisiko-Workflows ab. Menschen lesen Traces, kennzeichnen Fehler, kalibrieren die Bewertung, die ein LLM als Richter erstellt, und genehmigen Änderungen, bevor sie ausgeliefert werden. Ragas liefert die Metriken, die diese Überprüfung über RAG- und Agenten-Workflows hinweg wiederholbar machen.

Die drei Ebenen beantworten drei verschiedene Fragen. Die Evaluierung fragt, ob der Agent gut genug war. Das Monitoring fragt, ob er in der Produktion noch gut genug ist. Tracing beantwortet die Frage, die die anderen beiden aufwerfen: Was genau geschah, als er es nicht war.

Was eine KI-Observability-Plattform tatsächlich zeigen sollte

Der Markt ist voll von KI-Observability-Plattformen, und ein Vergleich anhand von Funktionen verfehlt den Punkt. Eine Plattform bewährt sich, indem sie den vollständigen operativen Pfad eines Agenten zeigt, nicht nur ein ordentliches Protokoll von Prompts und Antworten.

Eine seriöse Plattform sollte Folgendes aufzeigen:

End-to-End-Traces
Modellaufrufe, mit Prompt- und Modellversionen
Abgerufener Kontext
Tool-Aufrufe mit Eingaben und Ausgaben
Übergaben
Guardrail-Prüfungen
Latenz, Token-Nutzung und Kosten
Fehler und Wiederholungsversuche
Bewertungsergebnisse
Menschliches Feedback
Status des Geschäftsworkflows
Benachrichtigungen
Rollenbasierter Zugriff, Datenmaskierung und Schwärzung
Export in den umfassenderen Observability-Stack des Teams

Die Plattform ist wichtig, und das Design der Instrumentierung ist noch wichtiger. Ein Dashboard kann keinen Tool-Aufruf, keinen Genehmigungsschritt oder keine Speicheraktualisierung anzeigen, die das System nie aufgezeichnet hat.

Observability in realen Workflows: HealthTech, EdTech, SaaS

Was ein Agent zeigen muss, hängt davon ab, worauf er zugreifen kann. Ein schreibgeschützter Assistent und ein Agent mit Schreibzugriff auf Produktionsdaten erfordern unterschiedliche Observability, selbst wenn sie dasselbe Modell verwenden. Vier Bereiche verdeutlichen den Unterschied.

HealthTech: Auditierbarkeit vor Autonomie

Im klinischen Umfeld muss die Observability zeigen, auf welche Patienten- oder klinischen Daten der Agent zugegriffen hat, ob er einen Vorschlag gemacht oder eine Aktion ausgeführt hat, wo ein Mensch die Arbeit überprüft hat, was für die Prüfung protokolliert wurde und ob sensible Daten geschützt blieben. Das NIST AI Risk Management Framework nennt die Eigenschaften, die ein vertrauenswürdiges System aufweisen muss: valide und zuverlässig, sicher und widerstandsfähig, rechenschaftspflichtig und transparent, erklärbar und interpretierbar, datenschutzfreundlich und fair. Im Gesundheitswesen sind dies keine Bestrebungen. Es sind Prüfanforderungen.

Codebridge entwickelte RadFlow AI, einen KI-gestützten Radiologie-Workflow-Assistenten, genau nach diesem Standard. Es handelt sich um einen HIPAA-konformen diagnostischen Arbeitsbereich, der in die bestehende PACS-Infrastruktur integriert ist und Radiologen unterstützen soll, anstatt sie zu ersetzen.

Die Ergebnisse wurden vom Clinical AI Governance Board des Kunden und einer unabhängigen Doppelblindstudie validiert: Die Berichtszeit sank von 15,2 auf 9,4 Minuten pro Studie bei über 4.800 CT-Fällen, das System erreichte eine Akzeptanzschwelle von 93 % in einer Doppelblindstudie mit 2.400 Fällen, und die falsch positiven Ergebnisse fielen von 4,1 auf 0,4 pro Studie.

Keine dieser Zahlen ist aussagekräftig ohne die dahinterliegende Observability: die Zugriffslogs, die menschlichen Prüfpunkte und die Audit-Trails, die einem Governance-Gremium überhaupt erst die Freigabe ermöglichen.

EdTech: Erläutern Sie, was die Antwort geprägt hat

Ein Lernagent sollte zeigen, welche Inhalte er verwendet hat, ob die Antwort auf genehmigtem Material basierte, wie er sich an den Studenten angepasst hat, wo sein Vertrauen nachließ und wann ein Mensch eingreifen sollte. Abruf- und Bewertungsmetriken von Tools wie Ragas und OpenAIs Evals verwandeln „die Antwort schien in Ordnung“ in eine messbare Aussage über Fundierung und Qualität.

SaaS: Observability über Mandanten, Berechtigungen und Integrationen hinweg

Ein SaaS-Agent bringt zusätzliche Komplexität mit sich: Mandantenisolation, rollenbasierte Berechtigungen, integrationsspezifisches Tool-Verhalten, kundenspezifische Workflows, Modell- und Prompt-Versionierung sowie Support-Eskalation und Rollback. Derselbe Agent kann sich für zwei Kunden unterschiedlich verhalten, da deren Berechtigungen und Integrationen variieren, daher muss die Observability diesen Kontext pro Mandant und nicht aggregiert erfassen.

Für einen architekturorientierten Partner wie Codebridge ist dies der Punkt, an dem Observability aufhört, ein Feature zu sein, und zu einer Architekturfrage wird. Ein Produktionsagent in HealthTech, SalesTech, EdTech oder SaaS ist kein Modell-Wrapper. Er ist Teil eines Workflows mit Benutzern, Berechtigungen, Datengrenzen, Integrationen, Audit-Anforderungen und Fehlerarten, und Observability muss um diesen Workflow herum konzipiert werden, anstatt später als generisches Dashboard hinzugefügt zu werden.

Checkliste für Führungskräfte: Bevor Sie einen KI-Agenten einsetzen

Autonomie ist eine Entscheidung und sollte nicht blindlings getroffen werden. Bevor ein Agent die Befugnis erhält zu handeln, sollte das Führungsteam in der Lage sein, eine bestimmte Reihe von Fragen zu beantworten. Wenn die Antworten nicht vorliegen, ist die Autonomie noch nicht bereit.

Decision area	What you should be able to answer
Visibility	Can we trace every agent run end to end, see every model call, tool call, retrieval, handoff, retry, and guardrail event, and replay a failed run?
Context	Can we see what data the agent used, detect stale or unauthorized context, and tell a grounded answer from an assumption?
Tools and permissions	Do we know which tools the agent can call, are they limited by role and risk level, can the agent execute or only suggest, and which actions require approval?
Evaluation	Do we have evals for normal, edge, and unsafe cases, are they tied to real traces, and do they test tool selection rather than only final answers?
Risk and governance	Can we detect sensitive-data exposure and excessive agency, is there an audit trail, can a human stop the agent, and is ownership clear when it makes a mistake?
Business value	Can we measure completed workflows rather than successful responses, cost per resolved task, and whether the agent improves speed, quality, revenue, support, or decision accuracy?

Wenn der Agent handeln kann, benötigt das Unternehmen einen Nachweis, wie er gehandelt hat. Andernfalls wird Autonomie zu einem blinden Fleck.

Fazit

Die Regel ist einfach. Je mehr Autonomie ein Agent besitzt, desto mehr Observability benötigt das System. Ein Chatbot kann durch das Lesen seiner Antwort überprüft werden. Ein Agent benötigt eine Aufzeichnung des von ihm eingeschlagenen Pfades.

Logs allein erklären einen Fehler nicht. Metriken zeigen, was passiert ist; Traces erklären, wie. Evals prüfen die Qualität vor der Freigabe; Monitoring prüft, ob sie in der Produktion Bestand hat. Die Plattform ist entscheidend, und das Design der Instrumentierung entscheidet, was überhaupt beobachtet werden kann. Ein agentisches System benötigt dies, bevor es sensible Workflows, Produktionsdaten oder kundenorientierte Aktionen berührt, nicht danach.

Dies ist das Argument, auf das die Provenienzforschung stößt: Vertrauen in einen Agenten entsteht dadurch, dass man rekonstruieren kann, was er getan hat, und nicht durch eine zufällig richtige Endantwort. NIST fasst dieselbe Idee als Rechenschaftspflicht und Transparenz auf. OWASP bezeichnet das Fehlen dessen als übermäßige Autonomie. Gartner beziffert die kommerziellen Kosten für Projekte, die abgebrochen werden, wenn Autonomie die Kontrolle übersteigt.

Bei Observability geht es nicht darum, KI genauer zu beobachten, weil Teams ihr misstrauen. Sie verleiht einem autonomen System die operative Disziplin, die bereits von jeder ernsthaften Software erwartet wird. Sobald ein Agent Daten abrufen, Tools auswählen, Systeme aktualisieren oder eine Entscheidung beeinflussen kann, wird Sichtbarkeit Teil der Produktarchitektur. Der Preis der Autonomie ist die Fähigkeit zu beweisen, was geschehen ist.

Bevor ein KI-Agent reale Workflows berührt, sollte ein Team in der Lage sein nachzuvollziehen, was er sieht, was er entscheidet und was er tut. Codebridge entwirft Agentenarchitekturen, bei denen Tracing, Evaluierung, Berechtigungen und Produktionszuverlässigkeit von Anfang an integriert sind, sodass die Sichtbarkeit vorhanden ist, bevor der Agent die Befugnis zum Handeln erhält.

Deploying an AI agent soon?

Before it touches real workflows, check whether you can trace every model call, tool call, approval step, failure, and business action.

Book a domain-specific agent review

What is AI agent observability?

AI agent observability is the practice of tracing, measuring, evaluating, and monitoring how an AI agent behaves across a full workflow. It records model calls, retrieved context, tool calls, memory, handoffs, guardrails, cost, errors, human overrides, and business outcomes, so a team can reconstruct what an agent saw, decided, and did during any single run.

How is AI observability used?

AI observability is used to understand how an AI system behaves in real workflows, not only whether it produced an answer. Teams use it to trace model calls, monitor cost and latency, inspect retrieved context, detect failures, evaluate output quality, and understand where human review is needed.

In AI agent systems, observability becomes even more important because the agent may call tools, access company data, update systems, trigger workflows, or influence decisions. Observability helps teams answer practical questions: What did the agent see? Why did it choose this action? Which tool did it call? Did it follow the workflow? Where did the error start? Without this visibility, teams are often left judging the agent only by the final output, which can look correct even when the process behind it was wrong.

What is an AI agent observability example?

A simple example is a sales research agent that identifies target accounts, checks CRM data, enriches company information, drafts a message, and creates a follow-up task. AI agent observability would show each step of that run: the original request, the data retrieved, the model response, the tool calls, the CRM fields accessed, the message draft, the approval step, and the final action.

If the agent recommends the wrong account or creates a bad CRM update, the team should not have to guess what happened. The trace should show whether the error came from outdated CRM data, irrelevant retrieved context, a wrong tool call, a prompt issue, or a missing approval rule. That is the difference between simply seeing the output and actually understanding the agent’s behavior.

What’s the best tool for AI observability?

There is no single best AI observability tool for every team. The best choice depends on the architecture, risk level, data sensitivity, deployment model, and what the agent is allowed to do. A simple internal chatbot may only need prompt logs, latency, cost tracking, and basic evaluations. A production AI agent connected to CRM, EHR, billing, support, or workflow tools needs deeper tracing, access controls, redaction, evaluation, audit trails, and integration with the wider observability stack.

Common options include platforms such as LangSmith, Langfuse, Phoenix, Braintrust, OpenTelemetry-based setups, and broader observability tools that support GenAI telemetry. But the platform brand matters less than the instrumentation design. If the system does not record tool calls, retrieved context, handoffs, guardrails, and approvals, even the best dashboard will not show what actually happened.

What are the 4 pillars of observability?

For AI agents, the four practical pillars of observability are tracing, metrics, evaluation, and governance visibility.

Tracing shows the step-by-step execution path: model calls, retrieval, tools, handoffs, guardrails, and final actions. Metrics show system health, cost, latency, context quality, agent behavior, and business outcomes. Evaluation tests whether the agent behaves correctly before and after deployment. Governance visibility shows whether the agent stayed inside its authority, used approved data, respected permissions, and escalated when needed.

Traditional software observability often focuses on logs, metrics, and traces. AI agent observability needs more because agents do not only run code. They reason, retrieve, choose tools, interact with systems, and sometimes take action. That is why evaluation and governance visibility become part of the control layer.

What metrics should teams track for AI agents?

Teams should track AI agent metrics by what they diagnose, not as a flat list of numbers. Six categories cover most workflows: system performance, LLM usage and cost, retrieval and context, agent behavior, risk and governance, and business outcome.

System performance metrics include latency, error rate, timeout rate, retry rate, availability, and throughput. LLM usage and cost metrics include input tokens, output tokens, total cost per run, cost per completed workflow, model version, prompt version, and configuration. Retrieval and context metrics include context relevance, context precision, context recall, faithfulness, groundedness, and answer relevance.

Agent behavior metrics show whether the agent acted correctly: tool-call success rate, tool-call accuracy, loop rate, handoff rate, escalation rate, task completion rate, and human override rate. Risk and governance metrics show whether the agent stayed inside its boundaries: unauthorized tool attempts, sensitive-data exposure, policy violations, guardrail triggers, and approval bypass attempts. Business outcome metrics connect the system to value: time saved, cost per resolved task, workflow completion, user correction rate, conversion quality, or revenue impact.

The right metrics depend on what the agent is allowed to do. A sales agent and a clinical assistant should not have the same dashboard.

Why is tracing important for AI agents?

Tracing is important because metrics show that something happened, but a trace shows how it happened. A multi-step AI agent may retrieve context, call tools, use memory, hand off to another agent, trigger guardrails, retry a failed step, and then produce a final response. Without a trace, the team only sees the result, not the path.

When an agent produces a wrong result, the trace helps identify where the error entered the workflow. Maybe the retrieved document was stale. Maybe the tool returned bad data. Maybe the model chose the wrong next step. Maybe a human approval step was skipped. A log or metric may show that the run failed, but a trace shows the sequence that led to failure.

For production agents, tracing is the difference between debugging behavior and guessing.

What should an AI observability platform include?

An AI observability platform should include end-to-end traces, model and prompt versions, retrieved context, tool inputs and outputs, handoffs, guardrail checks, latency, token usage, cost, errors, retries, evaluation scores, human feedback, and business workflow status.

For production environments, it should also support role-based access, data redaction, audit trails, privacy controls, alerts, and export into the team’s wider observability stack. This matters because agent data can include sensitive prompts, customer records, internal documents, tool responses, and workflow actions.

The platform should not only show what the model answered. It should show what the agent did before the answer appeared.

How do evals relate to AI agent observability?

Evaluation, monitoring, and tracing form one loop. Evaluation asks whether the agent is good enough before release. Monitoring asks whether it is still good enough in production. Tracing answers what exactly happened when it was not.

For AI agents, evals should test more than final-answer quality. They should test whether the agent chooses the right tool, uses the right context, follows workflow rules, refuses unsafe requests, escalates when needed, and stays inside its authority. The strongest evals are connected to real traces because production failures reveal cases that synthetic tests often miss.

In simple terms: observability gives the evidence, and evals turn that evidence into quality control.

Why do AI agents need observability before production deployment?

AI agents need observability before production because once they can retrieve data, choose tools, update systems, or influence decisions, a wrong step can create real damage while the final output still looks reasonable. The risk is not only a bad answer. It is a bad action hidden inside a workflow.

Observability built into the architecture lets teams see what the agent accessed, why it acted, which tool it used, what failed, and when a human should intervene. It also makes the system auditable and easier to improve over time.

If observability is added after launch as a dashboard, the most important steps may never be recorded. You cannot inspect a tool call, approval step, retrieval decision, or memory update that the system did not capture in the first place.

Was ist die Beobachtbarkeit von KI-Agenten? Metriken, Tracing und die Sichtbarkeitslücke in agentenbasierten KI-Systemen

Ihr Budget für KI-Agenten braucht zuerst einen Compliance-Posten — und erst danach einen Modell-Posten

Bei regulierten Workloads können BAAs, PHI-De-Identifikation, Audit-Trails und Model-Risk-Dokumentation den Großteil der Gesamtkosten ausmachen. Wir helfen Engineering-Teams im Healthcare- und Fintech-Bereich, den vollständigen Compliance-Aufwand frühzeitig zu modellieren — und Systeme von Anfang an so zu bauen, dass sie diese Anforderungen erfüllen.

Mit unserem Regulated-AI-Team sprechen

Your AI Agent Budget Needs a Compliance Line Item Before a Model Line Item

Sie haben 50.000 US-Dollar für KI-Agenten eingeplant. Realistisch sind es oft 380.000. Lassen Sie uns Ihre tatsächliche Zahl berechnen.

Tokenpreise decken oft nur 20–40 % der tatsächlichen Deployment-Kosten ab. Wir erstellen vollständige Kostenmodelle für KI-Agenten-Initiativen — inklusive Integration, Human Review, Retry-Waste, Orchestrierung und Compliance-Overhead — bevor Sie sich für den Build entscheiden.

Realistisches Kostenmodell anfordern

You Budgeted $50K for AI Agents. The Real Number Is Often $380K. Let's Find Yours.

Wie stark ist Ihr Produkt von proprietärem Cloud-Lock-in abhängig?

Wenn Ihr Stack auf Aurora oder anderen anbieterspezifischen Services ohne Portabilitätsstrategie basiert, arbeiten Sie auf einem wirtschaftlichen Modell, das die EU derzeit aktiv zurückdrängt. Wir analysieren Ihre proprietären Abhängigkeiten und entwickeln einen realistischen Exit-Pfad — bevor regulatorischer oder wirtschaftlicher Druck entsteht.

Lock-in-Exposure-Audit anfragen

How Exposed Is Your Product to Proprietary Cloud Lock-In?

Ein einziger Ausfall kann einen Monatsumsatz vernichten. Verhindert Ihre Architektur das?

Die Hyperscaler-Ausfälle 2025 haben gezeigt: Abhängigkeit von einem einzigen Anbieter ist ein existenzielles Risiko, kein Randfall. Wir helfen SaaS- und E-Commerce-Teams, Active-Passive-Multi-Cloud-Failover-Architekturen zu entwickeln, die standhalten, wenn der primäre Anbieter ausfällt.

Resilienzarchitektur prüfen

One Outage Can Wipe Out a Month of Revenue. Does Your Architecture Prevent That?

Heading 1

Heading 2

Heading 3

Heading 4

Heading 5

Heading 6

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.