Die Verlagerung in der Unternehmens-KI ist nicht länger theoretisch. Das Hauptrisiko hat sich vom Generieren falscher Texte zum Ausführen irreversibler Aktionen verschoben – und dieser Unterschied ist wichtiger, als die meisten Führungskräfte erkennen. Wenn ein Agent einen Kundendatensatz löscht, eine Lieferung storniert oder eine Rückerstattung veranlasst, wer ist dann verantwortlich – das Unternehmen, der Anbieter oder der Modelllieferant? Die Antwort ist nicht immer eindeutig. Die Architektur der Verantwortlichkeit hat sich grundlegend geändert, und die meisten Organisationen haben noch nicht verstanden, was das operativ bedeutet.
Im Januar 2026 veröffentlichte die IMDA Singapur auf dem Weltwirtschaftsforum in Davos das Modell-KI-Governance-Framework für agentische KI (MGF v1.0), die erste staatlich geführte Initiative zur Formalisierung der Governance speziell für KI-Agenten. Das Framework verändert das Verständnis von Verantwortlichkeit. Es erstreckt sich nun über die implementierende Organisation, Tool-Anbieter, Endnutzer und nicht mehr nur auf die Entität, die das zugrunde liegende Modell hostet. Entscheidungsträger sollten verstehen, dass die Behandlung von Agenten wie Chatbots mit API-Zugriff keine sichere Annahme mehr ist, da dieses mentale Modell Haftung schafft und sich als technische und operative Schuld ansammelt.
Für Technologieführer signalisiert dies einen Übergang, bei dem Governance, Identitätsmanagement und operative Kontrollen als erstklassige architektonische Anforderungen und nicht als nachträgliche Compliance-Überlegungen behandelt werden müssen. Laut Deloittes Umfrage „State of AI in the Enterprise 2026“, planen fast drei Viertel der Unternehmen, agentische KI innerhalb von zwei Jahren einzusetzen, doch nur 21 % geben an, über ein ausgereiftes Governance-Modell für KI-Agenten zu verfügen. Dieser Artikel untersucht, warum diese Lücke besteht und was es braucht, um sie durch architektonische Governance statt inkrementeller Compliance zu schließen.
Warum unterscheiden sich KI-Agenten grundlegend von Chatbots?
Die Formalisierung der Governance für agentische KI wird durch die Erkenntnis vorangetrieben, dass Agenten als „digitale Mitarbeiter“ agieren, die Ziele setzen, mit anderen Agenten interagieren und Unternehmenssysteme modifizieren können. Im Gegensatz zu Chatbots priorisieren agentische KI-Tools die Entscheidungsfindung gegenüber der Inhaltserstellung und können ohne kontinuierliche menschliche Aufsicht arbeiten.
Sobald Agenten eigenständig handeln können, muss die Verantwortlichkeit explizit definiert werden. Gemäß IMDA MGF v1.0 bedeutet dies eine namentliche menschliche Verantwortlichkeit für das Verhalten von Agenten, unterstützt durch Genehmigungspunkte und nachvollziehbare Aktionspfade, um Automatisierungsverzerrungen zu mindern. Um dies in großem Maßstab umsetzen zu können, müssen Agenten mit eindeutigen Identitäten und Berechtigungen mit geringsten Privilegien arbeiten, die als architektonische Anforderungen behandelt werden. Wo diese Grundlagen fehlen, sammeln Unternehmen Pilotprojekte ohne Fortschritt an: Trotz Dutzender Experimente bleiben mehr als 90 % der vertikalen Anwendungsfälle stecken aufgrund fragmentierter Governance und schlechter Systemkompatibilität in der Pilotphase fest.
Was passiert, wenn die Agenten-Governance versagt?
Die Kosten eines Governance-Versagens haben sich von technischen Schulden zu rechtlicher und operativer Haftung verschoben. Dies zeigte sich deutlich, als Air Canada haftbar gemacht wurde für Fehlinformationen eines Chatbots bezüglich Trauertarifen, und erneut, als der Business-Chatbot von New York City Ratschläge erteilte, die lokalen Gesetzen widersprachen. In beiden Fällen wurden Organisationen für Verpflichtungen, die von automatisierten Systemen eingegangen wurden, zur Verantwortung gezogen, unabhängig von Absicht oder internen Kontrollen.
Angesichts dieses Haftungsrisikos beschränken viele Unternehmen die Autonomie von Agenten auf risikoarme, horizontale Anwendungsfälle. Infolgedessen, obwohl 78 % der Unternehmen generative KI nutzen in mindestens einer Funktion berichten die meisten Unternehmen keine wesentlichen Auswirkungen auf ihre Gewinne. Diese Diskrepanz wird größtenteils dem „Gen AI Paradoxon“ zugeschrieben: Anwendungsfälle wie Chatbots lassen sich leicht skalieren, liefern aber diffuse Gewinne, während solche, die systemübergreifend ohne kontinuierliche menschliche Kontrollpunkte agieren (vertikale Anwendungsfälle mit höherer Wirkung), aufgrund ungelöster Governance- und Verantwortlichkeitsbeschränkungen im Pilotstadium verbleiben.
Diese Dynamik erklärt mit, warum die Fehlerraten hoch bleiben. Gartner prognostiziert dass 40 % der agentischen KI-Projekte bis 2027 abgebrochen werden, nicht wegen schlechter Modellqualität, sondern weil Unternehmen die Kosten für Integration und Governance unterschätzen, während die regulatorische Durchsetzung beschleunigt wird. In diesem Zusammenhang schreibt der EU AI Act Transparenz und menschliche Aufsicht für Hochrisikosysteme vor, während das NIST AI Risk Management Framework (RMF) die Einschränkung explizit macht: Aufsicht kann nicht skaliert werden, wenn sie sich auf menschliche Geschwindigkeit in einer Umgebung verlässt, in der Agenten mit Maschinengeschwindigkeit agieren.
Warum Agenten nach dem Pilotprojekt scheitern?
Ausführungslücken in der agentischen KI entstehen oft, weil Teams Agenten weiterhin mit denselben Metriken bewerten, die sie für Chatbots verwenden. Tests konzentrieren sich weiterhin auf die statische Antwortqualität, anstatt auf die Korrektheit des Workflows und die Ausführungssicherheit bei langlaufenden Aufgaben.

Verhaltensfehler und Tool-Halluzinationen
Vectaras von der Community kuratiertes Repository von Produktionsausfällen zeigt wiederkehrende Fehlermuster, die bei isolierten Modelltests selten zutage treten:
- Tool-Halluzination: Agenten liefern falsche Ausgaben von einem Tool oder erfinden Tool-Funktionen.
- Falsche Tool-Auswahl: Ein Agent kann eine DELETE-Funktion aufrufen, obwohl ARCHIVE beabsichtigt war, was potenziell Tausende von Datensätzen löscht.
- Endlosschleifen: Agenten bleiben in sich wiederholenden Denkzyklen stecken, verbrauchen dabei massive Rechenressourcen, ohne einen Endzustand zu erreichen.
- Fehlinterpretation des Ziels: Der Agent optimiert für das falsche Ziel, wie zum Beispiel die Erstellung eines Reiseplans für das falsche Land.
Der Infrastrukturzusammenbruch
Viele Implementierungen scheitern auf der Infrastrukturebene. Ingenieure berichten, dass Systeme in der Produktion ausfallen, weil die bestehende Infrastruktur oft unzureichend für langlaufende asynchrone Agenten-Workflows ist. In der Produktion laufen APIs in einen Timeout, Ratenbegrenzungen werden erreicht und Netzwerkverbindungen brechen ab. Wenn der Agentenstatus nur im Speicher gehalten wird, führt ein Prozessabsturz mitten im Workflow zu einer „verwaisten“ Aufgabe, bei der der Benutzer keine Ahnung hat, was abgeschlossen wurde und was fehlgeschlagen ist.
Die Governance-Last und Sicherheitsbedrohungen
Deloitte stellt fest dass zwar 85 % der Unternehmen planen, Agenten anzupassen, aber nur 34 % eine KI-Strategie in Live-Anwendungen durchsetzen. Infolgedessen werden Human-in-the-Loop-Kontrollen oft erst nach der Bereitstellung nachgerüstet. Herkömmliche Perimeter-Sicherheit ist für absichtsgesteuerte Systeme unzureichend, bei denen bösartige Anweisungen, wie die Aufforderung an einen Agenten, Ausgaben als rechtsverbindlich zu behandeln, direkt in operative Arbeitsabläufe eingeschleust werden können.
Die meisten Agentenprojekte scheitern nicht, weil die Technik versagt. Sie geraten ins Stocken, weil Unternehmen unterschätzen, was es braucht, um autonom agierende Systeme zu betreiben. Die Kosten beschränken sich nicht auf verzögerte Erträge. Programme von Teams werden eingestellt, und zukünftige Experimente lassen sich schwerer rechtfertigen.
Was erfordert eine produktionsreife Agentenarchitektur tatsächlich?
Der Übergang von „Antworten zu Aktionen“ erfordert konkrete architektonische Entscheidungen, die sich von traditionellen Software- oder Machine-Learning-Bereitstellungen unterscheiden.
Agentenidentität und geringste Berechtigung
Die Agentenidentität muss als erstklassige Infrastruktur behandelt werden. Jeder Agent benötigt eine eindeutige Identität und Berechtigungen, die speziell auf die Tools zugeschnitten sind, auf die er zugreifen muss, und nicht auf ein gemeinsam genutztes Dienstkonto oder breite API-Schlüssel. Dieser Ansatz, manchmal als „geringste Handlungsfähigkeit“ bezeichnet, konzentriert sich darauf, die Fähigkeit des Agenten, innerhalb der Umgebung zu agieren, zu begrenzen.
Obligatorische menschliche Kontrollpunkte
Für irreversible Aktionen wie Finanztransaktionen, Datenlöschungen oder externe Kommunikationen sind menschliche Genehmigungskontrollpunkte obligatorisch. Produktionsarchitekturen müssen eine gestufte Ausführung sowie Not-Aus-Schalter und Fallback-Mechanismen unterstützen. Diese Kontrollen sind nicht nur eine Anforderung an die Beobachtbarkeit; sie sind strukturelle Schutzmaßnahmen für Aktionen mit hohen Konsequenzen.
Zuverlässigkeit als architektonische Randbedingung
Zuverlässige Produktionsagenten erfordern eine Umstellung auf ein Workflow-Engine-Modell. Erfahrene Teams nutzen:
- Persistente Job-Warteschlangen: Einsatz von Tools wie Redis oder Bull, um Anfragen von der Ausführung zu entkoppeln, wodurch sichergestellt wird, dass bei einem Absturz eines Workers der Job von einem anderen übernommen wird.
- Zustandspersistenz: Jeder Schritt der Ausführung eines Agenten muss in eine Datenbank geschrieben werden, damit das System bei Erreichen eines Ratenlimits genau weiß, wo es fortfahren muss, ohne vorherige kostspielige Aufrufe erneut auszuführen.
- Idempotenzschlüssel: Verwendung eindeutiger Job-IDs, um doppelte Aktionen zu verhindern, wie das zweimalige Belasten einer Kreditkarte während einer Wiederholungslogik.
Ohne diese Grundlagen können Agentenfehler kostspielig und schwer zu beheben sein.
Anbieter- und Vertragsanforderungen
Vertragliche Anforderungen verschieben sich von Modell-Benchmarks (z. B. Latenz und Genauigkeit) hin zu Control-Plane-Funktionen. CTOs priorisieren zunehmend Anbieter, die Audit-Logs, Berechtigungsgrenzen und Fehlerbehebung unterstützen.
Diese Anforderungen werden oft als Reibung oder gar Bürokratie abgetan. Tatsächlich entscheiden sie darüber, ob agentische Systeme auf Experimente beschränkt bleiben oder mit Produktionsverantwortung betraut werden. Teams, die diese Anforderungen frühzeitig ignorieren, kehren meist später zu ihnen zurück, wenn bereits etwas schiefgelaufen ist und die Behebung teurer wird.
Architektonische Anforderungen: Traditionelles ML vs. Produktionsagenten
Auswirkungen auf Betriebsmodelle: Teams und Verantwortlichkeit
Die organisatorische Herausforderung agentischer KI übersteigt oft die technische. Um die Wirkung zu skalieren, ist eine Neuausrichtung der Teamstrukturen und der Verantwortlichkeitszuweisung erforderlich.
Namentliche menschliche Verantwortlichkeit
Wie im IMDA-Framework festgehalten, erfordert Verantwortlichkeit benannte Einzelpersonen, nicht verteilte Teams. Dies impliziert die Schaffung formaler Rollen wie Agenten-Supervisoren oder Genehmigungsinstanzen die für die Entscheidungen und Handlungen ihrer zugewiesenen „Agenten-Squads“ verantwortlich sind.
Vom Mitwirkenden zum Supervisor
Die Rolle des einzelnen Mitwirkenden entwickelt sich zu einer strategischen Aufsichtsfunktion. In Bankmodernisierungsprojekten könnten Agenten beispielsweise die Migration von Legacy-Code übernehmen, während menschliche Programmierer sich auf die Überprüfung und Integration von agentengenerierten Funktionen konzentrieren. Obwohl dies den Aufwand reduzieren kann um über 50 %, erfordert es eine Neugestaltung des Prozesses, um zu verhindern, dass menschliche Supervisoren zu einem Engpass werden.
Funktionsübergreifende Governance (AI TRiSM)
Gartner stellt fest, dass viele Organisationen inzwischen eine zentrale KI-Strategie haben, aber die Durchsetzung erfordert funktionsübergreifende KI-Governance-Gremien sowie spezielle AI TRiSM (Vertrauens-, Risiko- und Sicherheitsmanagement)-Kontrollen in Produktionssystemen. Diese Gremien müssen die Bereiche Sicherheit, Recht, Engineering und Produkt umfassen, da eine isolierte Zuständigkeit scheitert, wenn Agenten mehrere Systemumgebungen überspannen. Darüber hinaus ist die Schulung der Endnutzer zum Verständnis der Agentenbeschränkungen und Übersteuerungsmechanismen nun eine betriebliche Anforderung und kein Onboarding-Bonus mehr.
An diesem Punkt ist agentische KI nicht mehr nur ein technisches Projekt. Sie wird zu einem Führungsproblem. Entscheidungen über Autonomie, Aufsicht und Verantwortlichkeit können nicht allein bei der Technik liegen, da sie die Verteilung von Autorität und Verantwortung innerhalb der Organisation verändern.
Was reife Teams anders machen
Organisationen, die Agenten erfolgreich vom Pilotprojekt in den dauerhaften Betrieb überführt haben, weisen mehrere beobachtbare Muster auf:
- Governance frühzeitig integrieren: Governance wird in die Architekturprüfungsphase integriert, nicht in die Prüfung nach der Bereitstellung.
- Produktivitätskompromisse akzeptieren: Reife Teams akzeptieren explizit, dass Produktivitätssteigerungen von 20–60 % eine Vorabinvestition in Überwachung und Beobachtbarkeit erfordern. Sie erwarten keine 100%ige Automatisierung ohne operativen Mehraufwand.
- Priorität auf die Steuerungsebene legen: Bei der Anbieterauswahl liegt der Fokus auf Prüfbarkeit, Berechtigungsmodellen und der Fähigkeit, die „Absicht“ von Agenten zu überwachen, und nicht nur auf die Modellgeschwindigkeit.
- Gestaffelte Einführungen: Bereitstellungen beginnen mit wenig komplexen, reversiblen Anwendungsfällen (z. B. Entwurfserstellung zur Überprüfung) und gehen erst zu Handlungen mit hohen Konsequenzen über, nachdem bewiesen wurde, dass Übersteuerungspfade unter Last funktionieren.
- Agenten als operative Einheiten behandeln: Agenten werden Identitäten, Berechtigungen und Audit-Trails zugewiesen, ähnlich wie menschlichen Mitarbeitern, anstatt sie als einfache Softwareskripte zu behandeln.
Entscheidungsrahmen für die technische Führungsebene
Da sich die regulatorischen Fristen unter dem EU AI Act und den NIST-konformen Rahmenwerken verdichten, wird Compliance allein kein operatives Versagen verhindern. Governance muss architektonisch eingebettet und nicht nachträglich hinzugefügt werden.
Für Gründer und CTOs ist die wichtige Frage, ob menschliche Verantwortlichkeit und Genehmigungspunkte mit Maschinengeschwindigkeit durchgesetzt werden können. Wenn die Aufsicht zu einem Engpass wird, der Produktivitätsgewinne schmälert, wird das System scheitern, oft unbemerkt, und sich in die lange Liste der KI-Initiativen einreihen, die nie den dauerhaften Betrieb erreichen.
Um über das Experimentieren hinauszugehen, bedarf es einer Entscheidung, die nur die Geschäftsleitung treffen kann: Agenten nicht länger als zu testende Werkzeuge zu behandeln und sie stattdessen als professionelle digitale Arbeitskräfte zu betreiben, die gesteuert, rechenschaftspflichtig und in das Betriebsmodell der Organisation eingebettet ist.
Heading 1
Heading 2
Heading 3
Heading 4
Heading 5
Heading 6
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.
Block quote
Ordered list
- Item 1
- Item 2
- Item 3
Unordered list
- Item A
- Item B
- Item C
Bold text
Emphasis
Superscript
Subscript























