Agentische KI-Systeme können Tausende von Entscheidungen pro Stunde verarbeiten. Sie können auch halluzinieren, falsch klassifizieren und Ergebnisse liefern, die gegen regulatorische Anforderungen verstoßen können. In einer aktuellen Studie zu rechtlichen Halluzinationenfanden Forscher heraus, dass ChatGPT in 58 % der Fälle falsche Rechtsinformationen generierte, wenn es um überprüfbare Fragen zu Bundesgerichtsverfahren gebeten wurde. Llama 2 erreichte 88 %. Im Finanz-, Gesundheits- und Rechtswesen ist jeder dieser Fehler ein potenzielles Haftungsrisiko, kein UX-Problem.
Einen menschlichen Prüfer am Ende einer automatisierten Pipeline einzusetzen, löst das Problem nicht. Es verlangsamt das System und fördert das „Abnicken“ (Rubber-Stamping): Prüfer, die Ergebnisse genehmigen, die sie nicht mehr genau genug prüfen, um Fehler zu erkennen. Man erhält das Schlechteste aus beiden Welten: reduzierte Geschwindigkeit ohne echten Sicherheitsgewinn.
Um regulierte KI-Systeme zu entwickeln, die skalierbar sind, benötigt man Compliance-by-Design. Das bedeutet, spezifische menschliche Überwachungsmechanismen (Genehmigungen, Übersteuerungen, Audits) dem Risikoprofil jeder Aufgabe zuzuordnen, damit menschliches Urteilsvermögen dort zum Tragen kommt, wo es Ergebnisse verändert, und nicht dort, wo es Engpässe schafft.
Das Governance-Spektrum definieren: HITL vs. HOTL vs. HOOTL
Der oben beschriebene Compliance-by-Design-Ansatz hängt von einem Governance-Modell ab, das dem Risiko entspricht. Drei Modelle definieren, wie eng menschliches Urteilsvermögen mit der Maschinenausführung gekoppelt ist.
- Human-in-the-Loop (HITL) erfordert, dass ein Mensch eine Aktion genehmigt, bevor das System sie ausführt. Ein Kreditberater genehmigt eine Kreditentscheidung. Ein Arzt bestätigt eine Behandlungsempfehlung. Das System kann ohne diese Genehmigung nicht fortfahren. Unternehmen nutzen HITL für risikoreiche, irreversible Aktionen, bei denen eine falsche Ausgabe zu regulatorischen Risiken oder Patientenschäden führt.
- Human-on-the-Loop (HOTL) lässt das System eigenständig agieren, während ein Mensch die Ergebnisse überwacht und eingreift, wenn etwas nicht stimmt. Betrugserkennungsteams arbeiten so: Das Modell kennzeichnet und leitet Transaktionen weiter, und ein Analyst untersucht die Ausnahmen. HOTL eignet sich für Aufgaben mit hohem Volumen, bei denen die individuelle Genehmigung jeder Entscheidung den Durchsatz zusammenbrechen lassen würde.
- Human-out-of-the-Loop (HOOTL) entfernt den Menschen vollständig aus dem Ausführungspfad. Das System agiert autonom. Dies ist nur für risikoarme, gut getestete Prozesse geeignet, bei denen ein Fehler lediglich einen erneuten Versuch kostet und keine regulatorische Beanstandung nach sich zieht.
Die meisten Produktionssysteme kombinieren alle drei innerhalb eines einzigen Workflows. Eine Schadenbearbeitungspipeline könnte HOOTL für die Dokumentenerfassung, HOTL für die Risikobewertung und HITL für die endgültige Auszahlungsautorisierung verwenden. Der Governance-Modus ändert sich je nachdem, was bei jedem Schritt auf dem Spiel steht.
Es reicht nicht aus, diese Modi zu kennen. Man benötigt eine Methode, um zu entscheiden, welcher Modus wo angewendet wird. Das erfordert die Zuordnung von Governance zu Risikostufen.
Das Vertrauensprotokoll: Zuordnung von Kontrollen zu Risikoklassen

Der nächste Schritt ist zu entscheiden, welcher Governance-Modus an welchem Punkt im Workflow angebracht ist. Das Prinzip ist einfach: Beginnen Sie mit strenger menschlicher Kontrolle und erweitern Sie die Autonomie erst, wenn Leistungsdaten zeigen, dass dem System vertraut werden kann.
Die vier untenstehenden Stufen beschreiben, wann jedes Modell je nach Risiko eingesetzt werden sollte.
Stufe 1: Shadow Mode.
Die KI beobachtet Live-Daten und entwirft Empfehlungen, aber ein Mensch trifft jede Entscheidung und führt jede Aktion aus. Das System erzeugt Ergebnisse; keines davon gelangt ohne menschliches Eingreifen in die reale Welt. So validieren Sie die Argumentation eines Agenten im Geschäftskontext, bevor Sie ihm operative Befugnisse erteilen. Dies entspricht dem konservativsten HITL-Ansatz. Setzen Sie es bei der Erstimplementierung und immer dann ein, wenn Sie ein Modell in einem neuen Aufgabenbereich einführen.
Stufe 2: Überwachte Autonomie
Hier bereitet die KI eine Aktion vor, die Ausführung wird jedoch angehalten, bis ein Mensch eine explizite Genehmigung erteilt. Dies ist für Hochrisikoszenarien wie endgültige medizinische Diagnosen, Kreditgenehmigungen oder die Ausführung von Rechtsverträgen geeignet. Die technische Kontrolle hier ist der Genehmigungsworkflow, bei dem die KI umfangreiche Datenanalysen und Risikobewertungen durchführt, während der Mensch als letzter Gatekeeper fungiert.
Stufe 3: Geführte Autonomie
Die KI agiert autonom innerhalb strenger, vordefinierter Leitplanken und eskaliert nur dann an einen Menschen, wenn die Konfidenzwerte unter einen festgelegten Schwellenwert fallen (z. B. <90 %). Dies ist ideal für Aufgaben mit mittlerem Risiko und hohem Volumen, wie die Weiterleitung komplexer Support-Tickets oder die Triage von Patientensymptomen. Der Kontrollmechanismus verschiebt sich von der Genehmigung zu Übersteuerungsmechanismen, bei denen Menschen als Ausnahmebehandler fungieren.
Stufe 4: Mensch als Kommandogeber
Bei sehr risikoreichen, lebenserhaltenden oder haftungsintensiven Entscheidungen – wie Intensivpflege-Interventionen oder größeren finanziellen Umstrukturierungen – muss die Architektur strikt unterstützend bleiben. Die KI präsentiert Vorschläge statt Anweisungen, um sicherzustellen, dass die Autorität des Arztes oder der Führungskraft über ethische Komplexität und Patientenwerte absolut bleibt.
Kriterien für die Stufenzuordnung
Die Architektur der Kontrollen: Genehmigungen, Übersteuerungen und Audits
Aus technischer Sicht muss HITL als erstklassige Architekturkomponente behandelt werden und nicht als nachträgliche Ergänzung eines bestehenden Workflows. Dies beinhaltet die Integration spezifischer Kontrollen in die Kernlogik des Systems. Sobald die Aufgabe nach Risiko klassifiziert ist, ist die nächste Designentscheidung der damit verbundene Kontrollmechanismus.
Genehmigungskontrollen (Die Gatekeeper)
Genehmigungskontrollen gehören zu Aufgaben der Stufe 2 (überwachte Ausführung) und Stufe 4 (nur beratend). Das System bereitet eine Ausgabe vor. Die Ausführung wird angehalten, bis ein qualifizierter Prüfer sie genehmigt, ändert oder ablehnt.
Das schwierigere Problem ist nicht das Hinzufügen einer Genehmigungsschranke, sondern deren Wirksamkeit bei realem Betriebsaufkommen. Wenn sich Ihre Genehmigungswarteschlange staut, beginnen Prüfer mit der Stapelgenehmigung, um sie abzuarbeiten. Sie haben das Abstempel-Problem aus der Einleitung neu geschaffen.
Um dies zu verhindern, benötigen Sie eine Kapazitätsplanung für den Prüferdurchsatz, SLA-basiertes Routing, das die Aufgabenkomplexität dem Fachwissen des Prüfers anpasst, und eine Timeout-Logik, die festgefahrene Genehmigungen eskaliert, anstatt sie automatisch zu genehmigen.
Gestalten Sie die Prüferoberfläche um eingeschränkte Entscheidungstypen herum: Genehmigen/Ablehnen, Auswahl aus vorbereiteten Optionen oder Bestätigung spezifischer Risikofaktoren. Freitext-Prüffelder wirken zwar gründlich, erzeugen aber inkonsistente Daten, die weder nachgelagerte Systeme noch Lernpipelines nutzen können.
Übersteuerungsmechanismen (Die Sicherheitsnetze)
Übersteuerungsmechanismen dienen der Stufe 3 (geführte Autonomie), bei der das System innerhalb vorgegebener Leitplanken agiert und Ausnahmen eskaliert. Die Aufgabe des Prüfers ist es, zu erkennen, was das Modell übersehen hat, und dies zu korrigieren.
Ein Übersteuerungsmechanismus versagt, wenn das System das Übersteuern schwieriger macht als das Genehmigen. Wenn die Empfehlung der KI als vorausgewählte Standardeinstellung erscheint und das Rückgängigmachen drei zusätzliche Bildschirme erfordert, gehen Prüfer den Weg des geringsten Widerstands. Ihre Übersteuerungsrate sinkt, aber nicht, weil das Modell besser geworden ist. Gestalten Sie die Benutzeroberfläche so, dass Bestätigen und Übersteuern den gleichen Aufwand erfordern.
Der Prüfer benötigt ausreichend Kontext, um ein unabhängiges Urteil zu fällen: den Konfidenzwert der KI, die Faktoren, die die Empfehlung beeinflusst haben, und alle vom System gemeldeten Warnungen. Ohne dies bewertet der Prüfer eine Schlussfolgerung, ohne Zugang zur Begründung zu haben.
Verfolgen Sie Übersteuerungsraten als operatives Signal. Ein anhaltender Anstieg deutet auf eine Modellverschlechterung oder eine Verschiebung der Eingabeverteilung hin. Eine Rate nahe Null bei Aufgaben mit hohem Volumen deutet darauf hin, dass die Prüfer nicht aktiv sind. Beide Muster erfordern eine Untersuchung.
Audit-Kontrollen (Das führende System)
Audit-Kontrollen umfassen jede Stufe. Sie sind die Beweisschicht, die beweist, dass Ihre Governance wie vorgesehen funktioniert hat.
DSGVO Artikel 22 schränkt automatisierte Entscheidungen ein, die Rechtswirkungen für Einzelpersonen entfalten. Die EU-KI-Verordnung (Artikel 14) verlangt, dass Hochrisiko-KI-Systeme eine menschliche Aufsicht umfassen, die in der Lage ist, Risiken zu verhindern oder zu minimieren. Wenn eine Aufsichtsbehörde oder ein Gericht Ihr System prüft, wird nicht gefragt, ob Sie eine Richtlinie hatten. Es werden Aufzeichnungen verlangt, die belegen, dass ein bestimmter Mensch eine bestimmte Ausgabe zu einem bestimmten Zeitpunkt überprüft hat und die Befugnis und Informationen hatte, einzugreifen.
Ihr Audit-Log muss mindestens Folgendes erfassen: die Eingabedaten, die das Modell erhalten hat, die Modellversion und -konfiguration, die erzeugte Ausgabe, den Konfidenzwert, die Identität und Entscheidung des Prüfers, den Zeitstempel und gegebenenfalls die Begründung für die Übersteuerung. Protokollieren Sie die Begründungskette, nicht nur die endgültige Aktion. Ein Eintrag, der "genehmigt" besagt, ohne zu zeigen, was und auf welcher Grundlage genehmigt wurde, wird einer behördlichen Prüfung nicht standhalten.
Wie die Kontrollen miteinander verbunden sind
Jede Übersteuerung sollte in Ihre Pipeline zur Modellverbesserung einfließen. Wenn Prüfer konsequent dieselbe Art von Ausgabe übersteuern, zeigt dieses Muster Ihrem ML-Team, wo die blinden Flecken des Modells liegen. Jede Genehmigungsentscheidung, über die Zeit aggregiert, liefert Kalibrierungsdaten: Ändern Prüfer häufig bereitgestellte Ausgaben (was darauf hindeutet, dass das Modell neu trainiert werden muss) oder genehmigen sie unverändert (was darauf hindeutet, dass die Aufgabe für die Beförderung in Stufe 3 bereit sein könnte)? Auditdaten schließen den Kreis, indem sie diese Muster sichtbar und nachvollziehbar machen.
Die Kontrollen sind architektonisch unterschiedlich, aber operativ bilden sie einen einzigen Rückkopplungszyklus. Betrachten Sie Genehmigungen, Übersteuerungen und Audits als einen verbundenen Betriebszyklus. Die Daten aus jedem Bereich sollten die anderen verbessern.
Wenn Aufsicht zur reinen Formsache wird
Sie können jede Kontrolle einrichten und trotzdem scheitern. Genehmigungsworkflows, Übersteuerungsmechanismen und Audit-Logs: Keiner davon schützt Sie, wenn die Menschen, die sie bedienen, aufhören, ein unabhängiges Urteil zu fällen. Dies ist der Fehlermodus, den Aufsichtsbehörden bereits verfolgen.
Der SCHUFA-Präzedenzfall
Ein deutsches Kreditscoring-Unternehmen, die SCHUFA, nutzte ein automatisiertes System zur Erstellung von Kreditwürdigkeitsbewertungen. Menschliche Zwischenhändler überprüften die Bewertungen, bevor sie die Verbraucher erreichten. Auf dem Papier verfügte das System über menschliche Aufsicht. In der Praxis leiteten die Prüfer die Bewertungen jedoch weiter, ohne die Entscheidung zu beeinflussen. Ein EU-Gericht entschied, dass dies eine "ausschließlich automatisierte Entscheidungsfindung" im Sinne von Artikel 22 DSGVO darstellte, der solche Entscheidungen ohne spezifische rechtliche Begründung verbietet. Die menschliche Überprüfung existierte in der Architektur, aber nicht im Betrieb. Die SCHUFA verlor ihren Rechtsschutz, weil die Aufsicht zur reinen Formsache geworden war.
Das ist kein Einzelfall. Jedes System, bei dem die Genehmigungsraten fast 100 % erreichen und die Überprüfungszeiten unter den für eine echte Bewertung erforderlichen Schwellenwert fallen, zeigt dasselbe Muster. Der Unterschied zwischen der SCHUFA und Ihrem System ist, dass die SCHUFA vor Gericht entlarvt wurde.
Wie Voreingenommenheit jede Art von Kontrolle beeinträchtigt
Automatisierungsverzerrungen beeinträchtigen die Kontrollen aus Abschnitt 3 auf vorhersehbare Weise. Genehmigungskontrollen verschlechtern sich, wenn Prüfer begonnene Ausgaben bestätigen, ohne die zugrunde liegenden Faktoren zu bewerten. Übersteuerungskontrollen verschlechtern sich, wenn das System die Empfehlung der KI zur Standardeinstellung macht und ein Überschreiben unverhältnismäßigen Aufwand erfordert; die Übersteuerungsraten brechen zusammen, aber nicht, weil die Genauigkeit verbessert wurde. Audit-Kontrollen verschlechtern sich, wenn jeder Datensatz „genehmigt“ ohne Änderungen anzeigt, wodurch die Protokolle von einem System ohne jegliche menschliche Überprüfung nicht mehr zu unterscheiden sind. Genau dieses letzte Muster kostete die SCHUFA ihre rechtliche Verteidigung.
Erkennung vor Prävention
Man kann nichts beheben, was man nicht misst. Bevor Sie in Schulungsprogramme oder Interface-Redesigns investieren, instrumentieren Sie Ihre Überwachungsebene. Verfolgen Sie die Genehmigungsraten im Zeitverlauf. Messen Sie die mittlere Überprüfungsdauer pro Aufgabentyp. Überwachen Sie die Häufigkeit von Übersteuerungen als Prozentsatz der Gesamtüberprüfungen. Markieren Sie Prüfer, deren Übereinstimmungsrate bei einer aussagekräftigen Stichprobe von Fällen über 97 % liegt.
Diese Signale geben Ihnen eine frühzeitige Warnung. Wenn ein Prüfer in einer Schicht 200 Kreditentscheidungen der Stufe 2 mit einer mittleren Überprüfungszeit von 8 Sekunden genehmigt, liest dieser Prüfer die Risikofaktoren nicht. Sie haben nun Beweise dafür, dass der Überprüfungsprozess sich verschlechtert, anstatt nur ein vages Gefühl, dass die Leute weniger sorgfältig prüfen.
Für Engagement gestalten
Die Erkennung zeigt Ihnen, dass das Problem existiert. Das Interface-Design bestimmt, ob es wieder auftritt. Drei Praktiken reduzieren die Automatisierungsverzerrung am Punkt der Überprüfung.
Erstens: Verlangen Sie vom Prüfer, die Eingaben zu bewerten, bevor die Schlussfolgerung der KI offengelegt wird. Wenn die Benutzeroberfläche zuerst die Empfehlung anzeigt, orientiert sich der Prüfer daran und bewertet rückwärts von der Antwort. Das Umkehren der Reihenfolge erzwingt eine unabhängige Bewertung.
Zweitens: Passen Sie die Prüferkapazität an das Volumen an. Wenn ein Team, das für Genehmigungen der Stufe 2 zuständig ist, unterbesetzt ist, verkürzen sich die Überprüfungszeiten und die Genehmigungsraten steigen. Dies ist ein Personal- und Kapazitätsplanungsproblem, kein Schulungsproblem. Keine noch so gute Kalibrierungsschulung kann die Leistung eines Prüfers verbessern, der nur 45 Sekunden pro Fall hat.
Drittens: Rotieren Sie Prüfer über verschiedene Aufgabentypen hinweg. Die Vertrautheit mit einem engen Ausgabemuster beschleunigt das Abgleiten in die automatische Genehmigung. Die Rotation durchbricht dieses Muster und erhält die kognitive Beteiligung aufrecht.
HITL in der Produktion: KI-gestützte Radiologie an 12 Standorten
Bei einer Implementierung in der diagnostischen Bildgebung an 12 Zentren verarbeitete das Netzwerk mehr als 500 Thorax-CT-Scans pro Woche und hatte bereits kommerzielle KI-Tools ausprobiert, die von den Klinikern weitgehend ignoriert wurden. Die Falsch-Positiv-Raten waren hoch genug, dass KI-Befunde zusätzliche Arbeit verursachten, anstatt sie zu reduzieren. Eine Mehrheit der Kliniker berichtete, KI-Ergebnisse ohne Überprüfung abgetan zu haben. Die Überwachung war zu einer reinen Formsache geworden.
Das Codebridge-Team, das die Ersatzplattform entwickelte, strukturierte sie nach dem in diesem Artikel beschriebenen Stufenmodell. Die KI-Inferenz erzeugt Überlagerungen zur Knotenerkennung mit Malignitätswahrscheinlichkeit, volumetrischen Messungen und Vergleichen mit früheren Studien.
Alle Befunde erscheinen als umschaltbare Überlagerungen im bestehenden Viewer des Radiologen. Der Radiologe steuert jede Interpretation. Für die intelligente Triage-Warteschlange, die Studien nach Dringlichkeit ordnet, arbeitet das System auf Stufe 3: es leitet autonom weiter und eskaliert mehrdeutige Fälle zur menschlichen Überprüfung.
Die Kontrollebene entspricht Abschnitt 3. Keine KI-Annotation gelangt ohne Bestätigung durch den Radiologen in einen Abschlussbericht. Jeder abgelehnte oder geänderte Befund wird mit der Begründung des Klinikers protokolliert. Audit-Aufzeichnungen erfassen Modellversion, Konfidenz-Score, Identität des Klinikers und Übersteuerungsstatus für jeden Fall, ausgerichtet an der IEC 62304 Rückverfolgbarkeit und einem geplanten FDA 510(k) Zulassungsweg. Ein Governance-Dashboard verfolgt Übereinstimmungsraten, Übersteuerungsraten und Trends bei falsch-positiven Ergebnissen über alle Standorte hinweg, unter Verwendung der in Abschnitt 4 beschriebenen Erkennungssignale.
Ergebnisse nach neun Monaten:
- Die durchschnittliche CT-Befundungszeit sank von 15,2 auf 9,4 Minuten, eine Reduzierung um 38 %.
- Die Sensitivität der Knotenerkennung lag bei 96 % für Läsionen unter 4 mm bei 2.400 validierten Scans.
- Falsch-Positive sanken von 4,1 auf 0,4 pro Scan.
- Der Vertrauensindex der Radiologen, der den Prozentsatz der Kliniker misst, die KI-Befunde routinemäßig überprüfen, stieg von 27 % auf 89 %.
Die Rückgewinnung des Vertrauens ist am wichtigsten. Die früheren Tools scheiterten, weil die Bereitstellungsarchitektur die Governance ignorierte. Als HITL-Kontrollen den Klinikern echte Autorität über KI-Ergebnisse verliehen und diese Autorität reibungslos ausübbar machten, kehrte das Engagement zurück. Die Governance-Schicht verlangsamte das System nicht. Sie machte das System vertrauenswürdig genug, um es zu nutzen.
Fazit: Was tun damit?
GPT-4 halluziniert bei 58 % der überprüfbaren Rechtsfragen. Die SCHUFA verlor ihren Rechtsschutz, weil ihre menschlichen Prüfer Bewertungen genehmigten, ohne sie zu prüfen. Dies sind keine Ausnahmefälle. Sie sind das vorhersehbare Ergebnis des Einsatzes von KI in regulierten Umgebungen ohne eine auf das Risiko zugeschnittene Governance-Architektur.
Dieser Artikel stellte einen spezifischen Rahmen vor, um beide Fehlerarten zu vermeiden. Klassifizieren Sie jede Aufgabe nach Risikostufe. Weisen Sie den Kontrollmechanismus zu, den diese Stufe erfordert: Genehmigungen für risikoreiche Ausführungen, Übersteuerungen für geführte Autonomie und Audits für alles. Instrumentieren Sie Ihre Überwachungsebene, damit Sie erkennen können, wann Prüfer aufhören, sich zu engagieren, bevor es ein Regulator für Sie entdeckt.
Beginnen Sie mit Ihrem haftungsträchtigsten Workflow. Ordnen Sie jeden Schritt einer Stufe zu. Identifizieren Sie, wo derzeit eine menschliche Entscheidung getroffen wird, und beurteilen Sie, ob diese Entscheidung echt oder nur pro forma ist. Wenn Ihre Genehmigungsraten nahe 100 % liegen und die Überprüfungszeiten in Sekunden gemessen werden, ist Ihre Governance architektonische Fiktion. Beheben Sie diesen Workflow zuerst. Erweitern Sie dann den Rahmen.
Organisationen, die KI in regulierten Bereichen skalieren, werden dies tun, indem sie schrittweise Vertrauen aufbauen, Aufgaben von strengerer zu lockererer Aufsicht verschieben, wenn Leistungsdaten dies rechtfertigen, und sie zurückziehen, wenn dies nicht der Fall ist. Governance ist keine Einschränkung der Leistungsfähigkeit Ihres Systems. Sie ist der Mechanismus, der die Erweiterung der Leistungsfähigkeit ermöglicht.

Heading 1
Heading 2
Heading 3
Heading 4
Heading 5
Heading 6
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.
Block quote
Ordered list
- Item 1
- Item 2
- Item 3
Unordered list
- Item A
- Item B
- Item C
Bold text
Emphasis
Superscript
Subscript























