Tutorai – Echtzeit-KI-Nachhilfeplattform mit 3D-Avataren

Echtzeit-KI-Nachhilfe mit 3D-Avataren, Sub-Sekunden-Latenz und 96 % geringeren Kosten als SaaS-Avatar-Lösungen

Softwareentwicklung

March 16, 2026

LAND

Germany

TEAMGRÖSSE

DAUER

Laufend

BUDGET

INDUSTRIE

EdTech

TECHNOLOGIEN

Node.js / FastAPI / React / Azure OpenAI / Whisper / WebGL / AKS

inhaltsverzeichnis

Myroslav Budzanivskyi

Mitbegründer und CTO

Holen Sie sich Ihre Projektschätzungen!

Talk through scope, risks, and delivery approach with our CTO

Plane ein Meeting.

SUMMARY

Ein europäisches EdTech-Startup hatte sich zum Ziel gesetzt, teure, zeitlich begrenzte menschliche Nachhilfe durch KI-gesteuerte 3D-Avatare in Echtzeit zu ersetzen, die rund um die Uhr Sprachen, Naturwissenschaften und Lebenskompetenzen vermitteln können. Ihr früher Prototyp nutzte D-IDs SaaS-Streaming-Avatare zu 32,33 $ pro Nachhilfestunde, was das Geschäftsmodell in großem Maßstab unhaltbar machte. Bestehende KI-Nachhilfelösungen litten unter Antwortverzögerungen von 3–5 Sekunden, die den Gesprächsfluss unterbrachen, und statische Inhaltsformate lieferten nicht die Feedbackschleife, die für effektives Einzel-Lernen erforderlich ist.

‍

Codebridge wurde damit beauftragt, eine produktionsreife KI-Nachhilfeplattform mit benutzerdefinierten 3D-Avataren, einer Echtzeit-Sprachinteraktions-Pipeline und einem interaktiven gemeinsamen Whiteboard zu konzipieren und zu realisieren. Die Kernanforderung: eine Antwortlatenz unter zwei Sekunden und Sitzungskosten, die niedrig genug sind, um menschliche Nachhilfelehrer um eine Größenordnung zu unterbieten. Das System musste auf einer DSGVO-konformen Azure-Infrastruktur mit automatischer Sitzungswiederherstellung und vollständiger Transkription der Lektionen laufen.

‍

Im Laufe des Projekts lieferte ein engagiertes 5-köpfiges Codebridge-Team eine webbasierte Plattform, die auf dem Azure Kubernetes Service basiert und GPT-5 mini zur Lektionsgenerierung, OpenAI Realtime-mini für Sprachkommunikation mit geringer Latenz, Whisper für Spracherkennung (Speech-to-Text) sowie eine benutzerdefinierte WebGL-Avatar-Pipeline mit Lippensynchronisation integriert. Die Architektur ersetzte die SaaS-Abhängigkeit von 32,33 $/Stunde durch eine selbst gehostete 3D-Lösung, die 1,15 $/Stunde kostet.

‍

Dadurch sanken die Nachhilfekosten pro Stunde um 96 %, die Sprachstartlatenz lag unter 1 Sekunde und die durchschnittliche Chat-Antwortzeit blieb unter 2 Sekunden. Jede Sitzung generiert nun automatische Transkripte mit persistentem Whiteboard-Status, was es den Schülern ermöglicht, jede frühere Lektion mit vollem Kontext fortzusetzen. Die Plattform ist rund um die Uhr für die Bereiche Englisch, Naturwissenschaften und Life Coaching verfügbar, wobei die Erweiterung um mehrsprachige Unterstützung und native mobile Apps bereits im Gange ist.

Kundenprofil & Kontext

Der Kunde ist ein europäisches EdTech-Startup, das eine personalisierte Nachhilfeplattform der nächsten Generation entwickelt. Das Gründerteam hatte die Nachfrage nach KI-gestützter Einzelnachhilfe validiert, aber es fehlte die technische Kapazität, um vom Prototyp zur Produktion überzugehen. Alle Details sind unter NDA anonymisiert.

Parameter	Details
Industry	Edtech / Personalized Learning
Company Stage	Early-stage startup, pre-scale
Target Users	Students (exam prep, concept explanation) and individuals seeking life coaching
MVP Scope	Web-based UI, AI service orchestration, 3D avatar pipeline, cloud infrastructure
Team from Codebridge	5 engineers (PM, Backend, AI/LLM, 3D Technical Artist, DevOps)
Primary Constraint	SaaS avatar costs at $32.33/hour made unit economics unviable at scale
Geography	Europe; global student base
Confidentiality	Full NDA — client identity anonymized

Der frühe Prototyp des Kunden nutzte D-IDs Streaming-Avatar-Dienst für lippensynchrone Videointeraktionen. Die Erfahrung wirkte überzeugend, aber die Kosten pro Stunde überstiegen das, was die meisten menschlichen Nachhilfelehrer verlangen. Neben dem Kostenproblem basierten bestehende KI-Interaktionen auf einer Aufnahme- und Wiedergabe-Audioschleife mit 3–5 Sekunden Verzögerung zwischen Schülereingabe und Tutorenantwort. Schüler brachen die Sitzung mitten im Gespräch ab. Der Prototyp bewies, dass das Konzept funktionierte; er bewies aber auch, dass die Architektur nicht skalierbar war.

Das Problem

Die Gründer von Tutorai hatten eine klare These: Einzelnachhilfe funktioniert, aber menschliche Nachhilfelehrer sind nicht skalierbar. Sie wollten teure, zeitlich begrenzte menschliche Sitzungen durch KI-gesteuerte Avatare ersetzen, die rund um die Uhr Sprachen, Naturwissenschaften und Lebenskompetenzen vermitteln können.

Sie kamen mit drei Rahmenbedingungen zu uns, die das gesamte Projekt prägten.

Die Latenz beeinträchtigte das Nutzererlebnis erheblich. Bestehende KI-Nachhilfetools basierten auf einer Aufnahme- und Wiedergabeschleife. Der Schüler spricht, wartet drei bis fünf Sekunden und hört dann eine Antwort. Diese Verzögerung unterbricht den Gesprächsrhythmus, der Nachhilfe effektiv macht. Tutorai benötigte Roundtrips für Sprachinteraktionen unter zwei Sekunden.

Die Kosten für SaaS-Avatare machten das Geschäftsmodell unmöglich. Ihr früher Prototyp nutzte D-IDs Streaming-Avatare. Das lippensynchrone Video sah gut aus. Der Preis jedoch nicht: 32,33 $ pro Nachhilfestunde. Zu diesem Preis konnte Tutorai nicht unter den Preisen menschlicher Nachhilfelehrer liegen und trotzdem überleben.

Statische Inhalte waren nicht ausreichend. Text-Bots und vorab aufgezeichnete Videos bieten nicht die Feedback-Schleife, die Studierende benötigen. Tutorai wollte eine persönliche Interaktion: einen 3D-Avatar, der zuhört, antwortet, auf einem gemeinsamen Whiteboard zeichnet und seinen Unterricht in Echtzeit anpasst.

Umfang der Arbeit

Um diesen Herausforderungen zu begegnen, umfasste unser Arbeitsumfang:

1. Avatar-Strategie & Kostenmodellierung

Wir haben die bestehende D-ID-Integration des Kunden mit einer maßgeschneiderten 3D-Avatar-Pipeline verglichen und die Kosten pro Sitzung sowie die jährlichen Kosten für beide Ansätze modelliert. Die Analyse zeigte bei moderater Nutzung eine 30-fache Kostendifferenz (1.049 $/Jahr selbst gehostet vs. 24.984 $/Jahr SaaS). Wir definierten die Spezifikationen für den Produktions-Avatar: WebGL-Rendering mit Echtzeit-Lippensynchronisation, vollständiges IP-Eigentum und Kosten pro Stunde unter 1,50 $.

2. Architektur der Sprach-Pipeline mit geringer Latenz

Wir haben die End-to-End-Sprachinteraktionsschleife entworfen und aufgebaut: Whisper für Spracherkennung, GPT-5 mini für kontextsensitive Lektionsgenerierung, OpenAI Realtime-mini für sofortige Sprachantworten und TTS-gesteuerte Avatar-Lippensynchronisation, die parallel läuft. Ziel war eine Sprachstartlatenz von unter einer Sekunde. Wir haben die KI-Arbeitslast auf zwei Modelle aufgeteilt, um Kosten und Reaktionsfähigkeit unabhängig voneinander zu optimieren.

3. Produktion & Integration maßgeschneiderter 3D-Avatare

Unser 3D-Technical Artist modellierte, riggte und animierte maßgeschneiderte Avatare mit Lippensynchronisationsfunktionen, die nativ im Browser über WebGL ausgeführt werden. Dies ersetzte die SaaS-Abhängigkeit vollständig. Die Avatare unterstützen mehrere Tutor-Personas über verschiedene Fächer hinweg und können ohne wiederkehrende Lizenzkosten um neue Charaktere erweitert werden.

‍

4. Interaktives Whiteboard & Multimodale Eingabe

Wir haben einen gemeinsamen digitalen Arbeitsbereich entwickelt, in dem sowohl Studierende als auch KI-Tutoren in Echtzeit zeichnen, kommentieren und löschen können. Die Zustandssynchronisation erfolgt über Azure Managed Redis mit einer Latenz von unter 500 ms. Wir haben die Unterstützung für PDF- und Bild-Uploads hinzugefügt, damit Studierende spezifische Hausaufgaben, Diagramme oder Prüfungsmaterialien während der Sitzung besprechen können.

5. Cloud-Infrastruktur & Sitzungskontinuität

Wir haben die gesamte Plattform auf Azure Kubernetes Service mit Autoscaling, DSGVO-konformer Datenverarbeitung und Azure Key Vault für die Anmeldeinformationsverwaltung bereitgestellt. Jede Sitzung generiert automatische Transkripte und speichert den Whiteboard-Zustand. Wenn eine Verbindung abbricht, stellt das System den Kontext wieder her, ohne dass die Studierenden etwas wiederholen müssen. Eine „Chat fortsetzen“-Funktion ermöglicht es Studierenden, jede vorherige Lektion mit vollständigem Verlauf fortzusetzen.

Was wir entwickelt haben

Eine webbasierte KI-Tutor-Plattform, auf der Studierende live, sprachgesteuerte Gespräche mit 3D-animierten Tutoren führen. Das System transkribiert die Sprache der Studierenden, generiert pädagogisch fundierte Antworten und liefert diese über einen lippensynchronen Avatar mit einer Sprachlatenz von unter einer Sekunde.

Architekturentscheidungen, die das Projekt prägten

Hybride KI-Modellstrategie. Wir haben die KI-Arbeitslast auf zwei Modelle aufgeteilt. GPT-5 mini übernimmt die Lektionsgenerierung und das Kontextmanagement zu geringeren Kosten. OpenAI Realtime-mini kümmert sich um Sprachinteraktionen, bei denen Latenz am wichtigsten ist. Diese Aufteilung ermöglichte es uns, sowohl Kosten als auch Reaktionsfähigkeit zu optimieren, anstatt ein einziges Modell zu zwingen, beides zu tun.

Maßgeschneiderte 3D-Avatare statt SaaS. Dies war die risikoreichste Entscheidung im Projekt. Der Streaming-Dienst von D-ID ermöglichte uns einen schnellen Weg zu einem funktionierenden Prototyp, aber bei 32,33 $/Stunde brachen die Stückkosten bei Skalierung zusammen. Wir haben eine maßgeschneiderte 3D-Avatar-Pipeline mit WebGL und integrierter Lippensynchronisation entwickelt. Die Anfangsinvestition war höher. Die Betriebskosten sanken auf 1,15 $ pro Stunde. Bei moderater Nutzung über ein Jahr entspricht das ungefähr 1.049 € gegenüber 24.984 € für den SaaS-Ansatz.

RAG-basierte pädagogische Fundierung. Ein KI-Tutor, der vom Thema abweicht oder falsche Informationen gibt, ist schlimmer als gar kein Tutor. Wir haben eine Retrieval-Augmented-Generation-Schicht entwickelt, die jede Antwort im aktiven Lehrplan des Fachs verankert. Das System bleibt innerhalb der Nachhilfegrenzen für die Bereiche Englisch, Naturwissenschaften und Lebensberatung. Es kann auf spezifische Unterrichtsmaterialien, Lehrbuchinhalte und den vorherigen Gesprächskontext verweisen.

Kernkomponenten der Technik

Sprachinteraktions-Pipeline. Whisper übernimmt die Spracherkennung. Die transkribierte Eingabe wird mit dem vollständigen Sitzungskontext an das LLM übermittelt. Die Antwort wird über TTS zurückgestreamt und löst parallel Avatar-Lippensynchronisationsanimationen aus. End-to-End-Latenz beim Sprachstart: unter einer Sekunde.

Interaktives Whiteboard. Sowohl der Schüler als auch der KI-Tutor können auf einer gemeinsamen Leinwand zeichnen, Anmerkungen machen und radieren. Wir verwendeten Azure Managed Redis für die Statussynchronisierung und erreichten eine Synchronisierung von unter 500 ms zwischen den Teilnehmern. Der Whiteboard-Status bleibt über die Sitzungen hinweg erhalten, sodass Schüler dort weitermachen können, wo sie aufgehört haben.

Multimodale Eingabe. Schüler laden PDFs, Bilder und Hausaufgabenfotos hoch. Der KI-Tutor kann während des Gesprächs auf hochgeladene Materialien verweisen und dabei auf bestimmte Abschnitte oder Diagramme hinweisen, während er Konzepte erklärt.

Sitzungskontinuität. Jede Lektion generiert ein automatisiertes Transkript und speichert den Whiteboard-Status. Wenn eine Verbindung mitten in der Sitzung abbricht, stellt die Plattform den Kontext wieder her und setzt die Sitzung fort, ohne dass der Schüler etwas wiederholen muss. Eine „Chat fortsetzen“-Funktion ermöglicht es Schülern, zu jeder vorherigen Sitzung mit vollständig intaktem Verlauf zurückzukehren.

Infrastruktur

Wir haben auf Azure Kubernetes Service (AKS) mit Autoscaling bereitgestellt, um gleichzeitige Nachhilfesitzungen zu bewältigen.

Layer	Technology
Compute	Azure Kubernetes Service (AKS)
AI / LLM	Azure OpenAI (GPT-5 mini, Realtime-mini)
Speech	Whisper (STT), OpenAI TTS
Avatar	Custom 3D WebGL with lip-sync
Database	Azure SQL, Azure Managed Redis
Video	Daily.co (student self-view)
Payments	Stripe (subscription management)
Security	Azure Key Vault, GDPR-compliant data handling

Das Team

Fünf Ingenieure arbeiteten an diesem Projekt: ein Projektmanager, ein Backend-Ingenieur, ein KI-/LLM-Ingenieur, ein 3D-Technical-Artist und ein DevOps-Ingenieur. Der 3D-Technical-Artist war entscheidend. Das Erstellen benutzerdefinierter Avatare, die während des Sprechens natürlich aussehen, erfordert spezialisierte Modellierungs-, Rigging- und Animationsfähigkeiten, die die meisten Entwicklungsunternehmen nicht intern besitzen.

Technologien, die wir in diesem Projekt verwenden

Ergebnisse

Metric	Before	After
Per-Hour Tutoring Cost	$32.33 (D-ID SaaS)	$1.15 (custom 3D — 96% reduction)
Annual Avatar Cost	~€24,984	~€1,049 (30x lower)
Speech Start Latency	3–5 seconds	< 1 second
Average Response Time	3–5 seconds	< 2 seconds
Whiteboard Sync	No shared workspace	< 500ms real-time sync
Session Recovery	Manual restart, lost context	Automated transcript + state save on 100% of lessons
Availability	Human-dependent scheduling	24/7 global coverage

Das MVP wurde mit Nachhilfebereichen für Englisch und Naturwissenschaften sowie einem Lebensberatungsmodul eingeführt. Tutorai expandiert nun in weitere akademische Fächer, bietet mehrsprachige Unterstützung einschließlich RTL-Sprachen, kinderspezifische Konten und native mobile Apps für iOS und Android.

‍

Warum dieses Projekt einen Engineering-Partner brauchte

Tutorais Herausforderung war kein Mangel an Ideen. Sie hatten einen funktionierenden Prototyp und einen validierten Markt. Ihre Herausforderung war die Lücke zwischen einer Demo und einem Produktionssystem, das Tausende von Schülern zu nachhaltigen Stückkosten bedienen konnte.

Diese Lücke erforderte drei Dinge, die sie intern nicht besaßen: Erfahrung mit KI-Infrastruktur, um eine Sprachpipeline mit geringer Latenz zu entwerfen, 3D-Rendering-Expertise, um eine 32 $/Stunde teure SaaS-Abhängigkeit zu ersetzen, und Cloud-Engineering, um das gesamte System im großen Maßstab zuverlässig zu machen.

Wir haben diese Lücken als fünfköpfiges Team geschlossen, nicht mit einem fünfzigköpfigen Einsatz. Das Projekt wurde in einem Startup-Zeitrahmen fertiggestellt, weil die Architektur-Entscheidungen von Anfang an richtig waren.

No items found.

beim