Wer es nutzt

Gemacht für Menschen, die lieber sprechen.

Ob du gerade pendelst, einen Entwurf auf deinem Handy diktierst oder einfach schneller sprichst als tippst — AgentDoc ist genau um die Art herum gebaut, wie du ohnehin schon denkst.

🎤

Voice-First-Schreibende

Alle, die lieber sprechen als tippen. Diktiere ein Anschreiben im Bus, entwirf einen Bericht zwischen zwei Meetings oder schreibe eine lange E-Mail, ohne die Tastatur zu entsperren. Der Agent hört zu, entwirft und formatiert live.

Volle Sprachsteuerung — kein Klicken, keine Menüs
Formatierung in Echtzeit, während du sprichst
Funktioniert auf Handy, Tablet und Laptop
Export als .docx oder PDF, wenn du fertig bist

♿️

Anwendungsfälle für Barrierefreiheit

Entwickelt für Menschen mit motorischen Einschränkungen, Repetitive-Strain-Verletzungen oder alle, für die eine Maus-und-Tastatur-Bedienung anstrengend oder unmöglich ist. Jede Aktion ist allein per Sprache erreichbar.

Kein Klicken, Ziehen oder Tippen nötig
Gesprochene Rückmeldung nach jeder Änderung
Screenreader-freundliche DOM-Struktur
Kostenlos, im Browser, ohne Installation

🤖

Für Entwickler: eine Agent-First-API

Dasselbe Backend stellt jede Dokumentoperation als typisiertes MCP-Tool bereit, sodass autonome LLM-Agenten Dokumente ganz ohne menschliches Eingreifen lesen, schreiben, formatieren und durch sie navigieren können. Siehe /agents.

Vollständige MCP-Tool-Suite (lesen, einfügen, löschen, formatieren)
Echtzeit-WebSocket-Sync nach jeder Mutation
Benchmarking-Harness zur Bewertung der Agenten-Genauigkeit

Funktionen

Alles, was du brauchst, nichts, was du nicht brauchst

Ein fokussiertes, sorgfältig durchdachtes Werkzeugset – aufgebaut auf den Primitiven, die für Agenten und Voice-First-Nutzer am wichtigsten sind.

🎤

Native Sprachsteuerung

Angetrieben von Google Gemini Live. Sprich natürlich – der Agent versteht den Kontext, erinnert sich an frühere Änderungen und bestätigt jede Aktion laut.

🤖

Agent-First-Architektur

Jede Operation wird als MCP-Tool bereitgestellt. KI-Agenten können Dokumente autonom erstellen, bearbeiten und durch sie navigieren – über ein standardisiertes Protokoll, ganz ohne Tricks.

🌟

Rich-Text-Formatierung

Farben, Schriftarten, Größen, Hervorhebungen, Fett, Kursiv, Tiefstellung, Hochstellung, Einrückung – alles per natürlicher Sprache angewendet, ganz ohne Werkzeugleiste.

📄

A4-Seitenumbruch, PDF & Word

Automatischer A4-Seitenumbruch. Exportiere auf Wunsch pixelgenaue PDFs oder natives Word (.docx). Importiere auch bestehende Word-Dokumente – Schriftarten, Farben, Seitenumbrüche, Kopf- und Fußzeilen bleiben alle erhalten.

⚡

Echtzeit-Sync

Eine duale WebSocket-Architektur sorgt dafür, dass sich die Anzeige in dem Moment aktualisiert, in dem der Agent das Dokument verändert – ohne Polling, ohne Neuladen.

🔒

Sicher und mehrbenutzerfähig

JWT-basierte Authentifizierung, dokumentweise Isolation pro Nutzer, DOMPurify-Bereinigung und Cloudflare-Edge-Schutz – produktionserprobt vom ersten Tag an.

So funktioniert's

Drei Schritte zum fertigen Dokument

Ob du tippst, sprichst oder einen automatisierten Agenten laufen lässt – der Ablauf ist immer dieselbe einfache Schleife.

Sag oder tippe, was du willst

Öffne das Chat-Panel oder drücke das Mikrofon. Beschreibe in einfacher Sprache, was du möchtest: „Erstelle eine Überschrift namens Einleitung" oder „Mach den zweiten Absatz kursiv."

Der Agent führt die Tools aus

Der KI-Agent übersetzt deine Absicht in präzise MCP-Tool-Aufrufe – findet die richtigen Zeichen-Indizes, fügt Zeichenketten ein oder löscht sie und wendet Formatierungs-Token an.

Dein Dokument aktualisiert sich sofort

Das Backend veröffentlicht ein WebSocket-Ereignis. Der Editor rendert die paginierte A4-Ansicht in Echtzeit neu. Der Agent bestätigt, was er getan hat – per Sprache oder Text.

Wissenschaftlicher Kontext

Als Forschungsplattform gebaut

AgentDoc ist der empirische Prüfstand für eine laufende Abschlussarbeit, die untersucht, wie das Tool-Design die Zuverlässigkeit von KI-Agenten beeinflusst.

Agentengesteuerte, rein sprachbasierte Schnittstellen

Dieses Projekt bildet die Grundlage einer wissenschaftlichen Abschlussarbeit, die Tool-Granularität, Tool-Überfrachtung und Workflow-Beschränkungen bei LLM-Agenten im Kontext der Dokumentbearbeitung untersucht. Das Benchmarking-Harness misst die Agenten-Genauigkeit über die Levenshtein-Distanz, den Token-Verbrauch und die Halluzinationsraten hinweg – über 20 kontrollierte Workflow-Konfigurationen (A–T) und 13 Benchmark-Szenarien.

Gemini 3 Flash MCP / FastMCP ReAct FSM Tool-Überfrachtung Levenshtein-Distanz Index-Drift

Editor ausprobieren →

Schreibe Briefe und Dokumente per Sprache.