AgentDoc schreibt, formatiert und strukturiert dein Dokument live, wΓ€hrend du sprichst β auf deinem Handy oder deinem Laptop. Kein Tippen, keine MenΓΌs.
Ob du gerade pendelst, einen Entwurf auf deinem Handy diktierst oder einfach schneller sprichst als tippst β AgentDoc ist genau um die Art herum gebaut, wie du ohnehin schon denkst.
Alle, die lieber sprechen als tippen. Diktiere ein Anschreiben im Bus, entwirf einen Bericht zwischen zwei Meetings oder schreibe eine lange E-Mail, ohne die Tastatur zu entsperren. Der Agent hΓΆrt zu, entwirft und formatiert live.
Entwickelt fΓΌr Menschen mit motorischen EinschrΓ€nkungen, Repetitive-Strain-Verletzungen oder alle, fΓΌr die eine Maus-und-Tastatur-Bedienung anstrengend oder unmΓΆglich ist. Jede Aktion ist allein per Sprache erreichbar.
Dasselbe Backend stellt jede Dokumentoperation als typisiertes MCP-Tool bereit, sodass autonome LLM-Agenten Dokumente ganz ohne menschliches Eingreifen lesen, schreiben, formatieren und durch sie navigieren kΓΆnnen. Siehe /agents.
Ein fokussiertes, sorgfΓ€ltig durchdachtes Werkzeugset β aufgebaut auf den Primitiven, die fΓΌr Agenten und Voice-First-Nutzer am wichtigsten sind.
Angetrieben von Google Gemini Live. Sprich natΓΌrlich β der Agent versteht den Kontext, erinnert sich an frΓΌhere Γnderungen und bestΓ€tigt jede Aktion laut.
Jede Operation wird als MCP-Tool bereitgestellt. KI-Agenten kΓΆnnen Dokumente autonom erstellen, bearbeiten und durch sie navigieren β ΓΌber ein standardisiertes Protokoll, ganz ohne Tricks.
Farben, Schriftarten, GrΓΆΓen, Hervorhebungen, Fett, Kursiv, Tiefstellung, Hochstellung, EinrΓΌckung β alles per natΓΌrlicher Sprache angewendet, ganz ohne Werkzeugleiste.
Automatischer A4-Seitenumbruch. Exportiere auf Wunsch pixelgenaue PDFs oder natives Word (.docx). Importiere auch bestehende Word-Dokumente β Schriftarten, Farben, SeitenumbrΓΌche, Kopf- und FuΓzeilen bleiben alle erhalten.
Eine duale WebSocket-Architektur sorgt dafΓΌr, dass sich die Anzeige in dem Moment aktualisiert, in dem der Agent das Dokument verΓ€ndert β ohne Polling, ohne Neuladen.
JWT-basierte Authentifizierung, dokumentweise Isolation pro Nutzer, DOMPurify-Bereinigung und Cloudflare-Edge-Schutz β produktionserprobt vom ersten Tag an.
Ob du tippst, sprichst oder einen automatisierten Agenten laufen lΓ€sst β der Ablauf ist immer dieselbe einfache Schleife.
Γffne das Chat-Panel oder drΓΌcke das Mikrofon. Beschreibe in einfacher Sprache, was du mΓΆchtest: βErstelle eine Γberschrift namens Einleitung" oder βMach den zweiten Absatz kursiv."
Der KI-Agent ΓΌbersetzt deine Absicht in prΓ€zise MCP-Tool-Aufrufe β findet die richtigen Zeichen-Indizes, fΓΌgt Zeichenketten ein oder lΓΆscht sie und wendet Formatierungs-Token an.
Das Backend verΓΆffentlicht ein WebSocket-Ereignis. Der Editor rendert die paginierte A4-Ansicht in Echtzeit neu. Der Agent bestΓ€tigt, was er getan hat β per Sprache oder Text.
AgentDoc ist der empirische PrΓΌfstand fΓΌr eine laufende Abschlussarbeit, die untersucht, wie das Tool-Design die ZuverlΓ€ssigkeit von KI-Agenten beeinflusst.
Dieses Projekt bildet die Grundlage einer wissenschaftlichen Abschlussarbeit, die Tool-GranularitΓ€t, Tool-Γberfrachtung und Workflow-BeschrΓ€nkungen bei LLM-Agenten im Kontext der Dokumentbearbeitung untersucht. Das Benchmarking-Harness misst die Agenten-Genauigkeit ΓΌber die Levenshtein-Distanz, den Token-Verbrauch und die Halluzinationsraten hinweg β ΓΌber 20 kontrollierte Workflow-Konfigurationen (AβT) und 13 Benchmark-Szenarien.