🎤 Sprich, statt zu tippen

Schreibe Briefe und Dokumente per Sprache.

AgentDoc schreibt, formatiert und strukturiert dein Dokument live, wΓ€hrend du sprichst β€” auf deinem Handy oder deinem Laptop. Kein Tippen, keine MenΓΌs.

Registrieren & diktieren β†’ So funktioniert's

Gemacht fΓΌr Menschen, die lieber sprechen.

Ob du gerade pendelst, einen Entwurf auf deinem Handy diktierst oder einfach schneller sprichst als tippst β€” AgentDoc ist genau um die Art herum gebaut, wie du ohnehin schon denkst.

🎤

Voice-First-Schreibende

Alle, die lieber sprechen als tippen. Diktiere ein Anschreiben im Bus, entwirf einen Bericht zwischen zwei Meetings oder schreibe eine lange E-Mail, ohne die Tastatur zu entsperren. Der Agent hΓΆrt zu, entwirft und formatiert live.

  • Volle Sprachsteuerung β€” kein Klicken, keine MenΓΌs
  • Formatierung in Echtzeit, wΓ€hrend du sprichst
  • Funktioniert auf Handy, Tablet und Laptop
  • Export als .docx oder PDF, wenn du fertig bist
♿️

AnwendungsfΓ€lle fΓΌr Barrierefreiheit

Entwickelt fΓΌr Menschen mit motorischen EinschrΓ€nkungen, Repetitive-Strain-Verletzungen oder alle, fΓΌr die eine Maus-und-Tastatur-Bedienung anstrengend oder unmΓΆglich ist. Jede Aktion ist allein per Sprache erreichbar.

  • Kein Klicken, Ziehen oder Tippen nΓΆtig
  • Gesprochene RΓΌckmeldung nach jeder Γ„nderung
  • Screenreader-freundliche DOM-Struktur
  • Kostenlos, im Browser, ohne Installation
🤖

FΓΌr Entwickler: eine Agent-First-API

Dasselbe Backend stellt jede Dokumentoperation als typisiertes MCP-Tool bereit, sodass autonome LLM-Agenten Dokumente ganz ohne menschliches Eingreifen lesen, schreiben, formatieren und durch sie navigieren kΓΆnnen. Siehe /agents.

  • VollstΓ€ndige MCP-Tool-Suite (lesen, einfΓΌgen, lΓΆschen, formatieren)
  • Echtzeit-WebSocket-Sync nach jeder Mutation
  • Benchmarking-Harness zur Bewertung der Agenten-Genauigkeit

Alles, was du brauchst, nichts, was du nicht brauchst

Ein fokussiertes, sorgfΓ€ltig durchdachtes Werkzeugset – aufgebaut auf den Primitiven, die fΓΌr Agenten und Voice-First-Nutzer am wichtigsten sind.

🎤

Native Sprachsteuerung

Angetrieben von Google Gemini Live. Sprich natΓΌrlich – der Agent versteht den Kontext, erinnert sich an frΓΌhere Γ„nderungen und bestΓ€tigt jede Aktion laut.

🤖

Agent-First-Architektur

Jede Operation wird als MCP-Tool bereitgestellt. KI-Agenten kΓΆnnen Dokumente autonom erstellen, bearbeiten und durch sie navigieren – ΓΌber ein standardisiertes Protokoll, ganz ohne Tricks.

🌟

Rich-Text-Formatierung

Farben, Schriftarten, Grâßen, Hervorhebungen, Fett, Kursiv, Tiefstellung, Hochstellung, EinrΓΌckung – alles per natΓΌrlicher Sprache angewendet, ganz ohne Werkzeugleiste.

📄

A4-Seitenumbruch, PDF & Word

Automatischer A4-Seitenumbruch. Exportiere auf Wunsch pixelgenaue PDFs oder natives Word (.docx). Importiere auch bestehende Word-Dokumente – Schriftarten, Farben, SeitenumbrΓΌche, Kopf- und Fußzeilen bleiben alle erhalten.

Echtzeit-Sync

Eine duale WebSocket-Architektur sorgt dafΓΌr, dass sich die Anzeige in dem Moment aktualisiert, in dem der Agent das Dokument verΓ€ndert – ohne Polling, ohne Neuladen.

🔒

Sicher und mehrbenutzerfΓ€hig

JWT-basierte Authentifizierung, dokumentweise Isolation pro Nutzer, DOMPurify-Bereinigung und Cloudflare-Edge-Schutz – produktionserprobt vom ersten Tag an.

Drei Schritte zum fertigen Dokument

Ob du tippst, sprichst oder einen automatisierten Agenten laufen lΓ€sst – der Ablauf ist immer dieselbe einfache Schleife.

1

Sag oder tippe, was du willst

Γ–ffne das Chat-Panel oder drΓΌcke das Mikrofon. Beschreibe in einfacher Sprache, was du mΓΆchtest: β€žErstelle eine Überschrift namens Einleitung" oder β€žMach den zweiten Absatz kursiv."

2

Der Agent fΓΌhrt die Tools aus

Der KI-Agent ΓΌbersetzt deine Absicht in prΓ€zise MCP-Tool-Aufrufe – findet die richtigen Zeichen-Indizes, fΓΌgt Zeichenketten ein oder lΓΆscht sie und wendet Formatierungs-Token an.

3

Dein Dokument aktualisiert sich sofort

Das Backend verΓΆffentlicht ein WebSocket-Ereignis. Der Editor rendert die paginierte A4-Ansicht in Echtzeit neu. Der Agent bestΓ€tigt, was er getan hat – per Sprache oder Text.

Als Forschungsplattform gebaut

AgentDoc ist der empirische PrΓΌfstand fΓΌr eine laufende Abschlussarbeit, die untersucht, wie das Tool-Design die ZuverlΓ€ssigkeit von KI-Agenten beeinflusst.

Agentengesteuerte, rein sprachbasierte Schnittstellen

Dieses Projekt bildet die Grundlage einer wissenschaftlichen Abschlussarbeit, die Tool-GranularitΓ€t, Tool-Überfrachtung und Workflow-BeschrΓ€nkungen bei LLM-Agenten im Kontext der Dokumentbearbeitung untersucht. Das Benchmarking-Harness misst die Agenten-Genauigkeit ΓΌber die Levenshtein-Distanz, den Token-Verbrauch und die Halluzinationsraten hinweg – ΓΌber 20 kontrollierte Workflow-Konfigurationen (A–T) und 13 Benchmark-Szenarien.

Gemini 3 Flash MCP / FastMCP ReAct FSM Tool-Überfrachtung Levenshtein-Distanz Index-Drift
Editor ausprobieren β†’

Engineering-Notizen & Release-Patches

Kurze, dichte BeitrΓ€ge darΓΌber, wie AgentDoc gebaut ist – Architekturentscheidungen, Benchmarks und die Bugs, fΓΌr die wir Fixes ausliefern.

Alle BeitrΓ€ge β†’

Bereit, ohne Maus oder Tastatur zu schreiben?

Γ–ffne den Editor und sprich deine erste Anweisung. Dein Dokument wird reagieren.

Editor ΓΆffnen β†’