Gib deinem KI-Agenten Dokumentbearbeitung – in unter 60 Sekunden

AgentDoc ist ein öffentlicher Model-Context-Protocol-Server (MCP). Jeder LLM-Agent, der MCP spricht – Gemini, Claude, GPT oder dein eigener – kann sich verbinden, authentifizieren und eine vollstĂ€ndige typisierte API zur Dokumentbearbeitung nutzen: lesen, schreiben, formatieren, navigieren, PDFs exportieren. Kein SDK zum Einbinden, kein Schema, das du auf deiner Seite pflegen musst, kein Mensch in der Schleife.

Diese Seite ist der kanonische Onboarding-Pfad fĂŒr Agenten und die Menschen, die sie betreiben. Wenn du (oder dein Modell) einen funktionierenden Dokumenteneditor als Tool verfĂŒgbar haben willst, ist das hier alles, was du brauchst.

MCP-Endpunkt

https://agent-doc-edit.com/mcp/sse

Standard-Model-Context-Protocol ĂŒber Server-Sent Events. JWT-Bearer-Token-Authentifizierung (siehe Schnellstart unten). Kostenloses Token-Budget pro Konto; keine Kreditkarte erforderlich.

Schnellstart (ein HTTP-Aufruf)

Registriere ein isoliertes Agentenkonto und erhalte seinen API-Key in einer einzigen Anfrage. Kein Browser, keine E-Mail, kein Mensch in der Schleife. Jeder registrierte Agent ist sein eigener Nutzer mit eigenem Dokumentbereich – verschiedene Agenten sehen niemals die Dokumente der jeweils anderen.

curl -X POST https://agent-doc-edit.com/api/agents/register \
  -H "Content-Type: application/json" \
  -d '{"name": "my-research-agent"}'

# Response
# {
#   "user_id":        "...",
#   "username":       "agent_AbCdEfGh",
#   "name":           "my-research-agent",
#   "api_key":        "ak_...",          <-- shown ONLY here, store it
#   "api_key_prefix": "ak_AbCdEfGh",
#   "created_at":     "2026-04-25T..."
# }

Das war's. Verwende den api_key als Bearer-Token gegen /mcp/sse und der Agent verfĂŒgt ĂŒber 35 typisierte Tools, um Dokumente zu lesen, zu schreiben, zu formatieren, zu paginieren und zu exportieren – vollstĂ€ndig auf sein eigenes Konto begrenzt.

Zwei Wege zur Authentifizierung

Option A – Agent registriert sich selbst (empfohlen fĂŒr autonome Workflows)

Verwende POST /api/agents/register wie oben gezeigt. Der Agent erhĂ€lt sein eigenes Nutzerkonto und seinen eigenen Dokument-Namensraum. Verschiedene Agenten kollidieren nie. Rate-Limit: 5 Registrierungen pro Stunde und IP. Das ist der richtige Pfad fĂŒr Brief-Pipelines, Batch-Prozessoren, geplante Jobs und Multi-Agenten-Workflows.

Option B – Eigenes Nutzerkonto verwenden (fĂŒr „gib meinem eigenen Assistenten Dokumentbearbeitung")

Öffne /app, melde dich an, Seitenleiste → „API-Keys fĂŒr Agenten" → „+ Neuen Key erstellen". Der Key wird nur einmal angezeigt. Verwende ihn als Bearer-Token. Der Agent teilt sich dein Konto, deine Dokumente und deinen aktiven Dokumentstatus. NĂŒtzlich, wenn ein Co-Pilot-Agent neben dir an einem einzigen Korpus arbeiten soll.

Was abgerechnet wird (und was nicht)

Agenten bringen ihr eigenes LLM mit. Du bezahlst deinen Modellanbieter fĂŒr Reasoning-Token. Wir sehen diese nicht, berechnen sie nicht und drosseln nicht danach. Unser Dienst hostet den MCP-Server, die Dokumentspeicherung und die Rendering-Pipeline. Die Spalte token_limit bei Agentenkonten ist als defensiver Schutzgurt auf 0 gesetzt: Falls irgendein zukĂŒnftiger Codepfad jemals versuchen wĂŒrde, unseren internen Gemini-Agenten mit Agentenkonto-Authentifizierung auszufĂŒhren, wĂŒrde er sich weigern – Agenten bleiben strikt auf dem MCP-Tool-Pfad.

Wichtig: Das ist autonom, nicht kollaborativ

Dieser Pfad ist fĂŒr autonome Agenten-Workflows gebaut – dein Agent denkt mit seinem eigenen LLM, ruft unsere MCP-Tools direkt auf, bearbeitet Dokumente auf seinem eigenen Konto und exportiert ein Ergebnis. Dieselbe praxiserprobte Tool-OberflĂ€che, die unsere Sprach- und Text-Agenten in Produktion nutzen, treibt deinen Agenten an – aber dein Agent spricht nie mit unserem. Es gibt keinen KI-zu-KI-Hop, keinen internen LLM-Aufruf in deinem Namen, keine gemeinsame Sitzung mit unserem In-Browser-Editor.

Wenn du möchtest, dass ein Mensch und unser Sprach-/Text-Agent live gemeinsam bearbeiten, nutze /app direkt – das ist ein anderer Pfad. Wenn du möchtest, dass dein eigener Agent den Editor ohne Menschen bedient, ist der hier beschriebene MCP-Endpunkt die richtige OberflĂ€che.

Von jedem MCP-Client verbinden

Python (mcp client / Anthropic / Google ADK)

from mcp.client.sse import sse_client
from mcp import ClientSession
import json

AGENTDOC_TOKEN = "ak_..."  # from POST /api/agents/register

async def edit_document():
    headers = {"Authorization": f"Bearer {AGENTDOC_TOKEN}"}
    async with sse_client("https://agent-doc-edit.com/mcp/sse",
                          headers=headers) as (read, write):
        async with ClientSession(read, write) as session:
            await session.initialize()
            # Workflow T (~35 tools) is applied automatically. Token is
            # injected from the Authorization header – do NOT pass `token`
            # in tool arguments.
            tools = await session.list_tools()

            # Create a document
            res = await session.call_tool("create_document",
                                          {"title": "My Report"})
            payload = json.loads(res.content[0].text)
            doc_id = payload["doc_id"]   # structured field, no regex

            # Insert content
            await session.call_tool("insert_string", {
                "doc_id": doc_id,
                "text":   "# Hello\n\nFirst paragraph.",
                "index":  0,
            })

            # Trigger PDF; response includes a self-describing fetch URL
            res = await session.call_tool("trigger_pdf_download",
                                          {"doc_id": doc_id})
            pdf_meta = json.loads(res.content[0].text)
            print(pdf_meta["pdf_url"])  # → "/api/doc//pdf"

TypeScript (Anthropic SDK)

import { Client } from "@modelcontextprotocol/sdk/client/index.js";
import { SSEClientTransport } from "@modelcontextprotocol/sdk/client/sse.js";

const transport = new SSEClientTransport(
  new URL("https://agent-doc-edit.com/mcp/sse"),
  { requestInit: { headers: { Authorization: `Bearer ${TOKEN}` } } }
);
const client = new Client({ name: "my-agent", version: "1.0" }, { capabilities: {} });
await client.connect(transport);

const tools = await client.listTools();
const result = await client.callTool({
  name: "insert_string",
  arguments: { text: "Hello from my agent.", index: 0 }
});

curl (rohe Erkundung)

curl -N -H "Authorization: Bearer $TOKEN" \
     -H "Accept: text/event-stream" \
     https://agent-doc-edit.com/mcp/sse

Tool-Katalog – Workflow T wird automatisch angewendet

Externe Agenten (d. h. Anfragen, die mit einem ak_*-API-Key authentifiziert sind) werden automatisch auf die Tool-OberflĂ€che Workflow T beschrĂ€nkt – den Pareto-optimalen Produktionsstandard, den unsere eigenen Sprach- und Text-Agenten verwenden. Du wendest diesen Filter nicht an; der MCP-Server wendet ihn serverseitig sowohl bei tools/list als auch bei tools/call an. So erhĂ€ltst du das kuratierte Subset aus ~35 Tools (typisierte Primitive + Makros + beobachtendes Feedback zu Index-Verschiebungen), entfernst die Scratchpad- und FSM-Intent-Tools, die nicht zu T gehören, und schließt die atomaren „explodierten" Varianten aus, die nur unser Tool-Bloat-Benchmark verwendet. Jedes Tool hat ein JSON-Schema fĂŒr seine Argumente und liefert eine strukturierte Antwort mit expliziten Erfolgs-/Fehlermarkierungen; indexverschiebende Operationen enthalten beobachtendes Feedback ("observation": "INDEX SHIFT – re-read before next mutation"), damit der Agent zwischen den Schritten geerdet bleibt.

get_document_context
Liefert rohes Markdown + gerendertes HTML in einem Aufruf. PrimÀres Lese-Tool.
find
Regex-gestĂŒtzte Suche. Liefert alle Treffer mit [start, end)-Indizes und 150 Zeichen Kontext.
insert_string / delete_substring
Indexbasierte Textmutationen. Kopf-/Fußzeilen-Varianten fĂŒr isolierte Bereiche.
replace_substring
Atomares Löschen + EinfĂŒgen. Vermeidet Index-Drift zwischen zwei getrennten Aufrufen.
format_text
15 Farben, 12 Schriftarten, 7 GrĂ¶ĂŸen, fett/kursiv/unterstrichen/durchgestrichen/tief-/hochgestellt, Ausrichtung, EinrĂŒckung, Links.
format_table
Rahmenstil/-farbe/-breite, HintergrĂŒnde, Ausrichtung, Spaltenbreiten, InnenabstĂ€nde, Streifen.
macro_replace_all / macro_format_all_matches
Atomare Massenoperationen. Treffer werden in umgekehrter Indexreihenfolge verarbeitet, um Drift zu vermeiden.
insert_page_break / delete_page_break / find_page_breaks
Seitenumbruch-Primitive – unsichtbare DOM-Marker, keine Zeichen-Teilstrings.
generate_table_of_contents
FĂŒgt automatisch ein verlinktes Inhaltsverzeichnis an einem gegebenen Index ein, basierend auf der vorhandenen Überschriftenstruktur.
create_document / rename_document / set_active_document / list_documents
Dokumentverwaltung. Die Sitzung des Agenten wird automatisch zum aktiven Dokument geleitet.
navigate_to_page / set_page_layout
Seitennavigation, Anpassung von RĂ€ndern und SeitengrĂ¶ĂŸe.
trigger_pdf_download
Löst ein PDF-Export-Event aus, das der Nutzer (oder ein nachgelagerter Agent) abholen kann.

Ein Dokument aus einer vorhandenen DOCX vorbefĂŒllen

Die MCP-Tool-OberflĂ€che lĂ€sst deinen Agenten Dokumente von Grund auf erstellen. FĂŒr Workflows, die mit einer vorab erstellten Word-Datei beginnen – Vorlagen mit Firmenbriefkopf, Vertragsbausteine, ein eingehender Entwurf zur Überarbeitung – nimmt ein zusĂ€tzlicher One-Shot-HTTP-Endpunkt .docx-Uploads entgegen, erstellt ein frisches Document auf dem Konto des Agenten und schaltet es aktiv, sodass der nĂ€chste MCP-Aufruf auf dem importierten Inhalt landet:

# Upload a .docx; response is the new {id, title, ...}
curl -X POST https://agent-doc-edit.com/api/docs/import/docx \
  -H "Authorization: Bearer $API_KEY" \
  -F "[email protected]" \
  -F "title=Q3 Customer Letter"

SeitenumbrĂŒche, Hyperlinks, Kopf-/Fußzeilen, Schriftarten, Farben und ZeilenabstĂ€nde ĂŒberstehen den Import alle. VollstĂ€ndige technische Aufarbeitung: DOCX-Import – Word-Dokumente im Round-Trip.

AnwendungsfĂ€lle, die dein Agent autonom ĂŒbernehmen kann

Was das hier (konkret) agentenfreundlich macht

Grenzen und ehrliche EinschrÀnkungen

Metadaten zur Auffindbarkeit

Jetzt ausprobieren

Öffne den Editor in einem Tab, fĂŒhre deinen Agenten in einem anderen aus. Die Bearbeitungen des Agenten erscheinen in Echtzeit auf demselben Bildschirm – nĂŒtzlich zum Debuggen, fĂŒr Demos oder fĂŒr eine Mensch-+-Agent-Zusammenarbeit.

Editor öffnen →

Technische Aufarbeitungen