Sprachgesteuertes Dokumenten-Editing mit Gemini Live: Architektur & Kompromisse

Architektur · 7 Min. Lesezeit

Die meisten Demos zu "sprachgesteuerten Editoren", die du gesehen hast, machen im Stillen etwas Aufwendiges: Das Audio lÀuft durch ein Transkriptionsmodell, das Transkript lÀuft durch ein Anweisungsmodell, und das Anweisungsmodell sendet Tool-Aufrufe an den Editor. Drei Roundtrips, zwei LLMs, und die OberflÀche, die das Sprachmodell sieht, ist nicht die OberflÀche, die der Editor bereitstellt.

AgentDoc geht einen anderen Weg. Wir verbinden Gemini 3.1 Flash Live – die native-audio-Variante – direkt mit demselben MCP-Server, den auch der Text-Agent nutzt. Es gibt keinen Transkriptions-Proxy, kein zweites LLM und keine separate Tool-OberflĂ€che fĂŒr Sprache. Dieser Beitrag erklĂ€rt, warum wir uns fĂŒr dieses Design entschieden haben, was es kostet und wo die rauen Kanten noch sind.

Das naive Design (und warum es verliert)

Das Transkriptions-Proxy-Muster sieht so aus:

mic → STT → transcript → text-LLM → tool-call → MCP → editor
                              ↑
                        (instructions, tool list, history)

Es hat drei echte Probleme. Erstens ist die Latenz die Summe von drei aufeinanderfolgenden Modellaufrufen; du spĂŒrst die Pause jedes Mal, wenn du zu Ende gesprochen hast. Zweitens wirft der STT-Schritt die Prosodie weg – also genau das Signal, das "kursives 'wirklich'" von "wirklich, kursiv" unterscheidet. Drittens pflegst du zwei voneinander abweichende Prompt-OberflĂ€chen: die Tool-Dokumentation des Text-Agenten und die des Sprach-Agenten, die mit der Zeit auseinanderdriften.

Das native-audio-Design

Der native-audio-Pfad von Gemini Live nimmt rohes Audio entgegen, fĂŒhrt Tool-Aufrufe gegen ein typisiertes Schema aus und streamt Audio zurĂŒck. Das Diagramm reduziert sich auf:

mic → Gemini Live → tool-call → MCP → editor
                      ↑
                (same tool list as text agent)

Daraus ergeben sich zwei Konsequenzen:

Was wir bauen mussten

Drei Integrationspunkte mussten bearbeitet werden:

Latenz: der erwartete Gewinn und der unerwartete

Die Ende-zu-Ende-Latenz "Ich höre auf zu sprechen → Dokument mutiert" sinkt von etwa 2,4 s im Proxy-Design auf ~700 ms mit native audio. Der erwartete Gewinn.

Der unerwartete Gewinn ist das, was wĂ€hrend mehrstufiger AblĂ€ufe passiert. Weil wir den STT-Roundtrip pro Runde nicht bezahlen, kann das Modell einen lĂ€ngeren Kontext der gesprochenen Unterhaltung kostengĂŒnstig halten. Zusammengesetzte Anweisungen ("mach den Titel fett, dann den nĂ€chsten Absatz kursiv, dann exportieren"), die wir frĂŒher in separate LLM-Aufrufe zerlegen mussten, laufen jetzt als eine einzige Tool-Aufruf-Sequenz in einer einzigen Live-Sitzung.

Wie die rauen Kanten aussehen

Drei Dinge machen noch Ärger:

Warum das fĂŒr die Barrierefreiheit wichtig ist

Die ursprĂŒngliche Motivation fĂŒr den voice-first-Build steht auf der Barrierefreiheit-Seite: AgentDoc soll fĂŒr Menschen nutzbar sein, die keine Maus und Tastatur verwenden können oder wollen. Das Transkriptions-Proxy-Design fĂŒhlte sich fĂŒr dieses Publikum immer falsch an, weil es jeder Äußerung eine 2-Sekunden-Strafe auferlegte, die sich ĂŒber eine lange Schreibsitzung ĂŒbel summiert.

Native audio ist nicht nur eine technische Vorliebe. Es ist der Unterschied zwischen Sprache als einer Neuheits-Eingabe und Sprache als einer primÀren.

Was als NĂ€chstes kommt

Laufende Arbeit: bessere Handhabung von Neuverbindungen, ein kontingentbewusster RĂŒckfall auf den Textmodus, wenn das Live-Budget niedrig ist, und eine Studie, die die Bearbeitungszeiten von Nur-Sprache vs. Nur-Text ĂŒber die 13 Benchmark-Szenarien vergleicht. Diese letzte bekommt hier ihren eigenen Beitrag, sobald die Daten vorliegen.

← Tool-GranularitĂ€t in LLM-Agenten Alle BeitrĂ€ge →