🎤 Habla, no escribas

Escribe cartas y documentos con la voz.

AgentDoc escribe, da formato y estructura tu documento en directo mientras hablas β€” en tu mΓ³vil o en tu portΓ‘til. Sin teclear, sin menΓΊs.

RegΓ­strate y dicta β†’ Mira cΓ³mo funciona

Hecho para quienes prefieren hablar.

Ya sea que vayas de camino al trabajo, dictes un borrador en el mΓ³vil o simplemente hables mΓ‘s rΓ‘pido de lo que escribes β€” AgentDoc estΓ‘ diseΓ±ado en torno a la forma en que ya piensas.

🎤

Quienes escriben con la voz primero

Cualquiera que prefiera hablar a teclear. Dicta una carta de presentaciΓ³n en el autobΓΊs, redacta un informe entre reuniones o escribe un correo largo sin desbloquear el teclado. El agente escucha, redacta y da formato en directo.

  • Control total por voz β€” sin clics, sin menΓΊs
  • Formato en tiempo real mientras hablas
  • Funciona en mΓ³vil, tablet y portΓ‘til
  • Exporta a .docx o PDF cuando termines
♿️

Casos de uso de accesibilidad

DiseΓ±ado para personas con discapacidades motrices, lesiones por esfuerzo repetitivo o cualquiera para quien una interfaz de ratΓ³n y teclado resulte agotadora o imposible. Toda operaciΓ³n es accesible solo con la voz.

  • Sin necesidad de hacer clic, arrastrar ni teclear
  • ConfirmaciΓ³n hablada tras cada cambio
  • Estructura del DOM compatible con lectores de pantalla
  • Gratis, en la web, sin instalaciΓ³n
🤖

Para desarrolladores: una API pensada primero para agentes

El mismo backend expone cada operaciΓ³n de documento como una herramienta MCP tipada, de modo que los agentes LLM autΓ³nomos pueden leer, escribir, dar formato y navegar documentos sin intervenciΓ³n humana. Consulta /agents.

  • Suite completa de herramientas MCP (leer, insertar, eliminar, dar formato)
  • SincronizaciΓ³n WebSocket en tiempo real tras cada mutaciΓ³n
  • Banco de pruebas para evaluar la precisiΓ³n del agente

Todo lo que necesitas, nada que no necesites

Un conjunto de herramientas enfocado y cuidadosamente diseΓ±ado, construido en torno a las primitivas que mΓ‘s importan a los agentes y a los usuarios que hablan primero.

🎤

Control de voz nativo

Impulsado por Google Gemini Live. Habla con naturalidad β€” el agente entiende el contexto, recuerda ediciones anteriores y confirma cada acciΓ³n en voz alta.

🤖

Arquitectura pensada primero para agentes

Cada operaciΓ³n se expone como una herramienta MCP. Los agentes de IA pueden crear, editar y navegar documentos de forma autΓ³noma mediante un protocolo estandarizado β€” sin parches.

🌟

Formato de texto enriquecido

Colores, fuentes, tamaΓ±os, resaltados, negrita, cursiva, subΓ­ndice, superΓ­ndice, sangrΓ­a β€” todo aplicado con lenguaje natural, sin barra de herramientas.

📄

PaginaciΓ³n A4, PDF y Word

PaginaciΓ³n A4 automΓ‘tica. Exporta PDF perfectos al pΓ­xel o Word nativo (.docx) cuando quieras. Importa tambiΓ©n documentos de Word existentes β€” fuentes, colores, saltos de pΓ‘gina, encabezados y pies conservados.

SincronizaciΓ³n en tiempo real

La arquitectura de doble WebSocket garantiza que la vista se actualice en el instante en que el agente modifica el documento β€” sin sondeos, sin recargar.

🔒

Multiusuario seguro

AutenticaciΓ³n basada en JWT, aislamiento de documentos por usuario, sanitizaciΓ³n con DOMPurify y protecciΓ³n perimetral de Cloudflare β€” robusto para producciΓ³n desde el primer dΓ­a.

Tres pasos hasta un documento terminado

Tanto si escribes, hablas o ejecutas un agente automatizado β€” el flujo es siempre el mismo bucle sencillo.

1

Di o escribe tu intenciΓ³n

Abre el panel de chat o pulsa el micrΓ³fono. Describe lo que quieres en lenguaje sencillo: "Crea un encabezado llamado IntroducciΓ³n" o "Pon en cursiva el segundo pΓ‘rrafo."

2

El agente ejecuta las herramientas

El agente de IA traduce tu intenciΓ³n en llamadas precisas a herramientas MCP β€” localizando los Γ­ndices de caracteres adecuados, insertando o eliminando cadenas y aplicando tokens de formato.

3

Tu documento se actualiza al instante

El backend publica un evento de WebSocket. El editor vuelve a renderizar la vista A4 paginada en tiempo real. El agente confirma lo que hizo β€” por voz o texto.

Construido como plataforma de investigaciΓ³n

AgentDoc es el banco de pruebas empΓ­rico de una tesis en curso que evalΓΊa cΓ³mo el diseΓ±o de las herramientas afecta a la fiabilidad de los agentes de IA.

Interfaces solo de voz impulsadas por agentes

Este proyecto sustenta una tesis cientΓ­fica que evalΓΊa la granularidad de las herramientas, el exceso de herramientas y las restricciones de flujo de trabajo en agentes LLM que operan en un contexto de ediciΓ³n de documentos. El banco de pruebas mide la precisiΓ³n del agente mediante la distancia de Levenshtein, el consumo de tokens y las tasas de alucinaciΓ³n a lo largo de 20 configuraciones de flujo controladas (A–T) y 13 escenarios de referencia.

Gemini 3 Flash MCP / FastMCP ReAct FSM Exceso de herramientas Distancia de Levenshtein Desfase de Γ­ndices
Prueba el editor β†’

Notas de ingenierΓ­a y parches de versiΓ³n

ArtΓ­culos breves y densos sobre cΓ³mo estΓ‘ construido AgentDoc β€” decisiones de arquitectura, benchmarks y los errores para los que publicamos correcciones.

Todas las entradas β†’

ΒΏListo para editar sin ratΓ³n ni teclado?

Abre el editor y di tu primera instrucciΓ³n. Tu documento responderΓ‘.

Abrir el editor β†’