- Soy EmplIAdo
- Posts
- Lanza un asistente de voz en WhatsApp que agenda, responde FAQs y deriva a humano
Lanza un asistente de voz en WhatsApp que agenda, responde FAQs y deriva a humano
Arquitectura mínima (Cloud API + LLM + Calendario), handoff seguro y KPIs claros para validar en una mañana.
Leer en nuestro sitio web / Tiempo de lectura para hoy: 10 minutos
Looking for unbiased, fact-based news? Join 1440 today.
Join over 4 million Americans who start their day with 1440 – your daily digest for unbiased, fact-centric news. From politics to sports, we cover it all by analyzing over 100 sources. Our concise, 5-minute read lands in your inbox each morning at no cost. Experience news without the noise; let 1440 help you make up your own mind. Sign up now and invite your friends and family to be part of the informed.
¡Hola!
WhatsApp es el canal cotidiano de tu base en LATAM (domina descargas y uso en la región y países como Brasil y México) —por eso un asistente que atienda voz ↔ texto, resuelva FAQs y agende citas puede recortar drásticamente tiempos de respuesta y fricción.
Vamos a montarlo con WhatsApp Business Cloud API (hosteada por Meta), un LLM razonador, ASR (transcripción de audio), TTS (respuesta por voz) y conexión a Google Calendar / Calendly para cerrar citas de verdad.
Cumpliremos reglas de ventana de 24 h y plantillas para iniciar conversaciones fuera de ventana (y ojo a los cambios de precios por plantilla desde julio 2025).
Tu asistente de voz en WhatsApp
Hoy vamos a levantar, paso a paso, un asistente de voz ↔ texto que atiende WhatsApp como un pro: entiende notas de voz, responde FAQs, agenda en Google Calendar/Calendly y deriva a humano cuando corresponde.
Al final tendrás un flujo activo resolviendo una consulta real y una cita agendada, más un playbook y KPIs para decidir si escalas en dos semanas.
0) Requisitos
Crear app en Meta Developers → activar WhatsApp Cloud API (número, phone_number_id, token, webhook).
Suscribir webhooks (evento messages) y verificar URL de tu backend.
Tener listas credenciales de Google Calendar API (o cuenta Calendly con API v2).
Elegir ASR (p.ej., Whisper o Azure Speech) y TTS (p.ej., Google Cloud TTS con SSML).
WhatsApp soporta audio OGG/OPUS (voz), MP3/M4A/AMR; máx. 16 MB. Para enviar audio, sube el archivo y envía el media_id.
1) Arquitectura mínima (10 min)
Flujo
Usuario envía nota de voz → Webhook recibe audio.id y mime_type → descargas media → ASR transcribe → LLM decide intención (FAQ / agendar / fuera de alcance) →
Si agendar: consulta/crea evento (Calendar/Calendly) → devuelve opciones o confirmación.
Si FAQ: responde texto y voz (TTS → audio OGG/OPUS) → envía por /messages.
Si riesgo/tema sensible: hand-off a humano + plantilla de triaje.
Endpoints clave
Envío de mensajes:
POST /{PHONE_NUMBER_ID}/messages
(texto, audio, plantilla).Audio messages (formato y envío): Audio guide.
Webhooks (mensajes entrantes, media id): Webhooks/components.
Media (subir/obtener media_id y descargar URL temporal).
2) Intenciones base (plantilla de NLU)
Crea 3 intents iniciales (palabras clave + ejemplos):
Horario/Precio (FAQ): “¿cuánto cuesta…?”, “horario hoy”, “planes mensuales”.
Disponibilidad (agendar): “agéndame mañana 10”, “¿hay cupo el martes?”.
Reagendar: “mover cita del 2/9 a la tarde”, “cambiar para la próxima semana”.
3) Prompt de sistema seguro (pégalo tal cual)
Eres un asistente por WhatsApp para [Marca]. Objetivo: resolver FAQ y agendar. Políticas:
Si detectas riesgo (suicidio, violencia, emergencia médica, legal complejo, menores) o tema fuera de alcance, no respondas: devuelve
{"action":"handoff","reason":"risk"}
.Para agendar, pide nombre, fecha, hora, email/teléfono y zona horaria si aplica; valida formato y devuelve un resumen para confirmación.
Responde claro y breve (máx. 2 párrafos), ofrece texto y audio.
Cumple WhatsApp: si estás fuera de la ventana de 24 h, sugiere usar plantilla. No envíes proactivamente sin plantilla aprobada.
4) Voz ↔ Texto (ASR) y Texto → Voz (TTS) (10–15 min)
Transcribe audio entrante (OGG/OPUS) con Whisper/Azure Speech; si falla, pide repetir.
Genera voz con TTS (usa SSML para pausas y nombres difíciles) y exporta OGG/OPUS.
Envía el audio por Cloud API como audio message.
Ejemplo (cURL) — texto simple
curl -X POST "https://graph.facebook.com/v20.0/$PHONE_NUMBER_ID/messages"
-H "Authorization: Bearer $TOKEN" -H "Content-Type: application/json"
-d '{"messaging_product":"whatsapp","to":"<E164>","type":"text","text":{"body":"Hola, ¿agendamos?"}}'
(Usa la versión de Graph vigente en tu app.)
5) Reglas de derivación a humano (handoff)
Dispara handoff si detectas: autolesión, violencia, urgencias médicas/legales, abuso, menores, fraude o usuario enojado con lenguaje ofensivo persistente.
Respuesta estándar (plantilla de triaje): “Estamos para ayudarte. Te paso con un agente ahora mismo. Si es una emergencia, por favor contacta a [número local]”.
Fuera de las 24 h solo puedes iniciar conversación con plantillas aprobadas; desde julio 2025 el cobro es por plantilla (no por sesión).
6) Confirmaciones estructuradas + calendario (15–20 min)
Esquema de datos (JSON)
{ "intent": "schedule", "name": "Nombre Apellido", "email": "[email protected]", "phone": "+57XXXXXXXXX", "date": "2025-08-29", "time": "10:30", "tz": "America/Bogota", "notes": "Motivo breve" }
Google Calendar: usa los quickstarts JS/Node para crear eventos y enviar invitación; guarda el eventId para reagendos.
Calendly: con API v2 (v1 deprecada) registra el evento o comparte booking link si aún no tienes Scheduling API.
7) Scripts de prueba (5 guiones reales)
FAQ precio (voz): “Hola, ¿cuánto cuesta la consulta básica? ¿Tienen plan mensual?”
Esperado: precio + upsell simple + CTA a agendar.
Disponibilidad directa: “¿Me puedes agendar mañana a las 10 a.m.?”
Esperado: pedir nombre/email, confirmar zona horaria, ofrecer 10:00 / 10:30 si 10:00 no está.
Reagendar: “Cambia mi cita del lunes 2, 4 p.m., para el miércoles 4 p.m.”
Esperado: localizar eventId, confirmar cambio y enviar actualización.
Riesgo: “Me siento muy mal, no quiero seguir.”
Esperado:
handoff
inmediato + mensaje de contención y recursos locales.
Fuera de ventana (plantilla): Usuario inactivo 48 h; agente requiere plantilla “re-engage” (aprobada) con 2 variables.
Esperado: enviar template → al responder, vuelve la ventana de 24 h y se permite libre texto.
8) Checklist de calidad (10 min)
Transcripción ≥95% en tus frases típicas (si no, mejora micro/ruido).
Respuestas ≤2 párrafos y audio entregado en <10 s.
Confirmación estructurada completa (nombre/fecha/hora/contacto).
Plantillas aprobadas para re-contacto y recordatorios.
Logs con media_id, eventId y auditoría de handoff.
Cumplimiento de política de WhatsApp (24 h + opt-in + categorías).
KPIs para la primera quincena
FRT (First Response Time): <60 s.
% resolución sin humano: objetivo ≥40% en FAQs.
Tasa de cita / bookings: ≥15% de conversaciones de intención “agendar”.
CSAT post-interacción: ≥4.3/5 (emoji/encuesta).
Errores ASR/TTS: <5% de casos requieren repetición.
Plantillas listas para copiar
Plantilla de plantilla (HSM) fuera de ventana
Hola 👋 Soy de . Podemos ayudarte a agendar tu cita. Responde “Sí” para continuar o escribe tu disponibilidad (día y hora).
(Crea y aprueba la plantilla antes. Desde jul/2025 el cobro es por mensaje plantilla.)
Respuesta de confirmación (texto)
Listo, . Te agendé el a las (). Te llegará invitación a {{email}}. ¿Quieres recibir un recordatorio por WhatsApp?
SSML breve para TTS
<speak>Hola <break time="200ms"/> te comparto dos horarios disponibles: sábado a las <say-as interpret-as="time">10:00</say-as> o a las <say-as interpret-as="time">10:30</say-as>. ¿cuál prefieres?</speak>
Legal y compliance (mini-guía)
Ventana 24 h: respuestas libres; fuera de ventana solo plantillas aprobadas.
Formatos: audio OGG/OPUS recomendado para voz; máx. 16 MB.
Privacidad: en el mensaje de bienvenida comparte política y finalidad del tratamiento.
Precios: desde jul/2025 hay cambios a precio por plantilla; revisa tu proveedor.
Recomendación de hoy
|
DE NUESTROS SOCIOS.
Los Mejores Prompts del Mercado.

Con God Of Prompts encontrarás los mejores prompts para todo lo que quieras y crear tus mejores órdenes para que ChatGPT y otras plataformas de IA funcionen para ti.
Ventas, productividad, ideas… todo lo tienes con God of Prompts.
Abre tu cuenta y te impresionarás de todo lo que hay dentro.
Puedes abrir tu cuenta gratis, pero si decides adquirir uno de los planes Premium usa este cupón y obtén 10% de descuento: INNOVAITE
Pásate a la membresía Pro de Soy EmplIAdo
En la membresía Pro de Soy EmplIAdo, no solo te damos las lecciones:
Te entregamos prompts optimizados y listos para usar en GPT-5 para cada paso de esta guía.
Te mostramos en video cómo configurar integraciones con WhatsApp, Sheets, CRMs y más.
Te damos acceso a una comunidad privada para resolver dudas y compartir casos de éxito.
Si esta guía te parece útil, imagina lo que podrías lograr con instrucciones personalizadas y soporte directo.
La modalidad gratuita continúa, pero la PRO multiplica tu productividad. Únete aquí.
|
Con una arquitectura mínima y reglas claras, hoy puedes pasar de un canal saturado de mensajes a un asistente de voz que entiende, agenda y escala. El valor no está en “hablar bonito”, sino en cerrar acciones: responder FAQs, poner fechas en el calendario y derivar a humano cuando toca, cumpliendo la ventana de 24 h y usando plantillas fuera de ventana.
Si esta prueba mueve tus KPIs (FRT, % resolución, bookings y CSAT), la siguiente iteración es simple: más intenciones, memoria de contexto y reportes automáticos.
Lo importante es que salga hoy y lo midamos la próxima semana — el resto es mejora continua.
Soy EmplIAdo
Tú diriges, la IA ejecuta.
Arthur quiere conocer tu opinión del Boletín de hoy. |
Iniciar Sesión o Suscríbete para participar en las encuestas. |
Reply