- Soy EmplIAdo
- Posts
- OpenAI tiene (por fin) un plan para las “alucinaciones”
OpenAI tiene (por fin) un plan para las “alucinaciones”
La clave no es “más datos” sino cambiar cómo evaluamos: dejar de premiar el “adivinar” y empezar a recompensar la incertidumbre bien expresada (“no lo sé”) con crédito parcial.
Leer en nuestro sitio web / Tiempo de lectura para hoy: 10 minutos
Trusted by millions. Actually enjoyed by them too.
Most business news feels like homework. Morning Brew feels like a cheat sheet. Quick hits on business, tech, and finance—sharp enough to make sense, snappy enough to make you smile.
Try the newsletter for free and see why it’s the go-to for over 4 million professionals every morning.
Hola, emplIAdos.
¿Te ha pasado que pides un dato puntual y la IA te responde cosas distintas cada vez? OpenAI publicó un estudio que explica por qué los modelos mienten con seguridad… y cómo reducirlo: hoy los benchmarks y entrenamientos castigan decir “no sé” y premian adivinar, así que el modelo aprende a bluffear.
La propuesta: cambiar la forma de puntuar para penalizar más las respuestas incorrectas que la abstención y dar crédito cuando el modelo expresa duda de forma calibrada. Resultado esperado: asistentes que admiten límites y alucinan menos.
Deep Dive: “Deja de adivinar y dilo claro”
Qué encontró OpenAI
El incentivo está roto: los evals tipo examen (acierto = 1, “no sé” = 0) empujan a adivinar; eso sube el score aunque empeore la fiabilidad.
Ciclo vicioso: los modelos aprenden a sonar convincentes cuando dudan, porque así “ganan puntos”. Los leaderboards refuerzan el sesgo.
La corrección propuesta: modificar el “scoring”:
Penalizar con mayor fuerza las respuestas erróneas frente a la abstención.
Otorgar crédito parcial por reconocer incertidumbre y pedir más información.
Medir calibración, no solo exactitud (ej.: que el 70% de respuestas con 0.7 de confianza sean realmente correctas).
Por qué esto importa a tu equipo
Menos desinformación: si cambias el incentivo, baja el “bluff” y sube la honestidad del asistente.
Mejor UX y confianza: respuestas con nivel de confianza + cita desbloquean flujos de verificación y revisión más rápidos.
Estándares del sector: si esta evaluación se adopta, veremos políticas de abstención por defecto en productos serios.
Ponlo en práctica hoy (10–15 min, copy/paste para tu prompt o spec):
Política de abstención (producto/prompt):
“Si tu confianza < 0.7 o no tienes fuente verificable, responde: ‘No estoy seguro’ y solicita datos adicionales o ofrece opciones para validar.”
Formato de salida calibrado:
Respuesta
Confianza (0–1) + por qué
Citas con fecha (AAAA-MM-DD) o “sin evidencia suficiente”.
Guardarraíles de alucinación: bloquea afirmaciones sin fuente en áreas críticas (legal, salud, precios).
Métrica mínima viable: trackea tasa de abstención útil (cuando decir “no sé” ahorra errores), Brier score (calibración) y % de respuestas con cita.
Playbook de verificación: si hay abstención, el agente pide contexto (doc/URL) y reintenta con retrieval; si sigue incierto, deriva a humano.
Para leer a fondo (y enlazar en tu boletín):
Post oficial: “Why language models hallucinate” (OpenAI).
Paper (PDF): análisis de cómo los evals actuales premian el guess y propuesta de cambio de scoring.
Nota: Si ya usas ChatGPT/Claude, puedes combinar esto con ramas de conversación (branching) o búsqueda en chats previos para investigar sin romper el hilo, pero el mayor salto de calidad vendrá de cambiar incentivos y mostrar incertidumbre con transparencia.
Cosas que deberías probar hoy
Veo 3 y Veo 3 Fast (Google) — Los modelos de video ya están estables en la Gemini API, con recorte de precio cercano al 50% y salida 1080p en vertical 9:16. Úsalos para prototipos de anuncios/Reels directamente desde tus agentes o backend. Blog de Google y guía de API de Gemini.
Koah — Coloca anuncios dentro de conversaciones de IA cuando la intención del usuario coincide con tu negocio (alcanza 50+ apps como Liner, OpenEvidence y DeepAI). Anunciaron US$5M semilla.
Higgsfield — Genera imágenes y videos con plantillas listas para ASMR, anuncios de vallas, etc. Ideal para equipos sin editor.
Cognition (Devin) + Windsurf — Cognition cerró una ronda que valora la compañía en US$10.5B y adquirió Windsurf, su editor/IDE con IA; además, fichó a Shawn “swyx” Wang.
NotebookLM (Reports) — Ahora puedes generar reportes personalizados (incluye formato Blog Post y opción “Create your own”), sugerencias de temas y nuevas funciones de aprendizaje; soporte amplio de idiomas.
Tripo3D — De texto/foto a modelos 3D con retopología inteligente listos para juegos o impresión. Prueba gratuita; plan desde US$29.90/mes.
DE NUESTROS SOCIOS.
Los Mejores Prompts del Mercado.

Con God Of Prompts encontrarás los mejores prompts para todo lo que quieras y crear tus mejores órdenes para que ChatGPT y otras plataformas de IA funcionen para ti.
Ventas, productividad, ideas… todo lo tienes con God of Prompts.
Abre tu cuenta y te impresionarás de todo lo que hay dentro.
Puedes abrir tu cuenta gratis, pero si decides adquirir uno de los planes Premium usa este cupón y obtén 10% de descuento: INNOVAITE
Lo Más Caliente
Acuerdo de Anthropic con autores por US$1.5B: el juez aplazó la aprobación preliminar y pidió una “lista definitiva” de obras para el 15 de septiembre. Clave para entender cómo se pagará ~US$3.000/obra.
ElevenLabs: aprobó una oferta de recompra/tender que valora la compañía en US$6.6B, permitiendo a empleados vender hasta US$100M en acciones.
Amazon lanzó Weekly Vibe: playlists con IA que se renuevan cada lunes en Music. Útil para explorar estados de ánimo/descubrimiento.
Cena en la Casa Blanca: Trump reunió a CEOs (Apple, OpenAI, Google, Microsoft, Meta, etc.); se habló de >US$1T en inversiones tecnológicas y del impulso a educación K-12 en IA vía la EO 14277 (liderada por Melania).
“Darwin Awards” de la IA: sí, existe un ránking de fails; hoy lidera el caso de Taco Bell cuyo drive-thru asistido por IA permitió pedir 18.000 vasos de agua.
Consejo del Día
Salesforce AI (Einstein Copilot) para ventas en 30–60 min
Objetivo: dejar un flujo que responda preguntas de producto, cree oportunidades/tareas y agende reuniones sin salir de Salesforce.
Requisitos (rápido): edición compatible de Salesforce en Lightning, activar Einstein generativo y Einstein Copilot, y asignar permisos.
Paso a paso
Activa Einstein Copilot
En Setup → Einstein → Einstein Copilot, activa la funcionalidad y revisa las políticas de datos (qué objetos puede leer/escribir). Si tu organización usa Data Cloud, conéctalo aquí para dar más contexto (opcional).Define acciones (Copilot Actions)
Crea acciones para tareas típicas: “Crear oportunidad”, “Registrar nota de llamada”, “Enviar propuesta”. Puedes usar acciones estándar o Flows/Apex como backend de la acción. El panel de Copilot Studio centraliza acciones y orquesta qué puede hacer el asistente.Agenda reuniones desde Copilot
Habilita la acción Send Meeting Request / flujo de calendario (o tu flujo propio) para que el asistente proponga horarios y envíe invitaciones. Comprueba que los usuarios tengan calendario conectado (Google/Outlook vía integraciones de Salesforce).Prompt de sistema (seguridad y tono)
En Copilot Studio, define:Tono: claro y profesional LATAM.
Límites: nunca inventar precios; si no sabe, “No tengo ese dato, ¿quieres que pregunte al equipo?”
Datos permitidos: sólo objetos Accounts, Contacts, Opportunities, Cases.
Plantillas de intentos (prompts) para reps
“Resume la cuenta Acme (últimos 90 días) y su probabilidad de cierre.”
“Crea una oportunidad Plan Enterprise para Acme por US$45k, cierre 30/10, etapa Proposal.”
“Propón 3 horarios la próxima semana para demo de 30 min con Ana Torres y envía invitación.”
(Estas acciones usan el contexto CRM con grounding y citan campos reales.)
Pruebas en un sandbox
Ejecuta 10 casos reales (crear oportunidad, actualizar etapa, generar tarea post-llamada, agendar demo).
Revisa audit trail: quién creó/actualizó registros.
Ajusta permisos y campos obligatorios si algo falla.
Métricas rápidas
FRT (tiempo de primera respuesta en leads) ↓
% de tareas creadas por Copilot
Reuniones agendadas/semana por rep
CSAT interno (encuesta a reps tras 1 semana)
Introducción y configuración de Einstein Copilot (Salesforce Help), Copilot Studio y Acciones (Salesforce Ben), y políticas de seguridad y governance (Trailhead/help).
|
¿Te sirvió? Sube al Soy EmplIAdo PRO
Videos paso a paso de cada herramienta.
Prompts para copiar‑pegar.
Una sesión en vivo al mes con nuestro director.
La modalidad gratuita continúa, pero la PRO multiplica tu productividad. Únete aquí y transforma cada PDF ladrillo en resultados tangibles.
Conclusión
Menos alucinaciones, más confianza.
Hoy hablamos de cómo los grandes están ajustando incentivos (el paper de OpenAI que penaliza respuestas falsas y premia la incertidumbre honesta) y cómo el ecosistema regula sus excesos (caso Anthropic). Eso se traduce en asistentes más útiles y confiables para negocio.
Si activas Einstein Copilot con buenas acciones + guardrails, haces exactamente eso en tu operación: automatizas sin inventos, con registros trazables en CRM y resultados medibles. Y mientras el stack creativo (Veo 3, Higgsfield, NotebookLM) se abarata y acelera, la diferencia la pondrá tu flujo y tu gobernanza.
La tarea para esta semana: instala un asistente en tu canal clave (ventas/soporte), mide % de tareas/opps creadas por IA y compáralo contra tu baseline. Lo que no se mide, no mejora.
Nos vemos el viernes en tu bandeja de entrada.
Arthur quiere conocer tu opinión del Boletín de hoy. |
Iniciar Sesión o Suscríbete para participar en las encuestas. |
Reply