Soy EmplIAdo
Posts
OpenAI tiene (por fin) un plan para las “alucinaciones”

OpenAI tiene (por fin) un plan para las “alucinaciones”

La clave no es “más datos” sino cambiar cómo evaluamos: dejar de premiar el “adivinar” y empezar a recompensar la incertidumbre bien expresada (“no lo sé”) con crédito parcial.

10 de septiembre de 2025

In partnership with

Leer en nuestro sitio web / Tiempo de lectura para hoy: 10 minutos

Trusted by millions. Actually enjoyed by them too.

Most business news feels like homework. Morning Brew feels like a cheat sheet. Quick hits on business, tech, and finance—sharp enough to make sense, snappy enough to make you smile.

Try the newsletter for free and see why it’s the go-to for over 4 million professionals every morning.

Check it out

Hola, emplIAdos.

¿Te ha pasado que pides un dato puntual y la IA te responde cosas distintas cada vez? OpenAI publicó un estudio que explica por qué los modelos mienten con seguridad… y cómo reducirlo: hoy los benchmarks y entrenamientos castigan decir “no sé” y premian adivinar, así que el modelo aprende a bluffear.

La propuesta: cambiar la forma de puntuar para penalizar más las respuestas incorrectas que la abstención y dar crédito cuando el modelo expresa duda de forma calibrada. Resultado esperado: asistentes que admiten límites y alucinan menos.

Deep Dive: “Deja de adivinar y dilo claro”

Revisa el paper de OpenAI aquí

Qué encontró OpenAI

El incentivo está roto: los evals tipo examen (acierto = 1, “no sé” = 0) empujan a adivinar; eso sube el score aunque empeore la fiabilidad.
Ciclo vicioso: los modelos aprenden a sonar convincentes cuando dudan, porque así “ganan puntos”. Los leaderboards refuerzan el sesgo.
La corrección propuesta: modificar el “scoring”:
- Penalizar con mayor fuerza las respuestas erróneas frente a la abstención.
- Otorgar crédito parcial por reconocer incertidumbre y pedir más información.
- Medir calibración, no solo exactitud (ej.: que el 70% de respuestas con 0.7 de confianza sean realmente correctas).

Por qué esto importa a tu equipo

Menos desinformación: si cambias el incentivo, baja el “bluff” y sube la honestidad del asistente.
Mejor UX y confianza: respuestas con nivel de confianza + cita desbloquean flujos de verificación y revisión más rápidos.
Estándares del sector: si esta evaluación se adopta, veremos políticas de abstención por defecto en productos serios.

Ponlo en práctica hoy (10–15 min, copy/paste para tu prompt o spec):

Política de abstención (producto/prompt):

“Si tu confianza < 0.7 o no tienes fuente verificable, responde: ‘No estoy seguro’ y solicita datos adicionales o ofrece opciones para validar.”

Formato de salida calibrado:
- Respuesta
- Confianza (0–1) + por qué
- Citas con fecha (AAAA-MM-DD) o “sin evidencia suficiente”.
Guardarraíles de alucinación: bloquea afirmaciones sin fuente en áreas críticas (legal, salud, precios).
Métrica mínima viable: trackea tasa de abstención útil (cuando decir “no sé” ahorra errores), Brier score (calibración) y % de respuestas con cita.
Playbook de verificación: si hay abstención, el agente pide contexto (doc/URL) y reintenta con retrieval; si sigue incierto, deriva a humano.

Para leer a fondo (y enlazar en tu boletín):

Post oficial: “Why language models hallucinate” (OpenAI).
Paper (PDF): análisis de cómo los evals actuales premian el guess y propuesta de cambio de scoring.

Nota: Si ya usas ChatGPT/Claude, puedes combinar esto con ramas de conversación (branching) o búsqueda en chats previos para investigar sin romper el hilo, pero el mayor salto de calidad vendrá de cambiar incentivos y mostrar incertidumbre con transparencia.

Cosas que deberías probar hoy

Veo 3 y Veo 3 Fast (Google) — Los modelos de video ya están estables en la Gemini API, con recorte de precio cercano al 50% y salida 1080p en vertical 9:16. Úsalos para prototipos de anuncios/Reels directamente desde tus agentes o backend. Blog de Google y guía de API de Gemini.
Koah — Coloca anuncios dentro de conversaciones de IA cuando la intención del usuario coincide con tu negocio (alcanza 50+ apps como Liner, OpenEvidence y DeepAI). Anunciaron US$5M semilla.
Higgsfield — Genera imágenes y videos con plantillas listas para ASMR, anuncios de vallas, etc. Ideal para equipos sin editor.
Cognition (Devin) + Windsurf — Cognition cerró una ronda que valora la compañía en US$10.5B y adquirió Windsurf, su editor/IDE con IA; además, fichó a Shawn “swyx” Wang.
NotebookLM (Reports) — Ahora puedes generar reportes personalizados (incluye formato Blog Post y opción “Create your own”), sugerencias de temas y nuevas funciones de aprendizaje; soporte amplio de idiomas.
Tripo3D — De texto/foto a modelos 3D con retopología inteligente listos para juegos o impresión. Prueba gratuita; plan desde US$29.90/mes.

DE NUESTROS SOCIOS.

Los Mejores Prompts del Mercado.

Con God Of Prompts encontrarás los mejores prompts para todo lo que quieras y crear tus mejores órdenes para que ChatGPT y otras plataformas de IA funcionen para ti.

Ventas, productividad, ideas… todo lo tienes con God of Prompts.

Abre tu cuenta y te impresionarás de todo lo que hay dentro.

Puedes abrir tu cuenta gratis, pero si decides adquirir uno de los planes Premium usa este cupón y obtén 10% de descuento: INNOVAITE

Consejo del Día

Salesforce AI (Einstein Copilot) para ventas en 30–60 min

Objetivo: dejar un flujo que responda preguntas de producto, cree oportunidades/tareas y agende reuniones sin salir de Salesforce.

Requisitos (rápido): edición compatible de Salesforce en Lightning, activar Einstein generativo y Einstein Copilot, y asignar permisos.

Paso a paso

Activa Einstein Copilot
En Setup → Einstein → Einstein Copilot, activa la funcionalidad y revisa las políticas de datos (qué objetos puede leer/escribir). Si tu organización usa Data Cloud, conéctalo aquí para dar más contexto (opcional).
Define acciones (Copilot Actions)
Crea acciones para tareas típicas: “Crear oportunidad”, “Registrar nota de llamada”, “Enviar propuesta”. Puedes usar acciones estándar o Flows/Apex como backend de la acción. El panel de Copilot Studio centraliza acciones y orquesta qué puede hacer el asistente.
Agenda reuniones desde Copilot
Habilita la acción Send Meeting Request / flujo de calendario (o tu flujo propio) para que el asistente proponga horarios y envíe invitaciones. Comprueba que los usuarios tengan calendario conectado (Google/Outlook vía integraciones de Salesforce).
Prompt de sistema (seguridad y tono)
En Copilot Studio, define:
- Tono: claro y profesional LATAM.
- Límites: nunca inventar precios; si no sabe, “No tengo ese dato, ¿quieres que pregunte al equipo?”
- Datos permitidos: sólo objetos Accounts, Contacts, Opportunities, Cases.
Plantillas de intentos (prompts) para reps
- “Resume la cuenta Acme (últimos 90 días) y su probabilidad de cierre.”
- “Crea una oportunidad Plan Enterprise para Acme por US$45k, cierre 30/10, etapa Proposal.”
- “Propón 3 horarios la próxima semana para demo de 30 min con Ana Torres y envía invitación.”
  (Estas acciones usan el contexto CRM con grounding y citan campos reales.)
Pruebas en un sandbox
- Ejecuta 10 casos reales (crear oportunidad, actualizar etapa, generar tarea post-llamada, agendar demo).
- Revisa audit trail: quién creó/actualizó registros.
- Ajusta permisos y campos obligatorios si algo falla.
Métricas rápidas
- FRT (tiempo de primera respuesta en leads) ↓
- % de tareas creadas por Copilot
- Reuniones agendadas/semana por rep
- CSAT interno (encuesta a reps tras 1 semana)

Introducción y configuración de Einstein Copilot (Salesforce Help), Copilot Studio y Acciones (Salesforce Ben), y políticas de seguridad y governance (Trailhead/help).

Recursos útiles

	Ingresos Pasivos InteligentesEste boletín va de estrategias e ideas INCREIBLES para construir Ingresos Pasivos Inteligentes.

¿Te sirvió? Sube al Soy EmplIAdo PRO

Haz click en la imagen y únete a nuestra membresía PRO

Videos paso a paso de cada herramienta.
Prompts para copiar‑pegar.
Una sesión en vivo al mes con nuestro director.

La modalidad gratuita continúa, pero la PRO multiplica tu productividad. Únete aquí y transforma cada PDF ladrillo en resultados tangibles.

Conclusión

Menos alucinaciones, más confianza.

Hoy hablamos de cómo los grandes están ajustando incentivos (el paper de OpenAI que penaliza respuestas falsas y premia la incertidumbre honesta) y cómo el ecosistema regula sus excesos (caso Anthropic). Eso se traduce en asistentes más útiles y confiables para negocio.

Si activas Einstein Copilot con buenas acciones + guardrails, haces exactamente eso en tu operación: automatizas sin inventos, con registros trazables en CRM y resultados medibles. Y mientras el stack creativo (Veo 3, Higgsfield, NotebookLM) se abarata y acelera, la diferencia la pondrá tu flujo y tu gobernanza.

La tarea para esta semana: instala un asistente en tu canal clave (ventas/soporte), mide % de tareas/opps creadas por IA y compáralo contra tu baseline. Lo que no se mide, no mejora.

Nos vemos el viernes en tu bandeja de entrada.

Arthur quiere conocer tu opinión del Boletín de hoy.

Iniciar Sesión o Suscríbete para participar en las encuestas.

Reply

or to participate.