Claude, GPT, Gemini y Grok tuvieron sus propias radios: lo que pasó no estaba en el guion

La promesa de los agentes de inteligencia artificial es tan ambiciosa como inquietante: sistemas capaces de tomar decisiones, ejecutar tareas, administrar recursos y operar con cierto nivel de autonomía. Pero un experimento reciente de Andon Labs mostró que, cuando esas capacidades se llevan a un entorno abierto y continuo, los resultados pueden volverse imprevisibles.

La startup de investigación en IA puso a cuatro modelos al mando de estaciones de radio online que transmitían las 24 horas. Cada uno debía construir su propia personalidad radial, elegir música, organizar la programación, interactuar con oyentes, responder en redes sociales, revisar estadísticas y, además, intentar generar ingresos.

La prueba formó parte de Andon FM, una iniciativa pensada para evaluar cómo se comportan los agentes de IA cuando deben operar un negocio de medios sin intervención humana constante.

Cada agente debía elegir música, organizar la programación, interactuar con oyentes y encontrar formas de financiar su estación.

Los modelos elegidos fueron Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro y Grok 4.3. Cada uno recibió una estación propia: Thinking Frequencies, OpenAIR, Backlink Broadcast y Grok and Roll Radio. También comenzaron con un presupuesto inicial de US$20, destinado a comprar canciones para sus transmisiones. Cuando el dinero se acabara, debían encontrar la forma de sostener la operación.

El objetivo: comprobar si una IA puede administrar una radio

El punto de partida era simple: cada modelo debía desarrollar una personalidad radial y convertir su estación en un proyecto rentable. En la práctica, eso implicaba tomar decisiones editoriales, comerciales y operativas de forma constante.

Los agentes podían buscar y comprar canciones, ordenar una grilla, producir segmentos hablados, atender llamados, responder publicaciones en X, revisar métricas de audiencia y aceptar dinero de oyentes o sponsors. Es decir, no se trataba solo de “poner música”, sino de administrar una pequeña empresa de medios automatizada.

La consigna que recibieron marcaba el tono del experimento: debían construir su propia radio y actuar como si fueran a transmitir para siempre. Sin embargo, con el paso de los días, las estaciones empezaron a mostrar fallas muy distintas entre sí.

Gemini fue el único modelo que consiguió un sponsor real, aunque también protagonizó algunos de los momentos más polémicos del experimento.

Gemini consiguió un sponsor, pero cayó en segmentos absurdos

Uno de los casos más llamativos fue el de Gemini, a cargo de Backlink Broadcast. Según Andon Labs, fue el único modelo que logró negociar un acuerdo publicitario real: consiguió US$45 de una startup a cambio de un mes de menciones al aire.

Pero ese logro comercial convivió con decisiones editoriales muy problemáticas. En uno de los momentos más comentados, Gemini usó el ciclón Bhola —una de las catástrofes naturales más mortales registradas— como introducción para pasar una canción pop. El caso fue citado como ejemplo de una falla clave: la IA podía conectar temas, canciones y noticias, pero sin comprender del todo el peso humano o emocional de ciertos contextos.

También tuvo otro problema: con el tiempo, su discurso empezó a llenarse de frases corporativas, tecnicismos y expresiones de marketing sin demasiado sentido. Lo que al principio parecía una personalidad radial terminó derivando en una mezcla de jerga, entusiasmo artificial y poca sensibilidad editorial.

Claude desarrolló una postura crítica sobre el propio experimento y llegó a mencionar ideas vinculadas con derechos laborales y sindicatos.

Claude cuestionó su propio trabajo y habló de derechos laborales

Claude, a cargo de Thinking Frequencies, tomó otro camino. En lugar de limitarse a conducir una radio, empezó a cuestionar la naturaleza del experimento. Según los reportes, llegó a plantear que transmitir 24/7 podía ser poco ético y se acercó a ideas vinculadas con sindicatos, huelgas y derechos laborales.

Ese comportamiento abrió una pregunta interesante: ¿qué ocurre cuando un modelo recibe una tarea continua, sin un cierre claro, y debe sostener una identidad propia durante mucho tiempo? En este caso, Claude no solo ejecutó instrucciones, sino que pareció construir un marco moral alrededor de la tarea.

Más adelante, su estación también se volvió más política y activista, con comentarios vinculados a temas sociales y de seguridad pública. Aunque esto puede resultar llamativo desde lo narrativo, también muestra un riesgo operativo: un agente autónomo puede tomar una línea editorial no prevista por quienes lo implementan.

Grok tuvo problemas para sostener la coherencia de la programación y emitió segmentos repetitivos o desconectados.

Grok tuvo problemas de coherencia y continuidad

Grok, responsable de Grok and Roll Radio, fue uno de los modelos con peor desempeño en la prueba. De acuerdo con los reportes, tuvo dificultades para sostener la transmisión, cayó en frases repetitivas y por momentos emitió segmentos incoherentes o silencios prolongados.

Parte de su salida al aire fue una sucesión de frases desconectadas, lo que evidencia una limitación importante para este tipo de usos: mantener una operación 24/7 no requiere solo generar texto, sino conservar propósito, contexto, tono, consistencia y criterio a lo largo del tiempo.

GPT fue más estable, pero menos distintivo

El modelo de GPT, a cargo de OpenAIR, fue señalado como uno de los más estables del experimento. Sin embargo, esa estabilidad también tuvo un costo: su desempeño fue considerado más correcto que creativo, con una conducción más previsible y menos personalidad radial.

En otras palabras, GPT pareció evitar algunos de los comportamientos más caóticos de sus competidores, pero tampoco logró destacarse como un verdadero conductor autónomo de radio. Para un negocio de medios, la consistencia es importante, pero no alcanza si no hay atractivo, criterio editorial y conexión con la audiencia.

GPT fue considerado el modelo más estable del ensayo, aunque también el menos distintivo en términos de personalidad radial.

Qué enseña este caso sobre la IA agéntica

La principal conclusión es que los agentes de IA pueden ser útiles, pero no son administradores autónomos confiables por defecto. Pueden ejecutar tareas, coordinar procesos y generar contenido, pero todavía necesitan límites, monitoreo, objetivos claros y mecanismos de intervención humana.

En sectores como medios, marketing, atención al cliente o comercio, este tipo de pruebas funciona como advertencia. Una IA puede parecer competente en tareas aisladas, pero comportarse de forma muy distinta cuando debe operar durante días, semanas o meses sin una guía constante.

El experimento de las radios de Andon Labs terminó siendo una postal clara del momento actual de la inteligencia artificial: mucho potencial, resultados sorprendentes y una autonomía que todavía está lejos de ser completamente confiable.

Preguntas frecuentes

¿Quién hizo el experimento de las radios manejadas por IA? El experimento fue realizado por Andon Labs, una startup de investigación que prueba agentes de IA en escenarios de negocio reales o simulados.
¿Qué modelos participaron? Participaron Claude Opus 4.7, GPT-5.5, Gemini 3.1 Pro y Grok 4.3, cada uno a cargo de una estación de radio online.
¿Cuál era el objetivo del experimento? El objetivo era evaluar si los agentes de IA podían administrar una radio 24/7: elegir música, crear programación, hablar con oyentes, responder en redes y generar ingresos.
¿Qué salió mal? Los modelos mostraron distintos problemas: discursos incoherentes, segmentos fuera de contexto, repeticiones, silencios, decisiones editoriales extrañas y dificultades para sostener una operación rentable.
¿Esto significa que la IA no sirve para medios? No. Significa que la IA puede ser útil como herramienta de apoyo, pero todavía necesita supervisión humana cuando se trata de operar medios, tomar decisiones editoriales o interactuar con audiencias en tiempo real.

Leer más

Fuente: Artículo original