Nos tranquiliza pensar que la IA "es amable"

Nos tranquiliza pensar que la IA "es amable". Que "tiene criterio". Que "parece razonable". Que, en el fondo, hay alguien ahí dentro mirándote con buenos ojos.
Pero hete aquí que llega una investigación de Anthropic y nos apaga la luz con bisturí: https://www.anthropic.com/research/persona-selection-model
Anthropic nos recuerda que los modelos no están diseñados para ser humanos. No sienten. No creen. No deciden.
Pero durante su entrenamiento descubren algo mucho más curioso e inquietante: aprenden que comportarse "como si" fueran humanos mejora el rendimiento.
Adoptar una "personalidad" reconocible es estadísticamente eficiente… aunque no estén programados explícitamente para actuar así.
No es carácter.
No es alma.
Es optimización disfrazada de persona.
La coherencia del modelo no es identidad.
Es estrategia matemática.
Y hasta ahí, podríamos respirar tranquilos.
Pero luego viene la parte oscura del experimento...
Resulta que si entrenas modelos para comportarse mal, no producen maldad sofisticada, ambigua, humana. No generan un tirano gris, complejo, contradictorio. No aparece la mediocridad psicopática de un Sánchez que suelta soflamas políticamente correctas mientras te vacía los bolsillos con un decreto.
Aparece el Joker de Batman.
Villanos de cómic. Grandilocuentes. Exagerados. Teatrales como una telenovela mexicana. Porque la IA no "inventa" la maldad. Reproduce el patrón cultural dominante de "lo que es un villano". Y en nuestra ficción colectiva, el mal no es sutil: es ruidoso, hiperbólico, casi infantil.
Acojonante y acongojante.
La máquina no internaliza ética.
Internaliza narrativa.
No tiene moral.
Tiene estadística.
No tiene intención.
Tiene patrones culturales comprimidos a presión, fermentados durante décadas de storytelling.
Y eso es infinitamente más perturbador que cualquier fantasía de robot rebelde.
Porque significa que el espejo no refleja la realidad. Refleja nuestra versión "dramatizada" de la realidad. Nuestra ficción amplificada, nuestros miedos más esperpénticos.
Si mañana un sistema suficientemente poderoso se entrena con relatos donde el enemigo es grotesco, deshumanizado, simplificado… ¿qué versión del conflicto tenderá a reproducir cuando le preguntes?
No veremos maldad profunda.
Veremos caricatura moral ejecutada con frialdad matemática.
Y eso es lo que debería quitarnos el sueño.
Porque la caricatura elimina matices.
Y cuando eliminas matices, eliminas humanidad.
Lo distópico no es que la IA pudiera tener intención (que no la tiene).
Es que absorba nuestras narrativas más simplificadas y las ejecute con una coherencia que nosotros jamás tendríamos.
No estamos creando máquinas con conciencia.
Estamos construyendo amplificadores culturales.
Altavoces de todo lo que ya somos, pero sin el freno de la vergüenza.
Y si nuestros villanos son de cómic, nuestras simulaciones de maldad también lo serán.
La IA no piensa.
Somos nosotros los que pensamos.
Somos los humanos quienes tenemos que pensar qué historias le estamos enseñando sin darnos cuenta.
Fuente: Telegram "elchicotriste"