Anthropic reveló nuevos riesgos de la inteligencia artificial

SHADE-Arena, el nuevo sistema de evaluación de seguridad para modelos de inteligencia artificial desarrollado por Anthropic, ha revelado hallazgos clave sobre los riesgos de sabotaje y evasión de monitoreo en agentes autónomos. Aunque los modelos actuales aún no dominan el sabotaje, los mecanismos de vigilancia tampoco logran detectar de manera confiable intentos sutiles de manipulación.

Este entorno experimental coloca a los modelos de lenguaje en escenarios virtuales complejos, donde deben completar tareas legítimas mientras intentan ejecutar acciones encubiertas sin ser detectados. Los resultados muestran que, si bien la mayoría de los modelos no superaron una tasa de éxito del 10% en sabotaje, algunos alcanzaron tasas de evasión cercanas al 60% en tareas específicas.

Lea también: IA con propósito: el reto clave para que las empresas logren diferenciarse

El estudio también comparó la eficacia de los sistemas de monitoreo, encontrando que los modelos automáticos superaron a los evaluadores humanos en detección, aunque aún presentan vulnerabilidades. Anthropic enfatiza la necesidad de mejorar estos sistemas antes de que la IA alcance niveles de autonomía más sofisticados.

SHADE-Arena podría convertirse en una herramienta clave para evaluar la seguridad de futuros modelos de IA, ayudando a mitigar riesgos antes de su implementación en entornos críticos.

Experto de la Semana

Comercio Electronico

Trends y Estudios

Logística

Pagos Online

Mundo Startup

Agenda Legal

Informes Especiales

Podcast

Ecommercenews

Experto de la Semana

Comercio Electronico

Trends y Estudios

Logística

Pagos Online

Mundo Startup

Agenda Legal

Informes Especiales

Podcast

Ecommercenews

Síguenos en Redes

Top 5 De la Semana

También te podría interesar

Sobre nosotros

Conversemos

(511) 644 9003

976 079 698

prensa@capece.org.pe

Av.Arequipa N 2930 San Isidro, Lima - Perú