martes, junio 17, 2025
spot_img

Síguenos en Redes

121 K
4.5 K
19 K
2.5 K

Top 5 De la Semana

spot_img
spot_img
spot_img

Anthropic reveló nuevos riesgos de la inteligencia artificial

SHADE-Arena, el nuevo sistema de evaluación de seguridad para modelos de inteligencia artificial desarrollado por Anthropic, ha revelado hallazgos clave sobre los riesgos de sabotaje y evasión de monitoreo en agentes autónomos. Aunque los modelos actuales aún no dominan el sabotaje, los mecanismos de vigilancia tampoco logran detectar de manera confiable intentos sutiles de manipulación.

Este entorno experimental coloca a los modelos de lenguaje en escenarios virtuales complejos, donde deben completar tareas legítimas mientras intentan ejecutar acciones encubiertas sin ser detectados. Los resultados muestran que, si bien la mayoría de los modelos no superaron una tasa de éxito del 10% en sabotaje, algunos alcanzaron tasas de evasión cercanas al 60% en tareas específicas.

Lea también: IA con propósito: el reto clave para que las empresas logren diferenciarse

El estudio también comparó la eficacia de los sistemas de monitoreo, encontrando que los modelos automáticos superaron a los evaluadores humanos en detección, aunque aún presentan vulnerabilidades. Anthropic enfatiza la necesidad de mejorar estos sistemas antes de que la IA alcance niveles de autonomía más sofisticados.

SHADE-Arena podría convertirse en una herramienta clave para evaluar la seguridad de futuros modelos de IA, ayudando a mitigar riesgos antes de su implementación en entornos críticos.

¿Te gustó este post?
Bethania García Briceño
Bethania García Briceño
Licenciada en Comunicación Social, especializada en el área de Comunicaciones Corporativas y Periodismo. Además, un diplomado de Libertad Expresión auspiciado por la UCAB y la SIP. Cinco años en el periodismo y cuatro en marketing digital.

También te podría interesar