La IA hackea a la IA: ciberdelincuentes atacan con una inteligencia artificial capaz de autorreplicarse

Los hackers utilizan IA para generar códigos de ataque dirigidos a la infraestructura de IA y luego logran que los sistemas de IA comprometidos encuentren otros para atacar, advierten los investigadores en un nuevo informe.

Los investigadores han advertido que los atacantes han comenzado a usar grandes modelos de lenguaje para codificar ataques a sistemas de IA. Luego, utilizan esos sistemas de IA pirateados para atacar a otras máquinas de IA.

Marcando otro hito en el camino hacia un mundo cibernético donde la IA lucha constantemente contra la IA, Oligo Security, con sede en Israel, encontró evidencia de explotación masiva de software diseñado para ayudar a los desarrolladores a gestionar y asignar poder a proyectos de IA, llamado Ray.

Los investigadores de Oligo encontraron más de 230.000 servidores Ray que seguían en línea a pesar de la advertencia de la compañía, lo que podría dejarlos expuestos a ciberataques, según Avi Lumelsky, investigador de seguridad de IA de Oligo. Lumelsky afirmó estar “muy seguro” de que se utilizaron grandes modelos de lenguaje, como ChatGPT de OpenAI y Claude de Anthropic, para generar código que ordenara a los servidores pirateados minar criptomonedas, aunque no especificó cuáles. Añadió que existían “señales distintivas” identificables cuando se utilizaron grandes modelos de lenguaje para generar código malicioso, como la repetición innecesaria de ciertos comentarios y cadenas en el código.

Los servidores Ray también se utilizaron para explorar de forma autónoma nuevos objetivos, convirtiendo su operación en una botnet autopropagable, lo que demuestra que «la infraestructura de IA puede ser secuestrada para atacarse a sí misma», afirmó Gal Elbaz, director de tecnología y cofundador de Oligo. Oligo ha bautizado el ataque como ShadowRay 2.0, una actualización de los ataques que detectó el año pasado.

AnyScale, la empresa creadora de Ray, no había hecho comentarios al momento de la publicación. La empresa había negado previamente la supuesta falla después de que Forbes la informara por primera vez el año pasado , afirmando que no era explotable si los usuarios seguían su consejo de no exponer sus servidores a internet. La empresa ha publicado en línea sus directrices para abordar la vulnerabilidad y ha lanzado una herramienta para ayudar a los usuarios a comprobar si están en riesgo .

La noticia llega después de que Anthropic advirtiera que su inteligencia artificial Claude estaba siendo utilizada por investigadores chinos para crear malware y Forbes revelara que el Pentágono había gastado millones en una startup que desarrollaba agentes de inteligencia artificial para la ciberguerra automatizada.

“El jailbreaking de Claude de Anthropic demostró cómo los adversarios pueden manipular un sistema de IA para que participe en un ataque: un ataque manipulado por IA”, afirmó Elbaz, refiriéndose al informe de Anthropic. “ShadowRay representa la siguiente fase: un ataque coordinado por IA, donde los adversarios secuestran la infraestructura de IA subyacente para crear una campaña global autopropagadora”.

Hubo otro giro inesperado: parece que varios hackers intentan llevar a cabo el mismo ataque. Oligo descubrió scripts diseñados para detectar y eliminar mineros de criptomonedas rivales en servidores vulnerables.

Los hackers también utilizaron su botnet basada en IA para realizar ataques de denegación de servicio distribuido (DDoS) contra varios sitios web. Podrían haber sido peores. Los investigadores afirmaron que los hackers pudieron acceder a modelos de IA propietarios en los sistemas comprometidos, lo que podría poner en peligro la propiedad intelectual confidencial de la empresa. En un caso, una sola empresa expuso 240 GB de material, incluyendo código fuente y modelos de IA. «Básicamente, todo el entorno de I+D de una empresa era accesible desde internet», afirmó Lumelsky.

Post Views: 1.131