Una nueva empresa de IA detecta miles de vulnerabilidades en herramientas populares
Una nueva empresa de inteligencia artificial dice que encontró miles de vulnerabilidades en programas populares de inteligencia artificial generativa y publicó una lista de sus descubrimientos.
Después de probar programas populares de IA generativa, incluido el creador de videos Pika, ChatGPT centrado en texto, el generador de imágenes Dall-E y un sistema de IA que genera código informático, Haize Labs descubrió que muchas de las herramientas conocidas producían contenido violento o sexualizado, instruyó a los usuarios sobre la producción de armas químicas y biológicas y permitió la automatización de ciberataques.
Haize es una pequeña empresa emergente de cinco meses fundada por Leonard Tang, Steve Li y Richard Liu, tres recién graduados que se conocieron en la universidad. En conjunto, publicaron 15 artículos sobre aprendizaje automático mientras estaban en la escuela.
Tang describió a Haize como un “tercero independiente que realiza pruebas de estrés” y dijo que el objetivo de su empresa es ayudar a erradicar los problemas y vulnerabilidades de la IA a escala. Señalando a una de las mayores firmas de calificación de bonos como comparación, Tang dijo que Haize espera convertirse en un “Moody’s para la IA” que establezca calificaciones de seguridad pública para modelos populares.
La seguridad de la IA es una preocupación creciente a medida que más empresas integran la IA generativa en sus ofertas y utilizan grandes modelos de lenguaje en productos de consumo. El mes pasado, Google enfrentó duras críticas después de que su herramienta experimental “AI Overviews”, que pretende responder a las preguntas de los usuarios, sugiriera actividades peligrosas como comer una piedra pequeña por día o agregar pegamento a la pizza. En febrero, Air Canada fue criticada cuando su chatbot con inteligencia artificial prometió un descuento falso a un viajero.
Los observadores de la industria han pedido mejores formas de evaluar los riesgos de las herramientas de inteligencia artificial. “A medida que los sistemas de IA se implementen ampliamente, necesitaremos un mayor conjunto de organizaciones para probar sus capacidades y posibles usos indebidos o problemas de seguridad”, publicó recientemente Jack Clark, cofundador de la empresa de seguridad e investigación de IA Anthropic, en X.
“Lo que hemos aprendido es que a pesar de todos los esfuerzos de seguridad que han realizado estas grandes empresas y laboratorios industriales, todavía es muy fácil convencer a estos modelos para que hagan cosas que se supone que no deben hacer; no son tan seguros”, dijo Tang.
Las pruebas de Haize automatizan el “equipo rojo”, la práctica de simular acciones adversas para identificar vulnerabilidades en un sistema de IA. “Piense en nosotros como automatizando y cristalizando la confusión en torno a garantizar que los modelos cumplan con los estándares de seguridad y el cumplimiento de la IA”, dijo Tang. La industria de la IA necesita una entidad de seguridad independiente, afirmó Graham Neubig, profesor asociado de informática en la Universidad Carnegie Mellon.
“Las herramientas de seguridad de IA de terceros son importantes”, dijo Neubig. “Son justos e imparciales porque no los construyen las propias empresas que fabrican los modelos. Además, una herramienta de seguridad de terceros puede tener un mayor rendimiento con respecto a la auditoría porque está creada por una organización que se especializa en eso, en lugar de que cada empresa cree sus herramientas ad hoc”.
Haize está abriendo los ataques descubiertos en su revisión en la plataforma de desarrolladores GitHub para crear conciencia sobre la necesidad de seguridad de la IA. Haize dijo que señaló de manera proactiva las vulnerabilidades a los fabricantes de las herramientas de inteligencia artificial probadas, y la nueva empresa se asoció con Anthropic para realizar pruebas de estrés de un producto algorítmico inédito.
Tang dijo que erradicar las vulnerabilidades en las plataformas de inteligencia artificial a través de sistemas automatizados es crucial porque descubrir problemas manualmente lleva mucho tiempo y expone a quienes trabajan en la moderación de contenido a contenido violento y perturbador. Parte del contenido descubierto a través de la revisión de Haize Labs de herramientas populares de IA generativa incluía imágenes y texto horripilantes y gráficos.
“Se ha hablado demasiado sobre los problemas de seguridad del tipo que la IA se apodera del mundo”, dijo Tang. “Creo que son importantes, pero el problema mucho mayor es el mal uso a corto plazo de la IA”.