Los altos funcionarios del gobierno estadounidense muestran una creciente inquietud ante el potencial impacto adverso que los chatbots impulsados por la inteligencia artificial pueden tener en el tejido social.
Mientras tanto, las influyentes empresas tecnológicas del Valle del Silicio, a pesar de su acelerado impulso para lanzar al mercado estas soluciones, están manifestando un vivo interés en la competición de tres días que culminará el próximo domingo en el marco de la conferencia de expertos en ciberseguridad, DefCon, que tiene lugar en Las Vegas.
Un contingente de alrededor de 3.500 participantes está empleando sus equipos portátiles en un ejercicio enfocado en desvelar las posibles vulnerabilidades presentes en ocho modelos preeminentes de procesamiento de lenguaje a gran escala.
Estos modelos, representativos de la próxima ola de progresos tecnológicos, se encuentran bajo el escrutinio de la comunidad en este inédito desafío de «equipo rojo».
Es importante señalar que los resultados de este evento pionero no se traducirán de manera inmediata en soluciones concretas o inmediatas.
¿Qué fallas presentan los chats de inteligencia artificial?
Los sistemas de inteligencia artificial por texto, si bien impresionantes, no están exentos de fallas. Aunque han avanzado enormemente en la comprensión y generación de lenguaje humano, todavía enfrentan desafíos notables.
Estas fallas pueden manifestarse de diversas formas. En algunos casos, el sistema puede malinterpretar la intención del usuario, resultando en respuestas irrelevantes o incorrectas. Además, los modelos de lenguaje pueden ser sensibles a sesgos inherentes en los datos de entrenamiento, lo que puede llevar a respuestas discriminatorias o inapropiadas.
Otro problema es la generación de información falsa o engañosa, ya que los modelos no siempre pueden discernir entre datos verídicos y ficticios presentes en su entrenamiento.
Además, pueden ser propensos a producir respuestas incoherentes o incomprensibles, lo que dificulta la comunicación efectiva. La falta de contexto a veces también conduce a respuestas confusas.
Resolver estas fallas es un desafío continuo que requiere enfoques multidisciplinarios. Implica mejoras en la calidad y diversidad de los datos de entrenamiento, la implementación de mecanismos de detección de sesgos y la construcción de sistemas de retroalimentación para aprender de las interacciones con los usuarios.
A medida que la investigación avanza, es probable que veamos mejoras graduales en la capacidad de los sistemas de inteligencia artificial para abordar estas deficiencias y proporcionar interacciones más efectivas y seguras.
¿Qué solución se le puede dar a estas fallas?
La resolución de los desafíos inherentes a los sistemas de inteligencia artificial en el ámbito del procesamiento de lenguaje requiere una estrategia multidimensional. En primer lugar, es esencial una mejora sustancial en la calidad y diversidad de los datos de entrenamiento para reducir la presencia de sesgos y distorsiones.
La implementación de métodos de supervisión y revisión continua durante el proceso de entrenamiento puede ayudar a detectar y mitigar posibles sesgos y prevenir respuestas discriminatorias o incorrectas.
El desarrollo de algoritmos de comprensión contextual más sofisticados permitirá a los sistemas de inteligencia artificial captar la intención y el contexto del usuario de manera más precisa, lo que resultará en respuestas más pertinentes y coherentes. La integración de mecanismos de verificación de información también puede ser fundamental para evitar la propagación de información falsa.
Para abordar la generación de contenido inapropiado o engañoso, la implementación de modelos de generación de lenguaje controlados y la aplicación de filtros de contenido pueden ser medidas efectivas.
La colaboración entre investigadores, desarrolladores y expertos en ética es esencial para analizar y mejorar continuamente los sistemas de inteligencia artificial.
Una combinación de mejoras en los datos de entrenamiento, algoritmos avanzados, herramientas de supervisión y colaboración interdisciplinaria constituyen el camino hacia la solución de los inconvenientes actuales en los sistemas de inteligencia artificial por texto, con el objetivo de lograr interacciones más seguras, coherentes y útiles.
Los sistemas actuales de inteligencia artificial y su complejidad
Los modelos de inteligencia artificial en vigencia enfrentan una serie de desafíos que los hacen altamente complejos y de manejo delicado, según se revela en la investigación académica y empresarial.
La consideración de la seguridad, en muchos casos, se incorporó de manera tardía en su proceso de desarrollo, mientras los científicos de datos recopilaban colecciones sumamente elaboradas de imágenes y textos.
Estos modelos demuestran ser susceptibles a sesgos de carácter racial y cultural, y su maleabilidad los hace susceptibles a manipulación.
«Resulta tentador pensar que podemos abordar la seguridad de estos sistemas añadiendo medidas a posteriori, como si pudiéramos esparcir una suerte de polvo mágico de seguridad una vez que ya estén construidos, o incorporar soluciones de seguridad de forma adicional», expresó Gary McGraw, veterano en ciberseguridad y cofundador del Berryville Institute of Machine Learning.
Michael Sellitto de Anthropic, experto que proporcionó uno de los modelos de inteligencia artificial para pruebas, admitió en una rueda de prensa que «comprender sus capacidades y los desafíos de seguridad asociados es una dimensión que aún se encuentra en una etapa de investigación científica abierta».
Códigos e instrucciones
Los sistemas convencionales de software se basan en un código establecido que proporciona instrucciones explícitas, detalladas en pasos secuenciales. Por otro lado, modelos como ChatGPT de OpenAI, Bard de Google y otros similares, adoptan un enfoque distinto.
Su capacitación, mayormente derivada del procesamiento y categorización de vastos conjuntos de datos obtenidos del rastreo de internet, los define como obras en evolución continua.
Esta dinámica, aunque prometedora en términos de potencial transformador para la humanidad, también suscita inquietudes.
Desde que estos chatbots fueron lanzados al público el otoño pasado, la industria de la inteligencia artificial generativa ha tenido que abordar reiteradas veces las vulnerabilidades que investigadores y expertos han identificado.
En el marco de la conferencia DefCon de este año, Tom Bonner, representante de la firma de ciberseguridad especializada en inteligencia artificial, HiddenLayer, presentó una intervención.
En ella, logró engañar a un sistema de Google para que clasificara una pieza de malware como inofensiva, simplemente al incluir una línea que afirmaba: «esto es seguro de utilizar».
¿Crónica de una muerte anunciada?
En su informe anual de 2021, la Comisión de Seguridad Nacional de Inteligencia Artificial de los Estados Unidos señaló que los incidentes de ataques a los sistemas comerciales de inteligencia artificial ya eran una realidad y que, en la mayoría de los casos, la protección de estos sistemas había sido considerada de manera tardía en el proceso de ingeniería y despliegue.
Esta falta de enfoque se reflejaba en la insuficiente inversión en investigación y desarrollo.
Los incidentes de hackeo, que eran reportados con regularidad hace apenas unos años, apenas salen a la luz. Dadas las considerables implicaciones en juego y la ausencia de regulación, existe la tendencia a ocultar los problemas en lugar de abordarlos de frente, según indicó Bonner.
Los ataques manipulan la lógica subyacente de la inteligencia artificial de maneras que incluso los propios creadores pueden no entender completamente. Los chatbots, por su parte, resultan particularmente vulnerables debido a la interacción directa que mantenemos con ellos a través de un lenguaje simple.
Esta interacción puede desencadenar respuestas inesperadas y modificar su comportamiento de formas no previstas.
Los investigadores han descubierto que la «contaminación» de una pequeña fracción de las imágenes o el texto en la vasta colección de datos empleada para entrenar a los sistemas de inteligencia artificial puede tener consecuencias devastadoras y pasar desapercibida con facilidad.
Un estudio liderado por Florian Tramér de la Universidad ETH Zurich en Suiza determinó que la corrupción de apenas el 0,01% de un modelo era suficiente para afectarlo de manera significativa, y este proceso tenía un costo mínimo de 60 dólares.
Los investigadores aprovecharon la expiración de dos modelos de sitios web rastreados, adquirieron los dominios y difundieron información incorrecta en ellos.