Un equipo de investigadores de la Universidad de Kansas ha desarrollado una herramienta capaz de detectar documentos generados por el modelo de lenguaje impulsado por ChatGPT con una precisión del 99%.
Y si bien es cierto que existen algoritmos para identificar textos generados por una Inteligencia Artificial, estos no se desempeñan apropiadamente en todos los escenarios en los que sean probados, especialmente en documentos académicos.
Los textos generados por ChatGPT son menos complejos que los escritos por humanos
Es por esta razón que el equipo de la Universidad de Kansas entrenó un algoritmo de aprendizaje automático utilizando artículos conocidos como «perspectivas«, que ofrecen una descripción general de los temas de investigación escritos por científicos.
El equipo utilizó 64 perspectivas como punto de partida para crear 128 textos con ChatGPT, todos relacionados con los mismos temas de investigación.
Al compararse con los documentos escritos por humanos, el algoritmo pudo identificar con alta precisión los artículos del chatbot gracias a un indicador clave: ChatGPT produce contenido menos complejo que los científicos.
Se supone que esta es una medida que servirá para que los estudiantes dejen de “hacer trampa”, ya que con la Inteligencia Artificial, únicamente tenían que usar un prompt en ChatGPT y luego hacer “copypaste” de la información obtenida, y prácticamente tenían la tarea hecha.
Pero con el detector, cualquier persona podrá saber si un texto fue escrito 100% por un humano, o por un modelo de lenguaje.
El estudio demostró que ChatGPT produce menos oraciones y palabras por párrafo en comparación con un texto redactado por un investigador.
La IA de OpenAI usa frases cortas y comillas simples en textos con poca variedad. Adicionalmente, los investigadores emplean mayor cantidad de cifras y combinan el uso de letras mayúsculas y minúsculas al mencionar nombres propios o acrónimos.
Además, la capacidad de ChatGPT para hacer referencia al trabajo de terceros no es buena.
¿Son 100% precisos los detectores de IA?
Si bien los resultados son sorprendentes, los investigadores de la Universidad de Kansas mencionaron que su trabajo no aplica para todos los textos.
Los cuatro indicadores que permiten distinguir entre un texto generado por una IA y uno producido por un ser humano solo son efectivos en un tipo particular de textos, por lo que el modelo no puede considerarse universal.
«Es probable que estas características no sean del todo útiles para autenticar a un autor humano en ejemplos de escritura informal, pero posiblemente sean útiles para una variedad de escritos académicos«, señalan.
Es decir, que no es infalible, al probar un “detector de IA”, como se han dado a conocer, existe una probabilidad de al menos un 40% de que no acierte, por lo tanto, puede que un texto de estilo genérico como los que se usan para dar una definición, indique que ha sido generado por una IA, aunque no sea el caso, y también aplica la inversa.
El detector puede indicar que algún texto ha sido generado por una IA, cuando en realidad fue escrito por un humano. Lo que representa un enorme sesgo a nivel de confiabilidad.
Asimismo, debemos tener en cuenta que la IA avanza a pasos agigantados, por lo que ChatGPT seguramente solucionará esta clase de inconvenientes a futuro.
¿Cómo funcionan los detectores de IA?
La explicación acerca de esto es un poco ambigua. En general, un detector de IA funciona comparando ciertas características de los textos generados por IA con las características de los textos escritos por humanos. En esto tiene mucho que ver el uso de la semántica.
A grandes rasgos, partiendo de este conjunto de datos, el algoritmo de detección de IA aprende a identificar patrones y características que distinguen los textos generados por un modelo de lenguaje de los textos escritos por humanos.
Estas características pueden incluir la longitud de las oraciones y párrafos, el uso de puntuación y estructuras gramaticales, el uso de jergas y argot, entre otros. Una vez que se ha entrenado el detector de IA, se puede utilizar para identificar si un texto ha sido generado por una IA o escrito por un ser humano.
Esto significa que al escribir, los seres humanos manejan un lenguaje mucho más amplio, que implica el uso de sinónimos. Con esto, las personas podemos conseguir que un texto se lea de una forma más fluida, mientras que los generados por IA son mucho más mecanizados.
¿Para qué nos sirve el poder saber si un texto ha sido generado por IA?
La intención detrás de los detectores de IA es que puedan ser aplicados para identificar fraudes o plagios en documentos académicos o profesionales, ya que pueden detectar si un texto ha sido generado por una IA en lugar de por el autor humano.
También pueden ser útiles para identificar bots en las redes sociales o en los comentarios de los sitios web, lo que puede ayudar a detectar campañas de manipulación en línea o spam generado por bots.
Al menos eso es lo que promete esta tecnología, aunque no podemos dar fe de que todo lo que el detector catalogue como IA, es porque realmente lo es y viceversa.
Hasta la fecha, no existe ninguna herramienta de este tipo que sea totalmente inequívoca, y aunque la hubiera, la IA sigue en proceso de evolución. Los modelos de lenguaje continúan mejorando, del GPT-3, pasamos al GPT-3.5 y desde hace algunos meses hemos podido conocer el GPT-4.
Conforme los modelos de lenguaje obtengan mejores características, las herramientas de detección de textos generados por IA quedarán obsoletas.
Por lo tanto, si bien los detectores de IA pueden ser efectivos en ciertos escenarios, no pueden ser considerados como una solución completa para erradicar el fraude y el plagio en línea.
Los detectores de IA deberían ser aplicados para uso orientativo, y no dar por sentada la veracidad de los datos que arroje.
Queda de parte de cada individuo el por qué recurrir a este tipo de tecnologías para auditar textos, no obstante, no deberían ser usados para realizar acusaciones en contra del trabajo de alguna persona.