Artículos del Blog

Inicio – Blog – Articulos

Desenmascarando al autómata: detectar textos generados por una Inteligencia Artificial

La Inteligencia Artificial, en particular con los grandes modelos de lenguaje o LLM por su sigla en inglés, ha logrado avances significativos en la generación de texto similar al humano. A medida que el texto generado por IA se inserta en nuestro día a día, es esencial desarrollar habilidades y herramientas para identificar dicho contenido. Esta guía ayudará a comprender qué es un LLM (Large Language Model) y cómo funciona, a aprender algunas técnicas de detección manual o herramientas automáticas para detectar texto generado por IA y, finalmente, recomendará algunos cursos clave de alfabetización mediática e informacional para navegar la nueva era de la Inteligencia Artificial.

¿Qué es un gran modelo de lenguaje y cómo funciona?

Un gran modelo de lenguaje (LLM, en inglés) es un tipo de inteligencia artificial que puede entender, generar y traducir texto tras aprender de grandes cantidades de contenido escrito, como libros, sitios web, artículos y publicaciones en redes sociales. Una vez entrenados, los LLM pueden realizar eficientemente diversas tareas, como resumir artículos, responder preguntas o incluso crear un nuevo texto que suene como si hubiera sido escrito por un humano. Utilizan un algoritmo de aprendizaje profundo, lo que significa que se basan en una red que integra gran cantidad de funciones matemáticas para imitar la forma en la que nuestros cerebros procesan la información.

Los LLM funcionan con base en probabilidades: aprenden a reconocer patrones y relaciones entre contextos, palabras y frases en grandes cantidades de datos. Crean texto seleccionando la siguiente palabra o frase más probable en función de su comprensión del contexto y las palabras que ya han generado antes.

Dado que los LLM, como GPT-4, se están volviendo cada vez más sofisticados, es difícil determinar si un texto es generado por IA o escrito por humanos. El texto generado por LLM puede ser más consistente y menos aleatorio que la escritura humana, lo que dificulta su identificación con absoluta certeza. Aunque existen herramientas para detectar texto generado por IA, sus tasas de detección pueden variar significativamente, entre el 26% y el 90% de precisión. Esta incertidumbre resalta la importancia de la alfabetización mediática e informacional para que los humanos aprovechemos responsablemente el potencial del contenido generado por la IA.

Consejos para la detección manual de textos de IA

El texto generado por IA tiene características únicas que pueden ayudar a distinguirlo del contenido escrito por humanos. Algunos puntos clave son:

  1. Comprobar la consistencia: puede tener inconsistencias en la narrativa, el tono o el enfoque del contenido. Inconsistencias en los géneros, pronombres, tiempos y personas pueden ser atribuibles a la IA.
  2. Analizar la fluidez: puede ser demasiado fluido o carecer de errores humanos comunes, como errores tipográficos o coloquialismos. Dependiendo del nivel de quién haya escrito el texto, es importante esperar algunos errores comunes, así como lenguaje coloquial.
  3. Busca repeticiones: puede repetir ciertas frases o usar estructuras de oraciones similares repetidamente. Para estos casos conviene revisar el historial de escritos de quién proviene el texto, con el propósito de determinar si hay estructuras comunes y palabras que suele usar el autor.
  4. Examinar la coherencia: puede perder coherencia o contexto a lo largo del texto, desviándose del tema principal. Revisar las ideas principales y la línea de argumentación es clave cuando se trata de textos más profesionales.

Herramientas automáticas para detectar texto generado por IA

Se han desarrollado múltiples herramientas y algoritmos para detectar texto generado por IA, aunque ninguno ha logrado el 100% de confiabilidad en resultados independientes. Algunas de los más reconocidas son:

  1. Clasificador de IA de OpenAI: esta herramienta analiza el texto y asigna niveles de confianza para determinar si el contenido es generado por IA o escrito por humanos. Las tasas de detección están alrededor del 26% con un 9% de falsos positivos (equivocaciones al indicar que un texto es de IA cuando fue creado por un humano).
  2. Detector de escritura de IA de TurnItIn: Esta herramienta de pago, próxima a lanzarse por parte de la compañía líder del mercado en software anti-plagio, afirma tener una tasa de precisión del 97% en la detección de texto generado por IA.
  3. GPTZero: Es la aplicación gratuita más utilizada. Aunque afirma tener tasas de efectividad de más del 90%, no hay estudios independientes que lo corroboren.
  4. Originality AI: Afirma detectar con precisión el texto producido por GPT-3, GPT-3.5 y ChatGPT. Asigna un porcentaje de probabilidad de que el texto sea generado por humanos o IA. Sin embargo, no es perfecto, con una probabilidad de éxito del 71%.
  5. DetectGPT: Creado por profesores e investigadores académicos, es un modelo para detectar texto generado por IA con GPT-2 (una versión muy antigua) que mejora las tasas de detección del 81% al 95% en su última versión.

Claves para el aprendizaje continuo

La alfabetización mediática e informacional (Media and Information Literacy o MIL) es crucial para comprender y evaluar el contenido generado por la IA. La MIL ayuda a los usuarios a desarrollar habilidades de pensamiento crítico y fomenta el consumo responsable de contenido digital. Algunas habilidades y cursos MIL claves para formarnos:

  • Pensamiento crítico: para evaluar críticamente la información y cuestionar su credibilidad, ayudando a reconocer la desinformación, generada o no por la IA. La plataforma de cursos abiertos edX (constituida por programas universitarios de grandes instituciones del mundo entero) ofrece gratuitamente “Pensamiento crítico: toma de decisiones razonadas”.
  • Ciudadanía digital: para actuar de manera responsable y ética cuando se encuentran con contenido generado por IA. Esto incluye comprender los riesgos y consecuencias potenciales de compartir o usar texto generado por IA no verificado. Existen una enorme cantidad de clases gratuitas para el ciudadano digital, desde el Ministerio de Educación de Colombia y su programa Colombia Aprende se ofrecen algunos cursos destacados.
  • Comprensión y uso de la tecnología de IA: La alfabetización mediática e informacional contribuye a una mejor comprensión general de las tecnologías, ayudando a los usuarios a distinguir entre diferentes formas de IA y sus aplicaciones para la vida cotidiana. Recientemente, en conjunto con la Biblioteca de Santiago (Chile), hemos lanzado el curso gratuito “Introducción a la Inteligencia Artificial para Bibliotecarios” donde se encuentra información valiosa para cualquier usuario de las IA.
  • Fomentar la resiliencia contra las noticias falsas y la desinformación: MIL permite a los usuarios detectar y contrarrestar las noticias falsas y la desinformación, incluido el texto generado por IA, que tiene el potencial de perturbar las sociedades y afectar los procesos de toma de decisiones. Un paso inicial en este nivel es la guía para detectar noticias falsas de la federación internacional de Bibliotecas, de uso libre para todos.

La capacidad de detectar texto generado por IA se torna vital en la era digital. Al aprender técnicas de detección manual, usar herramientas automáticas y promover la alfabetización mediática e informacional, las personas pueden reconciliarse efectivamente con el contenido generado por la IA. La clave es permanecer vigilante, pensar críticamente y mantenerse informado sobre el panorama en evolución del texto generado por IA y sus implicaciones en nuestra vida cotidiana.

Referencias

Akhtar, P., Ghouri, A. M., Khan, H. U. R., Haq, M. A., Awan, U., Zahoor, N., Khan, Z., & Ashraf, A. (2022). Detecting fake news and disinformation using artificial intelligence and machine learning to avoid supply chain disruptions. Annals of Operations Researchhttps://doi.org/10.1007/s10479-022-05015-5

Alimardani, A., & A. Jane, E. (2023, February 19). We pitted ChatGPT against tools for detecting AI-written text, and the results are troubling. The Conversation. Retrieved April 9, 2023, from https://theconversation.com/we-pitted-chatgpt-against-tools-for-detecting-ai-written-text-and-the-results-are-troubling-199774

Bryden, T. (2022, December 2). How Do Large Language Models Work? Speak Ai. Retrieved April 9, 2023, from https://speakai.co/how-do-large-language-models-work/

Decision Engines. (2023, February 27). Understanding Large Language Models: What They Are and How to Use Them. Decision Engines, Inc. Retrieved April 9, 2023, from https://decisionengines.ai/understanding-large-language-models/

Dilmegani, C. (2023, February 16). Large Language Models: Complete Guide in 2023. AIMultiple. Retrieved April 9, 2023, from https://research.aimultiple.com/large-language-models/

Hassan, M. H. (2023, February 18). DetectGPT – Detecting AI Generated Text | Medium. Medium. Retrieved April 9, 2023, from https://medium.com/@TheHaseebHassan/detectgpt-detecting-ai-generated-text-a0284f1d05de

Heikkilä, M. (2022, December 19). How to spot AI-generated text. MIT Technology Review. Retrieved April 9, 2023, from https://www.technologyreview.com/2022/12/19/1065596/how-to-spot-ai-generated-text/

Hendrik Kirchner, J., Ahmad, L., Aaronson, S., & Leike, J. (2023, January 31). New AI classifier for indicating AI-written text. OpenAI. Retrieved April 9, 2023, from https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

Mahmood, S. H. (2023, February 25). The 8 Most Accurate AI Text Detectors You Can Try. MUO – Make Use Of. Retrieved April 9, 2023, from https://www.makeuseof.com/accurate-ai-text-detectors/

Muehmel, K. (2023, March 15). What Is a Large Language Model, the Tech Behind ChatGPT? Retrieved April 9, 2023, from https://blog.dataiku.com/large-language-model-chatgpt

Rogers, R. (2023, February 8). How to Detect AI-Generated Text, According to Researchers. WIRED. Retrieved April 9, 2023, from https://www.wired.com/story/how-to-spot-generative-ai-text-chatgpt/

Sánchez, S., Rojo, A. F., Martínez, A., & Samaniego, C. M. (2021). Media and information literacy: a measurement instrument for adolescents. Educational Review73(4), 487–502. https://doi.org/10.1080/00131911.2019.1646708

Terra, J. (2023, February 21). What is Media and Information Literacy? Simplilearn.com. Retrieved April 9, 2023, from https://www.simplilearn.com/what-is-media-and-information-literacy-article

Turnitin. (2023, February 13). Turnitin announces AI writing detector and AI writing resource center for educators. Retrieved April 9, 2023, from https://www.turnitin.com/press/turnitin-announces-ai-writing-detector-and-ai-writing-resource-center-for-educators

UNESCO. (2022). Media and information literate citizens: Think critically, click wisely! UNESCO Institute for Information Technologies in Education. Retrieved April 9, 2023, from https://iite.unesco.org/publications/media-and-information-literate-citizens-think-critically-click-wisely/

Wang, B., Rau, P. P., & Yuan, T. (2022). Measuring user competence in using artificial intelligence: validity and reliability of artificial intelligence literacy scale. Behaviour & Information Technology, 1–14. https://doi.org/10.1080/0144929x.2022.2072768

Wiggers, K. (2022, April 28). The emerging types of language models and why they matter. Techcrunch. Retrieved April 9, 2023, from https://techcrunch.com/2022/04/28/the-emerging-types-of-language-models-and-why-they-matter/

Comenta el post

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

es_ESEspañol
Ir al contenido