El auge de la Inteligencia Artificial (IA) genera tantos beneficios como preguntas en torno al desarrollo de estos sistemas, en particular las referidas a cómo son entrenados, el rigor de dichos procesos y la correcta y ética utilización de los datos. Una reciente investigación publicada por la revista especializada Nature demostró que la calidad de los resultados "se degrada gradualmente cuando la IA se entrena con datos generados por ella misma", apuntó.
"A medida que los modelos posteriores generan resultados que luego se utilizan como datos de entrenamiento para modelos futuros, el efecto empeora", acotó el estudio y su director, Ilia Shumailov, un científico informático de la Universidad de Oxford, explicó el fenómeno a través de una metáfora: "Si tomas una fotografía y la escaneas, y luego la imprimes y repites este proceso a lo largo del tiempo, básicamente el ruido abruma todo el proceso. Te queda un cuadrado oscuro. El equivalente del cuadrado oscuro para la IA se llama 'colapso del modelo', lo que significa que el modelo simplemente produce basura incoherente".
"Los modelos actuales de IA no van a colapsar", subrayó Shumailov. "Pero aún puede haber efectos sustanciales: las mejoras se ralentizarán y el rendimiento podría verse afectado", agregó.
"Es probable que el problema empeore a medida que un número cada vez mayor de sitios web basura generados por IA comiencen a saturar Internet", apuntó el estudio de Nature.
Para determinar el efecto potencial sobre el rendimiento, Shumailov y sus colegas examinaron un gran conjunto de datos de Wikipedia. El equipo midió cuán absurdo era el resultado utilizando una "puntuación de perplejidad", que mide la confianza de un modelo de IA en su capacidad para predecir la siguiente parte de una secuencia; una puntuación más alta se traduce en un modelo menos preciso. "Los modelos entrenados con los resultados de otros modelos obtuvieron puntuaciones de perplejidad más altas", ratificó el estudio.
"Los modelos básicos dependen realmente de la escala de los datos para funcionar bien”, apuntó Shayne Longpre, investigador del Instituto Tecnológico de Massachusetts. Sobre el estudio, en el que no participó, opinó: "Están buscando datos sintéticos en entornos controlados y seleccionados como la solución a ese problema. Porque si siguen rastreando más datos en la web, habrá rendimientos decrecientes".
Matthias Gerstgrasser, investigador de IA la Universidad en Stanford, señaló que añadir datos sintéticos a los datos del mundo real en lugar de reemplazarlos no causa grandes problemas. "Una conclusión en la que coinciden todos los estudios sobre el colapso de modelos es que es importante disponer de datos de entrenamiento diversos y de alta calidad", afirmó.
En tal sentido, Shumailov dijo que "es importante saber de dónde provienen los datos y hasta qué punto se puede confiar en ellos para captar una muestra representativa de los datos con los que se está trabajando".
Pero la procedencia requiere alguna forma de filtrar Internet para distinguir entre contenido generado por humanos y contenido generado por IA, algo que aún no se ha descifrado. Aunque ahora existen varias herramientas en tal sentido, por ahora poco confiables, debido a sus constantes imprecisiones.