¿Luz Verde para las IA? Notas sobre el informe de la Oficina de Copyright de EE.UU. sobre el entrenamiento con Obras Protegidas

En el centro del debate sobre la inteligencia artificial generativa, una pregunta resuena con fuerza en despachos de abogados, estudios de creadores y salas de juntas de empresas tecnológicas: ¿es legal entrenar una IA utilizando millones de obras protegidas por derechos de autor sin permiso?. La respuesta que se dé en cada jurisdicción podría redefinir el futuro de la creatividad y la innovación y el posicionamiento de los países en el futuro tecnológico.

Estamos viendo una oleada de demandas por parte de los titulares de derechos de autor y una intensa discusión global en diferentes ámbitos como el jurídico, el tecnológico o el empresarial.  En el mes de mayo la Oficina de Copyright de los Estados Unidos ha publicado un informe muy interesante sobre este asunto: “Copyright and Artificial Intelligence, Part 3: Generative AI Training”: Este informe  no ofrece una respuesta simple de “sí” o “no” ya que estamos ante un problema complejo al que no se le puede buscar una respuesta simple, pero sí proporciona un marco de análisis detallado que podría la pauta en las discusiones jurídicas en tribunales, comisiones y parlamentos. Analicemos sus claves.

El “Pecado Original” de los modelos de iA: ¿Dónde y cuándo se copian las Obras?

Antes de discutir si el uso es justo, la Oficina identifica claramente que el proceso de entrenamiento de una IA está plagado de actos que, a primera vista, son copias. La infracción no es un acto único, sino una cadena de ellos:

  1. Recopilación y Curación de Datos: El primer paso es la creación de gigantescas bases de datos. Esto implica descargar, duplicar y modificar millones de obras (libros, imágenes, canciones). Ya sea raspando (scraping) de internet, usando bibliotecas pirata o bases de datos preexistentes, se están haciendo copias masivas.
  2. El Entrenamiento en Sí: Durante el entrenamiento, las obras se cargan en la memoria de los sistemas para ser “mostradas” al modelo, lo que constituye reproducciones temporales.
  3. “Memorización” en el Modelo: El informe aborda la controvertida “memorización”. Si un modelo puede generar una copia casi idéntica de una obra que usó para entrenar (como una foto o la letra de una canción), es porque esa expresión está, de alguna forma, codificada en sus “pesos” (los parámetros matemáticos del modelo). Por lo tanto, distribuir ese modelo podría equivaler a distribuir copias no autorizadas.

Estos elementos son muy importantes y resulta novedoso que la Oficina de Copyright de EEUU los establezca como punto d epartida ya que son objeto de discusión tanto desde el punto de vista jurídico, así hay opiniones igualmente fundadas que nos dirían que realmente esa reproducción temporal es copia o se parece más a la reproducción temporal que se produce en Internet en la transmisión de la información; la idea de “mostrar” algo a un modelo de iA no es más bien una proyección de nuestra realidad, el modelo no contempla -ni comprende- la obra sino que analiza sus elementos más esenciales y las relaciones entre ellos; los modelos no almacenan la información con la que han sido entrenados -ocuparían demasiado- sino que utilizan únicamente el resultado en la forma y los pesos según las decisiones de los programadores.

La gran defensa: ¿Es “fair use”?

En los Estados Unidos -y en general en las jurisdicciones basadas en Copyright- este es el núcleo del debate ya que la  doctrina del fair use (uso legítimo o justo) es la principal defensa de las empresas de IA. Es una norma flexible que permite usar obras protegidas sin permiso bajo cuatro factores. El informe de la Oficina los analiza uno por uno, y sus conclusiones son reveladoras.

Factor 1: propósito y carácter del uso (La “transformación”)

Este es el factor más complejo. Un uso es más probable que sea fair use si es “transformativo”, es decir, si añade algo nuevo o tiene un propósito diferente al original.

  • ¿Es el entrenamiento de una IA transformativo? El informe concluye que depende. Usar obras para investigación científica o para una herramienta que no compite con el original (por ejemplo, un moderador de contenido) es altamente transformativo.
  • Sin embargo, entrenar un modelo para que genere obras que compiten directamente con las originales (por ejemplo, usar novelas de misterio para crear nuevas novelas de misterio) es mucho menos transformativo y se parece más a crear una obra derivada, que es un derecho exclusivo del autor.
  • Un argumento clave rechazado: El informe descarta la idea de que el entrenamiento es un “uso no expresivo” y la analogía con el “aprendizaje humano”. La Oficina afirma que las IA no solo aprenden ideas; absorben la estructura, el estilo y la esencia misma de la expresión creativa, y lo hacen a una escala y con una perfección inalcanzables para un ser humano.

Factor 2: naturaleza de la Obra Protegida

Este factor es más sencillo. Las obras altamente creativas (novelas, arte, música) están en el “corazón del copyright” y su uso es más difícil de justificar que el de obras más factuales (como el código informático). Como los modelos de IA se entrenan con todo tipo de obras, este factor a menudo pesará en contra del fair use.

Factor 3: cantidad y sustancialidad de la parte utilizada

Normalmente, usar una obra completa va en contra del fair use. Los modelos de IA se entrenan, precisamente, con obras completas. Sin embargo, el informe matiza:

  • Copiar la totalidad puede ser razonable si es necesario para un propósito transformativo.
  • La clave no es sólo cuánto se copia, sino cuánto se pone a disposición del público. Si el modelo tiene salvaguardas efectivas que impiden que “escupa” las obras originales o fragmentos sustanciales, el uso de la obra completa en el entrenamiento es más defendible. Si puede generar copias a la carta, este factor pesará fuertemente en contra.

Factor 4: efecto sobre el Mercado Potencial (El más importante)

Descrito históricamente como “el factor más importante”, aquí se analiza el daño económico al titular de los derechos. El informe identifica tres tipos de daños principales:

  1. Pérdida de ventas: Si la IA genera un resultado que sustituye a la obra original, se pierde una venta.
  2. Dilución del mercado: La capacidad de la IA para inundar el mercado con miles de obras de un estilo similar (por ejemplo, “al estilo de tal artista”) puede diluir el valor de las obras humanas originales y hacerlas más difíciles de encontrar.
  3. Pérdida de oportunidades de licencia: Este es un punto crucial. Están surgiendo mercados para licenciar contenido para el entrenamiento de IA. Empresas como Getty Images, Associated Press y varias editoriales ya han firmado acuerdos. Si existe un mercado de licencias funcional (o es probable que se desarrolle), usar las obras sin pagar daña directamente ese mercado, lo que pesa fuertemente en contra del fair use.

El camino a seguir: Licencias, no caos

Dado que no todos los usos serán fair use, la solución para la Oficina del Copyright de Estados Unidos  pasa por las licencias con varias opciones:

  • Licencias Voluntarias: Son la opción preferida. Ya están ocurriendo y el mercado está creciendo. Aunque hay desafíos, como la dificultad de licenciar obras de millones de creadores individuales, es la vía que mejor respeta los derechos de autor, aunque no resuelve el problema del “pecado original” ya que no se busca el licenciamiento de lso autores de obras que en el pasado sirvieron para entrenar a los modelos que hoy estamos utilkizando.
  • Licencias Obligatorias: El informe se opone firmemente a esta idea. Sería una intervención gubernamental demasiado rígida para una tecnología que evoluciona tan rápido, y podría fijar precios por debajo del mercado.
  • Licencias Colectivas Extendidas (ECL): Se ve como una posible solución a futuro para sectores donde las licencias individuales son inviables.

Conclusión: un veredicto equilibrado y un camino abierto

La Oficina de Copyright de EE.UU. no da un cheque en blanco a la industria de la IA, pero tampoco ha puesto un freno total a la innovación. Su mensaje es claro:

El marco legal actual, con el fair use en su centro, es lo suficientemente flexible para abordar este nuevo desafío tecnológico. La respuesta dependerá de cada caso concreto: algunos usos serán legítimos, otros claramente no lo serán.
Por ahora, la recomendación es dejar que el mercado de licencias voluntarias madure sin una intervención gubernamental drástica. Es un llamamiento a la colaboración entre la industria tecnológica y la comunidad creativa para encontrar soluciones que permitan que la innovación florezca sin corroer los cimientos del ecosistema creativo que la alimenta. La conversación, como la propia tecnología, no ha hecho más que empezar.