Propiedad Intelectual: APIs y Entrenamiento de Modelos de IA

24.04.2024

CeCo Chile

Juan Pablo Iglesias M. Abogado Universidad de Chile, LL.M University of Amsterdam. Coordinador de investigación de CeCo. Abogado asociado en el grupo de Propiedad Intelectual y Tecnologías de Carey (2015-2022). Diplomado en Derecho y Política de la Competencia (U. de Chile), en Inteligencia Artificial (UAI) y en Legal Analytics (UAI).

En tiempos de economía digital e inteligencia artificial (IA), la propiedad intelectual (PI) está ocupando nuevos espacios de relevancia en los mercados. Esta columna busca mostrar dos de estos espacios: (i) las APIs y su relevancia para la interoperabilidad, y (ii) el uso de obras protegidas para el entrenamiento de modelos de IA.

APIs e interoperabilidad

Una API (Application Programming Interface) es un conjunto de definiciones y protocolos que permiten que dos softwares interactúen entre sí (p. ej., una página web, un sistema operativo o una app). En la práctica, se implementan agregando un “pedazo de código” a un software cuya función es invocar alguna parte de otro software o “librería” (i.e., repositorios de códigos de programación que se licencian -gratuita u onerosamente- a los desarrolladores para facilitar el desarrollo).

Un ejemplo: si estoy desarrollando una app de delivery de productos de comida, necesito que mi software sea capaz de geolocalizar al consumidor. Para ello tengo dos opciones: desarrollar un software de geolocalización desde cero (escribiendo todo el código fuente), o bien, conectar mi app a un software de geolocalización ya creado por un tercero, a través de una API (p. ej., ver reglas de la API de Google Maps). Naturalmente, lo común en la industria del software es hacer lo segundo (es más fácil y rápido).

Ahora bien, ¿cuál es la conexión entre una API y la PI? De la sentencia de la Corte Suprema de EE.UU., dictada en el caso Google v. Oracle (2021), se desprende que una API sí podría ser protegible por derechos de autor (copyright). Así, por ejemplo, en ella se abordó la creatividad que podría estar involucrada en el diseño del “código declarativo” de una API (es decir, los caracteres que ella ocupa), revisándose factores tales como si este código es o no fácil de recordar (para el programador), o si considera o no la forma en que el software administra la energía computacional (pp. 22-25 de la sentencia).

Por otro lado, hay razones para objetar que una API, en sí misma, sea protegible por derechos de autor. La principal es que su naturaleza es eminentemente funcional (conectar un programa con otro) y no “expresiva” (respecto a la ley chilena, ver opinión de Canales, p. 200). Además, aún en el evento de que una API fuese susceptible de protección, cabe tener a la vista la regla de “fair use” (que permite usar una obra sin autorización del titular), del art. 71 Ñ letra b) de la Ley 17.336. En concreto, esta norma permite realizar actividades de ingeniería inversa sobre un software para “lograr la compatibilidad operativa entre programas computacionales” (ojo: salvo que sea para comercializar un programa computacional similar).

¿Y qué tiene que ver una API con la libre competencia? Hoy en día, mucho. Las APIs son el vehículo informático para permitir la interoperabilidad entre programas computacionales (o entre estos y un hardware), y suele ser un remedio -o incluso medida regulatoria- que en ocasiones se exige a los agentes que administran plataformas digitales (cuyos altos efectos de red le confieren poder de mercado). Por ejemplo, el art. 6 N°7 de la DMA exige a los gatekeepers permitir a los prestadores de servicios “interoperar de forma gratuita y efectiva” con la plataforma. Así, para cumplir este deber, los gatekeepers deben facilitar una serie de APIs a las empresas que participan en sus plataformas.

En el caso de Chile, la interoperabilidad ha sido relevante en el mercado de medios de pago, para el tránsito del llamado “modelo de 3 partes” al de “4 partes”. Esto, en la práctica, significa que los bancos adquirentes puedan utilizar un switch distinto al de Transbank para enrutar sus transacciones con los bancos emisores (Bucher y Fantoni, 2023).

Además, se espera que la interoperabilidad cumpla un rol clave en el “Sistema de Finanzas Abiertas” (SFA), establecido en la Ley 21.521 (Fintec). En efecto, esta ley busca generar más competencia en el sector financiero por la vía de exigir a las instituciones financieras tradicionales compartir información (datos) de sus clientes (p. ej., comportamiento de pagos), a los nuevos participantes (fintecs). Esto, con el fin de mitigar las ventajas informativas de los primeros, en favor de los segundos (y así “equilibrar la cancha”). Para concretizar esto, la propuesta de normativa reglamentaria de la CMF para la regulación del SFA entrega una serie de especificaciones sobre cómo deben diseñarse las APIs (con miras a que posibiliten una interconexión directa entre los distintos agentes del SFA).

En mi opinión, en todos estos casos, en que las APIs deben disponibilizarse a terceros (incluyendo a competidores) en cumplimiento de un mandato normativo o judicial, no sería procedente adoptar una visión “propietaria” sobre la API. Esto, dado el carácter eminente funcional que esta está llamada a cumplir. La consecuencia de esto es que el dueño de la plataforma no podría exigir el pago de una licencia a cambio de facilitar la API.

Uso de obras protegidas para el entrenamiento de modelos de IA

Para entrenar un modelo de IA generativa, como un chatbot o generador de imágenes, se necesitan grandes bases de datos (por eso el concepto de “data-driven”). Mientras más “limpia” sea la base de datos que se utilice para entrenar el modelo (training dataset), mejor debería ser su rendimiento. En efecto, si los datos son buenos, más precisos serán los patrones que la “máquina” podrá descubrir en ellos y, en consecuencia, más certeras serán sus respuestas (outputs).

«(…) los modelos de IA usan las obras en su fase de entrenamiento para aprehender la forma en que los humanos usan el lenguaje. No parece razonable permitir que este “activo” (el aprendizaje en sí) sea capitalizado por el titular del derecho de autor. Esto pues, por su naturaleza, el aprendizaje se aleja de la “expresión” de la obra, y se acerca más al mundo de las abstracciones y las ideas«

En Chile, las bases de datos son protegibles por derechos de autor, en la medida en que, “por razones de la selección o disposición de sus contenidos, constituyan creaciones de carácter intelectual” (art. 3 N°17 de la Ley 17.336). En otras palabras, si quien compila la base de datos (como un archivo Excel) realiza un cierto esfuerzo en su recolección, organización o procesamiento, será titular de un derecho de exclusividad sobre ella (ver Jara, 2021).

Ahora bien, normalmente, quienes crean y organizan las bases de datos son las mismas empresas que desarrollan los modelos de IA, siendo en consecuencia titulares de los derechos de autor sobre dichas bases. Pero ojo: dicho derecho recae sobre la base, no sobre los datos que dicha base ordena. En ocasiones, estos datos pueden consistir en obras protegidas por derechos de autor, tales como imágenes, fotografías, obras literarias e incluso el “código fuente” de un software. La pregunta que surge entonces es: el uso de una obra protegida como dato de entrenamiento, ¿infringe la PI?

Esta pregunta ya se ha planteado en varias cortes de EE.UU. Por ejemplo, en noviembre del 2022, un conjunto de desarrolladores presentó una acción de clase contra de GitHub, OpenAI y Microsoft. El objeto de la controversia es la herramienta de IA “Copilot”, desarrollada por GitHub y OpenAI, cuya función es convertir lenguaje natural (p. ej., español o inglés) en lenguaje de programación (p. ej., Python, Java).

Según los demandantes, Copilot habría sido entrenado utilizando millones de líneas de código fuente, las que a su vez habrían sido extraídas de las “librerías” del repositorio de GitHub (compuesto principalmente por códigos elaborados por desarrolladores independientes). Así, el reclamo de estos desarrolladores es que los demandados, al utilizar estos códigos para el entrenamiento de Copilot sin autorización, habrían infringido sus derechos de autor. Esto, en tanto dicho uso no se habría ajustado a las exigencias de las licencias que los desarrolladores eligieron al momento de subir su código a GitHub.

Otro caso es la demanda del New York Times (NYT) contra Microsoft y OpenAI, a finales del 2023 (ver columna de Calderón y podcast de NYT). Entre otras alegaciones, el medio arguyó que los demandados infringieron sus derechos de autor por utilizar el contenido periodístico de NYT para entrenar su modelo “GPT”. Así, por ejemplo, para entrenar la versión GPT-2, OpenAI contruyó un gran traning set de textos llamado “WebText”, utilizando técnicas de web-scraping sobre distintas páginas web, entre ellas la del NYT (sin su autorización).

Teniendo estos casos a la vista, tratemos ahora de responder a la pregunta de si el uso de una obra protegida como dato de entrenamiento infringe o no la PI. Para ello, es esencial entender en qué consiste dicho proceso. En palabras sencillas, al menos en lo que respecta a la tecnología GPT, las etapas del proceso son: (i) obtener el “corpus” de texto, (ii) dividir dicho texto en pequeñas unidades llamadas tokens (para reducir la complejidad de las variaciones lingüísticas), (iii) transformar dichos tokens en representaciones matemáticas (vectores numéricos), y finalmente (iv) capturar las dependencias entre esas representaciones matemáticas (patrones) con el fin de “aprender” a utilizar el lenguaje natural. Este aprendizaje significa que la “máquina” sea capaz de concatenar palabras de forma correcta, tanto desde el punto de vista semántico como sintáctico.

Es interesante detenerse en el punto “ii”, que es el más oscuro. Veamos un ejemplo ficticio: la palabra “gato” se podría transformar en el vector de 5 dimensiones “[0.2,−0.8,0.3,0.5,−0.1]”, en donde cada uno de estos 5 dígitos representa una característica abstracta de “gato” (p. ej., un dígito identifica que es un animal, otro que es un sustantivo, otro su nivel de frecuencia en el lenguaje cotidiano, etc.). El significado de estas dimensiones no las elije un humano, sino que las construye y calibra el modelo de IA en un proceso automatizado (iterando varias veces consigo mismo). Por su parte, el vector de la palabra “perro” podría ser “[0.1,−0.7,0.4,0.6,−0.2]”. Así, con estos dos números en la mano, el modelo puede definir qué tan cerca/lejos está una palabra de otra (en un espacio matemático) y, en base a ese conocimiento, generar texto en algún lenguaje natural.

De este modo, lo que hace el modelo de IA es codificar el lenguaje natural en números, para luego descubrir regularidades entre esos números, y así finalmente poder generar frases con sentido. Entonces, volviendo a la pregunta: ¿este proceso infringe los derechos de autor?

Desde el derecho chileno, un método práctico de responder a esta pregunta es revisando el “catálogo” de derechos patrimoniales de autor (art. 18 de la Ley 17.336) y evaluar si acaso el uso de una obra para el entrenamiento de un modelo de IA infringe alguno dichos derechos. En este ejercicio, en principio, no me parece claro que esta forma de usar una obra signifique “publicarla”, “reproducirla”, “ejecutarla públicamente”, o “distribuirla”. Tal vez podría discutirse si acaso la tokenización y posterior vectorificación de un texto implica “adaptarlo” o “transformarlo” (art. 18 letra c). Sin embargo, esta actividad transformativa se refiere más a la creación de una “obra derivada” (p. ej., convertir un libro en una película) que el tipo de uso que involucra un entrenamiento.

Ahora bien, se puede argüir que el catálogo de derechos patrimoniales de la ley no es taxativo (Ruiz Tagle, 2004, p. 371). De acuerdo a esta tesis amplia, del art. 19 de la Ley 17.336 se debería entender que cualquier tipo de uso “público” de una obra sin la autorización de su titular está prohibido. Esta exigencia de publicidad es relevante pues el uso de las obras en un proceso de entramiento no es público, sino opaco (de hecho, esta opacidad es competitivamente estratégica para las empresas de IA).

Sin embargo, hay todavía una segunda razón -menos literal y más sistémica- que me parece más importante para objetar la existencia de una infracción. Como se explicó, los modelos de IA usan las obras en su fase de entrenamiento para aprehender la forma en que los humanos usan el lenguaje. No parece razonable permitir que este “activo” (el aprendizaje en sí) sea capitalizado por el titular del derecho de autor. Esto pues, por su naturaleza, el aprendizaje se aleja de la “expresión” de la obra, y se acerca más al mundo de las abstracciones y las ideas (que no son susceptibles de protección por PI, sino que forman parte del dominio público).

Con todo, nada de lo dicho hasta acá implica qué otros usos de obras protegidas que se han imputado a los modelos de IA generativos sí puedan constituir infracciones a la PI. Así, por ejemplo, volviendo a la demanda del NYT contra OpenAI y Microsoft, el hecho de que en las respuestas de ChatGPT se incluyan fragmentos literales de contenido periodístico del diario, o bien, obras derivadas (es decir, con modificaciones), debería ser evaluado con detalle.

Desde el punto de vista de la libre competencia, esto se vuelve aún más sensible cuando estas plataformas comienzan a operar de forma similar a un medio de comunicación. Por ejemplo, de acuerdo al NYT, la integración de GPT con el navegador y buscador de Microsoft “Bing”, genera que los usuarios puedan acceder a contenido generado por el diario, pero sin abandonar el ecosistema Microsfot-OpenAI (lo cual desvaloriza el espacio del medio). En un sentido similar, ver nota CeCo sobre caso de COPESA c. Google ante el TDLC.

Para terminar, un ingrediente más para complejizar la sopa: estos casos deben ser analizados teniendo a la vista las normas de limitaciones y excepciones al derecho de autor, establecidas en los arts. 71 A y siguientes de la Ley 17.336 (de nuevo, el “fair use chilensis”). Por ejemplo, el art. 71 B permite usar una obra “sin remunerar ni obtener autorización del titular”, en la medida en que se trate de “fragmentos breves” y su inclusión se realice “a título de cita o con fines de crítica, ilustración, enseñanza e investigación”. Por su parte, el art. 71 Q permite el uso “incidental y excepcional” de una obra, con el propósito de “crítica, comentario, caricatura, enseñanza, interés académico o de investigación” (y siempre que ello “no constituya una explotación encubierta de la obra protegida”).