ChatGPT, inteligencia artificial y el juego de la imitación “anticompetitiva”

3.01.2024

Andrés Calderón Abogado por la Pontificia Universidad Católica del Perú (PUCP), LLM por la Universidad de Yale. Profesor de Derecho de la Competencia, Regulación, Medios de Comunicación y Libertades Informativas en la PUCP y la Universidad del Pacífico de Lima. Trabajó como Consultor en temas Antitrust para la Federal Trade Commission (FTC). Actualmente es Vocal de la Sala Especializada en Defensa de la Competencia del Tribunal de Defensa de la Competencia y de la Protección de la Propiedad Intelectual del INDECOPI.

En las últimas semanas, se dieron dos noticias importantes para el mundo del Derecho de la Competencia y su interacción con la Inteligencia Artificial (I.A.). La Federal Trade Commisssion de los Estados Unidos publicó un reporte de su staff sobre un panel virtual en el que se discutió las implicancias de la IA para las industrias creativas y el rol de la autoridad de competencia.

Y, recién hace unos días, quizá el medio periodístico más renombrado del mundo, el New York Times (NYT), presentó una demanda contra Open AI y Microsoft por infracción a sus derechos de autor con ocasión de la utilización de la famosísima herramienta llamada ChatGPT.

“Esta falta de sustituibilidad perfecta entre un asistente de IA y una empresa periodística me hace pensar que la relación entre ambas compañías no es puramente competitiva, sino más bien complementaria. Y ello podría determinar el desenlace de la controversia, que se podría decantar más por un acuerdo entre partes que se necesitan mutuamente”.

Ambos eventos dan para discusiones y extensiones que superarían largamente la de una columna, así que por razones didácticas y de interés académico, nos vamos a centrar en un punto en común: la teoría del daño competitivo derivado de la utilización de una herramienta de inteligencia artificial. O, para ponerlo en términos de la interrogante que deberá resolver la judicatura norteamericana: ¿ChatGPT podría dañar la posición competitiva de las empresas noticiosas como NYT?

El juego de la imitación

NYT denuncia principalmente una infracción a sus derechos de autor (copyright). Sostiene que la herramienta ChatGPT (creada por OpenAI) y la nueva funcionalidad Bing Chat añadida al motor de búsqueda de Microsoft representa varias formas de uso no autorizado de las obras de esta casa periodística, incluyendo artículos noticiosos, reportajes de investigación, columnas de opinión, reviews y millones de contenidos alojados en la web y repositorios de las empresas periodísticas.

Se cuestiona que estas empresas hayan utilizado los contenidos protegidos por derechos de autor del NYT para entrenar su herramienta basada en grandes modelos de lenguaje (large language models o LLM). Así, cuando un usuario utiliza el asistente de ChatGPT (o Bing Chat) obtendrá resultados que, según la demandante, recita de manera casi igual (o en otros casos resume) el contenido publicado por la empresa periodística, imitando su estilo expresivo. Para ello, presenta un importante número de ejemplos (incluidos en el Exhibit J) en los que se aprecia que si un usuario le pide un artículo completo, un párrafo o un extracto de lo que publicó The New York Times, la herramienta de inteligencia artificial proporcionará contenidos casi idénticos a los originales.

La discusión aquí consistirá en definir si el scrapping y entrenamiento que realiza ChatGPT califica o no como un uso no autorizado de obra o si, en cambio, es un tipo de uso leal (fair use). Cabe advertir, por lo pronto, que el sistema de entrenamiento de un LLM no es replicable al copiado, almacenamiento y difusión de resultados como ocurre en un motor de búsqueda o una base de datos. Se trata de un sistema de aprendizaje que se nutre de millones o billones de fuentes y parámetros (dependiendo del tamaño) y que, en atención a los insumos e instrucciones que recibe de parte del usuario, puede imitar o replicar ciertos resultados.

Sobresimplificando, un alumno que escucha repetidas clases de un profesor, puede terminar haciendo una exposición que replique la de su maestro, no porque la haya copiado o memorizado, sino porque así la aprendió. La coincidencia dependerá de varios factores que alimentan ese entrenamiento, pero evidentemente, uno de ellos, es cuán trascendental ha sido la fuente de información que sirvió para ese aprendizaje artificial. Para NYT, lo que han hecho OpenAI y Microsoft es una suerte de free riding, por el que deberían pagar. Previsiblemente, los demandados alegarán que el aprendizaje es un fair use, y que los resultados que arroja una herramienta de LLM no son copias sino creaciones originales derivadas de dicho entrenamiento.

En este punto, un extracto del reporte del staff de la FTC podría aparecer como un guiño deferente hacia la posición del NYT: “Entrenar una herramienta de IA con expresiones protegidas [derechos de autor] sin el consentimiento del creador o vender resultados generados por dicha herramienta de IA, incluyendo la imitación del estilo de escritura del creador […] podría constituir un método de competencia desleal […]”.

Esta posición ya ha sido criticada por autores como Pamela Samuelson, Christopher Jon Springman y Matthew Sag, puesto que a nivel judicial aún no se ha definido que este tipo de uso de herramientas de IA pueda calificar como infracción al copyright, o que, en todo caso, no se trate de un uso leal ‘no expresivo’ como la ingeniería reversa, softwares de detección de plagios, data mining e incluso indexación de motores de búsqueda.

Si tropicalizáramos la discusión al mundo del Derecho de la Competencia Desleal peruano, por ejemplo, llamaría la atención una teoría de competencia desleal que niegue el pilar de la libre imitación de iniciativas empresariales, y busque introducir una excepción de free riding (al estilo de la discutidísima categoría española del “aprovechamiento indebido del esfuerzo ajeno”), que no esté basada en un derecho de exclusiva (copyright).

¿La alucinación sirve para la sustitución?

Pero desde una mirada más tradicional del Derecho de la (Libre) Competencia, la parte del daño competitivo que más dudas puede despertar es la teoría de la suplantación que parece esbozar el NYT.

El argumento de la empresa periodística es que la capacidad de ChatGPT y Bing Chat de replicar las expresiones del NYT, provocaría que los usuarios “obvien la necesidad de visitar las webs del New York Times”. Aquí la demanda del NYT hace énfasis en los resultados sintetizados que arroja el buscador de Microsoft y que –alega– pude incluir párrafos extensos y citas directas del trabajo periodístico del NYT. Más aún, como estos asistentes de IA arrojan resultados atribuibles al NYT, los usuarios tendrán menos razones para visitar la fuente original. La demandante llega a sostener que esta práctica “amenaza con alejar a sus lectores del Times, incluyendo suscriptores vigentes y potenciales, reduciendo los ingresos por suscripción, publicidad, licenciamiento y afiliación que financian la capacidad del Times de continuar produciendo su nivel actual de periodismo innovador”.

La teoría del NYT puede tener cierto asidero. No resulta imposible pensar que muchos usuarios, sobre todos los que menos valoran los contenidos periodísticos, crean que puedan encontrar suficiente valor con la información que les proporciona una herramienta de IA como ChatGPT, al punto de no tener necesidad de navegar en la web del NYT. Aun así, nos permitimos hacer dos observaciones o limitaciones a esa tesis.

La primera es que una empresa periodística vende noticias, esto es, contenidos reales, verificables; mientras que una herramienta de IA que utiliza LLM vende otro producto. No comercializa hechos, “solo” tiene lenguaje recreado que puede coincidir con la realidad o no. Así, si un consumidor quiere noticias, necesita al NYT, y si un consumidor quiere que ChatGPT le proporcione un resultado basado en noticias, ChatGPT necesitará al NYT o a fuentes similares.

Esto nos lleva a la segunda limitante que tiene que ver con el “problema” de la alucinación. Seguramente todos nos hemos topado con los supuestos “errores” de algunas de estas herramientas de IA que nos proporcionan información supuestamente “falsa”, “contradictoria” o “inventada”, como, le ocurrió al abogado que citó un caso falso, en la elaboración de un escrito.

La “alucinación” es una circunstancia inherente al LLM, en tanto se trata de una herramienta que abstrae y crea nuevas expresiones. En algunos casos pueden ser similares o idénticas a contenidos ya existentes (dependiendo de las fuentes y parámetros que utilicen), pero no deja de ser un ejercicio creativo, que consiste en hacer algo nuevo o inventado, incluso si toma como base ciertas fuentes de “inspiración”. Así, el resultado podría parecer el de una noticia real, pero no lo es. O al menos, el propósito de un LLM no es replicar un contenido real (si así lo fuera, como si se tratara de una base de datos o un motor de búsqueda, el caso de copyright infringement sería más obvio), sino crear un contenido propio.

La alucinación es algo natural a un LLM pero lo aleja de un contenido periodístico, y lo convierte, por tanto, en un sustituto sub-óptimo.

Esta falta de sustituibilidad perfecta entre un asistente de IA y una empresa periodística me hace pensar que la relación entre ambas compañías no es puramente competitiva, sino más bien complementaria. Y ello podría determinar el desenlace de la controversia, que se podría decantar más por un acuerdo entre partes que se necesitan mutuamente.