Britannica y Merriam-Webster contra OpenAI: cuando el guardián del conocimiento demanda al modelo que lo memoriza

March 19, 2026 |

0 comments

De Perplexity a OpenAI: la misma estrategia, distinta demandada

Hace apenas seis meses analizábamos la demanda que Encyclopædia Britannica y Merriam-Webster interpusieron contra Perplexity AI por infracción de derechos de autor y uso indebido de marcas registradas. Señalábamos entonces que el caso representaba uno de los enfrentamientos más significativos entre editores tradicionales de contenido verificado y empresas de inteligencia artificial generativa. Ese procedimiento, pendiente de resolución ante el Tribunal de Distrito Sur de Nueva York bajo la supervisión de la Jueza Jennifer L. Rochon, sigue su curso procesal —Perplexity presentó una moción de desestimación (motion to dismiss) en noviembre de 2025 que, a fecha de redacción de este artículo, aún no ha sido resuelta—.

Pues bien: los mismos demandantes han decidido abrir un segundo frente. El 13 de marzo de 2026, Britannica y Merriam-Webster presentaron una demanda contra OpenAI ante el mismo tribunal federal de Manhattan, acusando a la empresa de Sam Altman de infracción masiva de derechos de autor y violación de marcas registradas. La acción civil, registrada con el número 1:26-cv-2097, nombra como demandadas a nueve entidades vinculadas a OpenAI, desde la organización sin ánimo de lucro original (OpenAI Inc.) hasta la recién constituida OpenAI Group PBC, resultado de la reestructuración corporativa completada en diciembre de 2025.

La estructura argumentativa de la nueva demanda resulta familiar para quien haya seguido el caso contra Perplexity. Sin embargo, el cambio de demandada introduce una diferencia cualitativa importante: OpenAI no es un motor de búsqueda con IA, sino el desarrollador del modelo de lenguaje de gran tamaño (LLM) más utilizado del mundo, con más de 900 millones de usuarios semanales activos y una valoración de 730.000 millones de dólares. Atacar a OpenAI es atacar el corazón de la industria.

La arquitectura jurídica: cinco causas de acción sobre dos pilares

La demanda se articula en torno a cinco causas de acción (counts) que, en esencia, descansan en dos pilares normativos: la Copyright Act de 1976 (17 U.S.C. § 106) y la Lanham Act (15 U.S.C. § 1125). Merece la pena desgranar cada una, porque su combinación revela una estrategia procesal más ambiciosa que la desplegada contra Perplexity.

Las tres infracciones de derechos de autor

Las tres primeras causas de acción abordan la infracción de copyright desde ángulos complementarios. La primera (Count I) se dirige contra la copia de contenido como insumo para el entrenamiento de los LLMs y los sistemas RAG. Los demandantes alegan que OpenAI ha copiado, directa o indirectamente a través de terceros, hasta 100.000 artículos de Britannica para utilizarlos como datos de entrenamiento de los modelos GPT sucesivos (desde GPT-2 hasta GPT-4 y posteriores) y como material de contexto para su sistema de generación aumentada por recuperación. Esta copia se habría producido, según la demanda, mediante el rastreo y la extracción sistemática de los sitios web de los demandantes, en violación directa de los términos de uso de Britannica, que prohíben expresamente el uso de sus contenidos para el desarrollo o entrenamiento de sistemas de inteligencia artificial.

La segunda causa de acción (Count II) aborda un momento posterior del proceso: la generación de resultados. Cuando ChatGPT responde a consultas de usuarios con reproducciones totales o parciales de artículos de Britannica, definiciones de Merriam-Webster o paráfrasis sustancialmente similares al contenido original, se produce —según los demandantes— una nueva infracción, independiente de la anterior. No se trata solo de que OpenAI haya copiado el material para entrenar sus modelos, sino de que esos modelos, al generar respuestas, producen obras derivadas no autorizadas.

La demanda incluye ejemplos que buscan demostrar la memorización del contenido protegido. En uno de los más llamativos, al solicitar a GPT-4 que reprodujera el cuerpo del artículo de Britannica sobre «Education», el modelo generó una salida casi literal del artículo original. En otro ejemplo, ChatGPT reprodujo exactamente la definición de «plagiarize» del diccionario Merriam-Webster’s Collegiate Dictionary, registrado ante la Copyright Office estadounidense. La ironía de solicitar a una IA la definición de plagio y recibir una copia exacta no requiere comentario adicional.

Las causas tercera y cuarta (Counts III y IV) completan el cuadro con las reclamaciones de infracción vicaria y contributiva, respectivamente. La infracción vicaria se dirige contra las entidades matrices y holdings que controlan, dirigen y se benefician de la actividad infractora de las filiales operativas. La contributiva sostiene que, en la medida en que un usuario final de ChatGPT pudiera ser considerado infractor directo al recibir contenido protegido, OpenAI habría contribuido materialmente a esa infracción al construir y entrenar los modelos, determinar qué contenido se genera como respuesta e incorporar material protegido a través de sus sistemas RAG.

La dimensión marcaria: alucinaciones y omisiones

La quinta causa de acción (Count V) abandona el terreno del copyright para adentrarse en el derecho de marcas, y aquí la demanda contra OpenAI reproduce casi textualmente la estrategia ya empleada contra Perplexity. Los demandantes alegan que ChatGPT vulnera la Lanham Act de dos maneras. En primer lugar, cuando genera contenido inventado —las célebres «alucinaciones»— y lo atribuye falsamente a Britannica o Merriam-Webster, utilizando sus marcas registradas. En segundo lugar, cuando reproduce parcialmente artículos de Britannica sin revelar que ha omitido secciones, creando la impresión falsa de que el resultado es una reproducción completa y fidedigna del contenido original.

Esta segunda vertiente resulta particularmente interesante desde una perspectiva jurídica. No se trata únicamente de que ChatGPT invente información y la atribuya a una fuente de prestigio, sino de que, incluso cuando reproduce contenido real, la omisión no declarada de fragmentos puede desvirtuar el mensaje original. Para instituciones cuyo valor de marca descansa en la exhaustividad y la precisión —250 años de reputación, en el caso de Britannica—, la atribución de contenido incompleto bajo su nombre constituye un daño reputacional concreto.

Lo que distingue este caso del litigio contra Perplexity

Aunque ambas demandas comparten demandantes, tribunal y estructura argumental básica, las diferencias merecen atención.

La primera es tecnológica. Perplexity opera fundamentalmente como un motor de búsqueda con IA: su sistema RAG rastrea la web en tiempo real, extrae contenido y lo reelabora como respuesta conversacional. El reproche central contra Perplexity se centraba en ese proceso de extracción y redistribución inmediata. OpenAI, en cambio, presenta un doble vector de infracción: el entrenamiento previo del modelo (que incorpora el contenido protegido en la estructura paramétrica del LLM) y la generación aumentada por recuperación en tiempo real. La demanda subraya esta diferencia al acuñar el concepto de «memorización» del contenido: GPT-4 no solo accede a artículos de Britannica cuando se los solicitan, sino que los ha «memorizado» durante su entrenamiento y puede reproducirlos incluso sin conexión a internet.

La segunda diferencia es de escala económica. Perplexity, valorada en 20.000 millones de dólares, es una empresa emergente significativa. OpenAI, con su valoración de 730.000 millones, sus más de 100.000 millones en inversión acumulada y unos ingresos anuales que, según Reuters, alcanzan los 25.000 millones de dólares, opera en una liga distinta. Los demandantes no cuantifican el daño en la demanda —solicitan daños estatutarios, daños reales, restitución de beneficios y honorarios de abogado—, pero el potencial indemnizatorio es proporcionalmente mayor.

La tercera diferencia es procesal y quizá la más relevante a medio plazo. La demanda contra Perplexity se tramita como un caso individual ante la jueza Rochon. La acción contra OpenAI, en cambio, aterriza en un ecosistema litigioso ya consolidado: el multidistrict litigation (MDL) que concentra más de una docena de demandas por infracción de copyright contra OpenAI en el Distrito Sur de Nueva York, bajo la dirección del Juez Sidney H. Stein (In re: OpenAI, Inc. Copyright Infringement Litigation, No. 1:25-md-3143). Aunque la demanda de Britannica se ha presentado como un caso separado, la posibilidad de que se incorpore al MDL es real, lo que tendría implicaciones significativas tanto para la gestión procesal como para la eventual resolución del litigio.

El campo de batalla procesal: un MDL en plena efervescencia

Para comprender el alcance de la demanda de Britannica conviene situar el estado actual del MDL contra OpenAI. A marzo de 2026, el procedimiento consolidado agrupa demandas de The New York Times, Chicago Tribune, el Center for Investigative Reporting (editor de Mother Jones), The Intercept y decenas de autores individuales, entre otros. La fase de descubrimiento probatorio (discovery) se encuentra avanzada, y en enero de 2026 el Juez Stein confirmó una orden que obliga a OpenAI a producir un muestreo de 20 millones de registros anonimizados de conversaciones de ChatGPT para su análisis por los demandantes.

Esta decisión sobre el discovery tiene una relevancia que trasciende el MDL. El tribunal rechazó el argumento de OpenAI de que solo debían producirse registros que contuvieran obras de los demandantes, razonando que incluso los registros sin reproducciones directas son relevantes para evaluar la defensa de fair use: si se puede demostrar que ChatGPT genera sistemáticamente resultados que compiten con o sustituyen contenido protegido —incluso cuando los usuarios no solicitan expresamente las obras de los demandantes—, la defensa de uso legítimo se debilita considerablemente.

No se espera que el MDL produzca una resolución sustantiva sobre el fair use antes del verano de 2026 como muy pronto. Pero el volumen probatorio que se está acumulando —y, sobre todo, la naturaleza de esa prueba: millones de interacciones reales que documentan qué produce ChatGPT y cómo se relaciona con las fuentes originales— configura un escenario en el que la línea defensiva de OpenAI estará sometida a un escrutinio sin precedentes.

La defensa de fair use: un argumento cada vez más estrecho

OpenAI ha respondido públicamente a la demanda con la posición que viene manteniendo en todos los litigios: que sus modelos se entrenan con datos públicamente disponibles y que su uso está amparado por el fair use. La doctrina del uso legítimo, recogida en la sección 107 del Copyright Act, exige ponderar cuatro factores: el propósito y el carácter del uso, la naturaleza de la obra protegida, la cantidad utilizada en relación con el conjunto de la obra y el efecto sobre el mercado potencial.

El problema para OpenAI es que la demanda de Britannica ataca cada uno de estos factores con argumentos específicos. Respecto al propósito del uso, los demandantes señalan que ChatGPT tiene una finalidad inequívocamente comercial y que su uso no es transformativo: no añade nueva expresión, significado ni mensaje al contenido original, sino que lo reempaqueta para el consumidor. Sobre la naturaleza de la obra, Britannica ofrece contenido factual y educativo, un terreno donde la protección de copyright es más tenue, pero también donde la copia literal resulta menos defendible. En cuanto a la cantidad utilizada, la demanda alega la copia de hasta 100.000 artículos —prácticamente la totalidad del catálogo online de Britannica—. Y sobre el efecto en el mercado, los demandantes sostienen que ChatGPT funciona como un sustituto directo de sus sitios web, privándoles de ingresos publicitarios y de suscripciones.

Además, existe un antecedente que refuerza la posición de Britannica. En Thomson Reuters Enterprise Center GMBH v. Ross Intelligence Inc. (765 F.Supp.3d 382, D. Del. 2025), el tribunal sostuvo que el fair use puede no proteger la utilización de material no licenciado cuando se emplea para generar un sustituto competitivo directo. Aunque cada caso depende de sus circunstancias, este precedente complica la posición de cualquier empresa de IA que utilice contenido protegido para producir resultados que compitan con la fuente original.

También resulta significativo un dato que la demanda destaca: en noviembre de 2024, Britannica contactó a OpenAI para explorar acuerdos de licencia. Según la demanda, OpenAI no mostró disposición a licenciar el contenido de los demandantes y rechazó la propuesta, pese a haber firmado acuerdos de licencia con otros editores de perfil comparable. Este detalle factual podría resultar relevante en el análisis del cuarto factor del fair use, dado que la existencia de un mercado de licencias para contenido de entrenamiento de IA es cada vez más difícil de ignorar.

Litigar o licenciar: la gran bifurcación del mercado editorial

La demanda de Britannica se inscribe en un contexto de mercado que merece un análisis independiente. A marzo de 2026, el ecosistema editorial se ha fracturado en dos estrategias claramente diferenciadas frente a las empresas de IA generativa: la vía litigiosa y la contractual.

En el campo de las licencias, OpenAI mantiene acuerdos con más de 18 editores globales, incluyendo News Corp (un acuerdo por 250 millones de dólares en cinco años), Financial Times, Condé Nast, Axel Springer, Le Monde, Prisa Media, Associated Press y Dotdash Meredith, entre otros. News Corp, por su parte, acaba de cerrar en marzo de 2026 un acuerdo adicional con Meta por 50 millones de dólares anuales. El CEO de News Corp, Robert Thomson, ha formulado con claridad la lógica de esta estrategia: su empresa se posiciona como un «proveedor de insumos» (input company) para la economía de la IA, monetizando su archivo y contenido actual como materia prima para modelos de lenguaje.

En el lado opuesto, The New York Times mantiene su demanda contra OpenAI y Microsoft, mientras que editoras danesas han iniciado acciones legales recientes y el número total de demandas por copyright contra empresas de IA en Estados Unidos superaba las 90 a mediados de marzo de 2026. La acción colectiva Bartz v. Anthropic, relativa al uso de libros pirata para entrenamiento, alcanzó un acuerdo transaccional por 1.500 millones de dólares en 2025, el mayor en la oleada de litigios de IA hasta la fecha, lo que demuestra que la vía judicial puede producir resultados financieros significativos.

Britannica ha optado, al menos por el momento, por la vía judicial frente a ambas compañías de IA que utilizan su contenido —Perplexity y OpenAI—, sin cerrar acuerdos de licencia con ninguna de ellas. Esta posición es coherente con el argumento de fondo de sus demandas: que los términos de uso de sus plataformas prohíben expresamente la extracción de contenido con fines de IA, y que la existencia de un mercado de licencias no legitima retroactivamente la copia no autorizada previa.

Un litigio que puede definir una industria

Si el caso contra Perplexity planteaba la cuestión de si un motor de búsqueda con IA puede apropiarse del contenido que indexa, la demanda contra OpenAI lleva el debate un paso más allá: ¿puede un modelo de lenguaje memorizar el conocimiento humano acumulado y redistribuirlo como propio?

La respuesta legal no es sencilla, los tribunales estadounidenses no han establecido aún un precedente claro sobre si el entrenamiento de LLMs con contenido protegido constituye fair use. Algunos pronunciamientos sugieren que el uso de material legalmente obtenido para entrenar modelos podría estar amparado —los casos Bartz v. Anthropic y Kadrey v. Meta Platforms apuntan en esa dirección—, pero ninguno ha producido una resolución definitiva, y la cuestión de qué ocurre cuando el material se obtiene mediante rastreo en violación de los términos de uso del propietario permanece abierta.

Lo que sí puede afirmarse es que el argumento sustitutivo —según el cual los resultados de ChatGPT funcionan como reemplazo del contenido original, privando a los editores de tráfico, suscripciones e ingresos publicitarios— es el terreno en el que la posición de los demandantes resulta más sólida. La demanda expone con claridad la lógica económica destructiva: si los usuarios obtienen la información que buscan directamente de ChatGPT sin visitar las fuentes originales, el modelo de negocio que financia la creación de ese contenido se erosiona. Y con él, a medio plazo, la calidad del propio contenido que los modelos de IA necesitan para funcionar. Es lo que la demanda describe, con una expresividad poco frecuente en un escrito procesal, como una «espiral descendente» para los creadores de contenido.

Este argumento conecta con una intuición que la industria editorial lleva tiempo articulando: la relación entre empresas de IA y editores de contenido no es parasitaria por accidente, sino por diseño. OpenAI ha afirmado expresamente que ChatGPT ofrece «mejores respuestas» que la búsqueda tradicional precisamente porque elimina la necesidad de «navegar entre enlaces» y «buscar fuentes de calidad». Pero esa ventaja competitiva existe porque otra persona financió la creación de esas fuentes.

El desenlace de estos litigios —el caso Britannica, el MDL consolidado, las acciones paralelas contra Perplexity y otros— no solo determinará quién paga qué a quién, sino que establecerá los contornos de una industria que se está configurando en tiempo real. Para los editores que han elegido litigar, la apuesta es que los tribunales establecerán límites que fuerzan a las empresas de IA a negociar licencias en condiciones sustancialmente mejores. Para los que han optado por licenciar, el cálculo es inverso: mejor asegurar ingresos ahora que depender de un resultado judicial incierto y lejano. Ambas estrategias son racionales. Ninguna garantiza el resultado.

Derecho de la Creación

Derechos de Autor IA