Los escritores Abdi Nazemian, Brian Keene y Stewart O’Nan, entre otros, han presentado una demanda colectiva contra NVIDIA, según ha filtrado el medio de comunicación Ars Technica. El documento afirma que la empresa compartió datos de sus libros ilegalmente, ya que no disponían de su consentimiento.

Casi 200.000 libros pirateados en la IA

La demanda asegura que el modelo de lenguaje grande (LLM son sus siglas en inglés) ‘NeMo’ ha sido entrenado con contenido ilegal de Books3, una biblioteca pirata con un catálogo de unos 196.640 libros. Esta IA, además, podía usarse «como base a partir de la cual construir más modelos», por lo que podría haber otros chatbots que incumplan los derechos de autor.

El conjunto de datos de Books3 se compartió en su momento de la web Hugging Face, pero «está obsoleto» desde octubre de 2023, puesto que incumple los derechos de autor. Pese a ello, los demandantes aseguran que NVIDIA hizo «múltiples copias» de esa información para entrenar a su chatbot.

Para defender su demanda, los novelistas hacen referencia a que la firma «ha admitido haber entrenado sus modelos NeMo Megatron en una copia del conjunto de datos The Pile». Ellos recalcan que Books3 forma parte de The Pile, por lo que entrenaron su IA con «una o más copias de las obras infringidas» que estaban dentro del catálogo del conjunto de datos pirata.

Además, los escritores afirman que como ‘NeMo’ puede usarse «como base a partir de la cual construir más modelos», es posible que otros chatbots que incumplan los derechos de autor.

Un portavoz de NVIDIA ha defendido a la empresa en un artículo de The Wall Street Journal alegando que respetan «los derechos de todos los creadores de contenido y creemos que creamos NeMo cumpliendo permanentemente con la ley de derechos de autor».

Con la demanda colectiva, los autores afectados esperan que se realice un juicio con jurado y será un tribunal el que compruebe si NVIDIA incumple o no las normativas.

OpenAI también fue demandado por lo mismo

El caso de NVIDIA no es único. En otras ocasiones, ya ha habido problemas con derechos de autor y el entrenamiento de herramientas con inteligencia artificial. Posiblemente, una de las demandas colectivas que más revuelo han generado es la de OpenAI del año pasado.

La situación de la empresa de Sam Altman era parecida. Los autores afirmaban que infringieron los derechos de autor al entrenar a ChatGPT con sus libros y permitir que este hiciese referencia a los mismos en sus respuestas.

Además, los demandantes afirmaban que la IA de OpenAI tenía una «extraña capacidad de generar texto similar al que se encuentra en materiales textuales protegidos por derechos de autor». En este caso, mostraban cierta preocupación por posibles intentos de plagio.

Hace poco, Araceli Martínez-Olguín, una jueza del distrito de California, desestimó gran parte de las acusaciones de los autores por falta de pruebas que las respalden. Los demandantes tenían hasta hoy, 13 de marzo, para modificar sus argumentos y continuar con sus reclamaciones.

 

Fuente: Ars Technica | The Wall Street Journal | adslzone