Para entrenar una Inteligencia Artificial es necesario darle mucha información, información que, posteriormente, es capaz de analizar y extraer información a través de preguntas. El problema es el origen de los datos y si están protegidos o no con derechos de autor. OpenAI recibió el año pasado una demanda por parte de New York Times en la que se le acusa de utilizar la información de este diario para entrenar su IA.
La demanda de New York Times a OpenAI y Microsoft, no es la primera ni será última que reciban las empresas que se encargan de entrenar Inteligencias Artificiales. La última en subirse al carro es NVIDIA, tras la filtración la semana pasada de una serie de correos en las que se podía leer como este fabricante está utilizando YouTube para entrenar su IA.
Cuando saltó la noticia, Google, hizo una vaga declaración en la que ni decía que estaba bien ni que estaba mal, algo lógico ya que también se está beneficiando de todo el contenido disponible en su plataforma de vídeos para entrenar las diferentes versiones de Gemini que ofrece.
Volviendo a NVIDIA, la filtración de la serie de correos donde se afirmaba que estaban utilizando vídeos de YouTube se ha convertido en la denuncia de un YouTuber.
NVIDIA utiliza YouTube para entrenar su IA
El YouTuber David Millette denunció hace unos días a OpenAI por, según afirman, utilizar las transcripciones de los vídeos de YouTube para entrenar su IA, sin pedir permiso a los creadores de contenido. Unos días después, este mismo YouTuber, que parece andar sobrado de tiempo libre, ha denunciado a NVIDIA, por un motivo similar y que no está relacionado con los derechos de audio sino por enriquecimiento y competencia injustos.
En los emails que se filtraron la semana pasada, se podía leer que NVIDIA entrenaba su IA con más de 400.000 horas de vídeo al día de YouTube. En esos emails, los empleados se planteaban hasta qué punto era ético y legal utilizar estas plataformas sin un consentimiento oficial, a lo que el departamento legal afirmó que no había ningún problema.
En la demanda que ha presentado David Millette, este afirma que utilizar YouTube que rastrear Internet para entrenar su IA «es una práctica «injusta, inmoral, opresiva, poco ética y perjudicial para los usuarios». Las empresas que se encuentran detrás del entrenamiento de una IA nunca afirman que tipo de fuentes se han utilizado.
Muchos son los blogs que se han cansado de ver como algunos servidores se encargan de scrapear datos de sus webs para entrenar Inteligencias Artificial, siendo Reddit, el que más se lo está tomando en serio y que ha tomado medidas para evitar que sigan haciéndolo. Lo que está claro es que, si no pagas, nadie te da acceso a sus servidores para que entrenes una IA.
Esta mala práctica entre las empresas se debe a que todavía no hay una regulación que establezca lo que es legal y lo que es ilegal acerca de contenido disponible en redes sociales, YouTube y páginas web, moviéndose en una zona gris legal donde ninguna denuncia tiene vistos de llegar a buen puerto.
Un claro ejemplo lo encontramos en la respuesta que ha publicado NVIDIA tras recibir esta denuncia y en la que afirma:
Cualquiera es libre de aprender hechos e ideas de fuentes disponibles públicamente. La creación de obras nuevas y transformadoras no solo es justa y equitativa, sino exactamente lo que nuestro sistema legal fomenta.