Pero hay un problema. Las empresas de IA han saqueado World wide web en busca de datos de entrenamiento, y muchos sitios web y propietarios de conjuntos de datos han comenzado a restringir la capacidad de extraer datos de sus sitios website. También hemos visto una reacción negativa contra la práctica del sector de la IA de extraer datos en línea de forma indiscriminada, en forma de usuarios que optan por no poner sus datos a disposición para el entrenamiento y demandas de artistas, escritores y la comunidad. New York Situationsalegando que las empresas de IA se han apropiado de su propiedad intelectual sin consentimiento ni compensación.

La semana pasada, tres grandes sellos discográficos (Sony Tunes, Warner Audio Team y Universal Songs Team) anunciaron que iban a demandar a las compañías de música con inteligencia synthetic Suno y Udio por supuestas infracciones de derechos de autor. Los sellos discográficos afirman que las compañías utilizaron música protegida por derechos de autor en sus datos de entrenamiento “a una escala casi inimaginable”, lo que permitió que los modelos de inteligencia artificial generaran canciones que “imitaban las cualidades de grabaciones de sonido humanas genuinas”. Mi colega James O’Donnell analiza las demandas en su artículo y señala que estas demandas podrían determinar el futuro de la música con inteligencia synthetic. Léalo aquí.

Pero este momento también sienta un precedente interesante para todo el desarrollo de la IA generativa. Gracias a la escasez de datos de alta calidad y a la inmensa presión y demanda para construir modelos aún más grandes y mejores, nos encontramos en un momento poco común en el que los propietarios de los datos realmente tienen cierta influencia. La demanda de la industria musical envía el mensaje más contundente hasta el momento: los datos de entrenamiento de alta calidad no son gratuitos.

Probablemente pasarán al menos algunos años antes de que tengamos claridad lawful sobre la ley de derechos de autor, el uso justo y los datos de entrenamiento de IA. Pero los casos ya están marcando el comienzo de los cambios. OpenAI ha estado cerrando acuerdos con editores de noticias como Políticoel atlántico, Tiempoel Tiempos financierosy otros, y el intercambio de archivos de noticias de editoriales por dinero y citas. Y YouTube anunció a fines de junio que ofrecerá acuerdos de licencia a las principales discográficas a cambio de música para capacitación.

Estos cambios son un poco contradictorios. Por un lado, me preocupa que los editores de noticias estén haciendo un pacto faustiano con la IA. Por ejemplo, la mayoría de las empresas de medios que han hecho acuerdos con OpenAI dicen que el acuerdo estipula que OpenAI debe citar sus fuentes. Pero los modelos de lenguaje son fundamentalmente incapaces de ser factuales y son mejores inventando cosas. Los informes han demostrado que ChatGPT y el motor de búsqueda impulsado por IA Perplexity a menudo alucinan las citas, lo que hace que sea difícil para OpenAI cumplir sus promesas.

La situación también es complicada para las empresas de IA. Este cambio podría llevarlas a construir modelos más pequeños y eficientes, que son mucho menos contaminantes, o podrían desembolsar una fortuna para acceder a los datos a la escala que necesitan para construir el próximo gran modelo. Solo las empresas con más dinero en efectivo o con grandes conjuntos de datos propios (como Meta, con sus dos décadas de datos de redes sociales) pueden permitirse hacerlo. Por lo tanto, los últimos avances corren el riesgo de concentrar aún más el poder en manos de los actores más importantes.

Por otra parte, la concept de introducir el consentimiento en este proceso es buena, no sólo para los titulares de derechos, que pueden beneficiarse del auge de la IA, sino para todos nosotros. Todos deberíamos tener la capacidad de decidir cómo se utilizan nuestros datos, y una economía de datos más justa significaría que todos podríamos beneficiarnos.


Aprendizaje más profundo

Cómo los videojuegos con IA pueden ayudar a revelar los misterios de la mente humana