Una investigación revela que Apple, Nvidia y otras empresas usaron videos de YouTube para entrenar la IA

Photo by Szabo Viktor on Unsplash

Una investigación revela que Apple, Nvidia y otras empresas usaron videos de YouTube para entrenar la IA

Tiempo de lectura: 2 min.

Una nueva investigación de los estudios de noticias sin ánimo de lucro Proof News y Wired reveló que importantes empresas de IA como Anthropic, Nvidia, Apple y Salesforce utilizaron miles de videos de YouTube para entrenar a sus modelos de IA, a pesar de las políticas de YouTube contra la recolección de datos sin permiso.

Investigadores con experiencia técnica analizaron conjuntos de datos de entrenamiento disponibles al público y descubrieron que estas empresas de Silicon Valley y otras utilizaron las transcripciones de 173.536 videos de YouTube de más de 48.000 canales.

Proof News explicó que han encontrado material de estrellas de YouTube como Mr. Beast, PewDiePie, Jacksepticeye y Marques Brownlee, así como contenido educativo de canales de MIT, Harvard, Khan Academy y publicaciones de noticias como BBC, NPR y Wall Street Journal. También se mencionaron en el estudio algunos programas populares como “Jimmy Kimmel Live”, “The Late Show With Stephen Colbert” y “Last Week Tonight With John Oliver” como parte de la colección.

YouTube Subtitles, como se llamó al conjunto de datos, también incluye traducciones a idiomas como árabe, alemán y japonés, y fue creado por EleutherAI, un grupo de investigación de IA sin fines de lucro.

Según un artículo publicado por EleutherAI, el conjunto de datos es parte de una compilación llamada Pile que también incluye material de otras fuentes. Apple, Nvidia, Salesforce, Bloomberg, Databricks y Antropic, enfocados en “la seguridad de la IA”, han confirmado que han utilizado Pile para entrenar modelos de IA a través de trabajos de investigación y documentos.

Proof News también lanzó ayer una herramienta para ayudar a los creadores de contenido, investigadores y al público en general a encontrar los videos utilizados en la base de datos. “Hemos desarrollado una herramienta para que puedas buscar los datos por ti mismo”, explicó la organización a través de un comunicado de prensa. “Ten en cuenta que la herramienta de búsqueda ocasionalmente devolverá falsos negativos para canales y videos que están en el conjunto de datos. Asegúrate de escribir correctamente el título de tu canal o video”.

Los youtubers incluidos en la investigación también han expresado su preocupación y malestar. “Es un robo”, dijo Dave Wiskus, el CEO de Nebula, a Proof News y Wired después de descubrir que su contenido se había utilizado para entrenar modelos de IA. “¿Se utilizará esto para explotar y dañar a los artistas? Sí, con toda seguridad”.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Dejar un comentario

Loader
Loader Ver más