Harvard Lanza una Base de Datos de Entrenamiento de IA a Gran Escala Gratuita

Photo by Aleks Marinkovic on Unsplash

Harvard Lanza una Base de Datos de Entrenamiento de IA a Gran Escala Gratuita

Tiempo de lectura: 3 min.

La Universidad de Harvard anunció que publicará un extenso conjunto de datos de casi un millón de libros de dominio público para el entrenamiento de inteligencia artificial de manera gratuita, creado por su nuevo programa Institutional Data Initiative (IDI).

¿Apurada? ¡Aquí están los datos rápidos!

  • Harvard, en colaboración con Google Books, ha publicado un conjunto de datos con casi 1 millón de libros de dominio público para entrenar modelos de IA de forma gratuita
  • El conjunto de datos fue creado por la nueva Iniciativa de Datos Institucionales, una iniciativa respaldada por Microsoft y OpenAI
  • Las pequeñas organizaciones pueden beneficiarse de esta recopilación de datos para competir de manera más justa en la esfera de la IA

Según Wired, el conjunto de datos incluye publicaciones escaneadas por Google Books que ya no están protegidas por derechos de autor—generalmente expiran 70 años después de la muerte del autor o de su publicación. La colección de datos abarca múltiples formatos y géneros, desde la escritura creativa de autores famosos como Charles Dickens, Shakespeare y Dante hasta libros de texto y diccionarios.

Según el director ejecutivo de IDI, Greg Leppert, el objetivo es “nivelar el campo de juego” y permitir que más organizaciones y pequeños proyectos se unan a la carrera de la IA con herramientas valiosas. El tamaño del conjunto de datos es mayor que el utilizado para entrenar modelos populares de IA como Llama de Meta. “Lo veo un poco como la forma en que Linux se ha convertido en un sistema operativo fundamental para gran parte del mundo”, dijo Leppert.

El IDI fue oficialmente lanzado hoy y ha contado con el apoyo de OpenAI y Microsoft en términos de financiación y palabras alentadoras. La iniciativa tiene como objetivo trabajar con instituciones de conocimiento como agencias gubernamentales y bibliotecas “para desarrollar colecciones de datos y mejores prácticas para la inteligencia artificial”. No se han revelado los detalles de cómo se puede descargar el nuevo conjunto de datos, solo que Google ayudará con la distribución.

Esta nueva recopilación de datos debería evitar disputas por infracción de derechos de autor, a las que se han enfrentado muchas empresas de IA este año. “Grandes conjuntos de datos de dominio público como estos desmantelan aún más la ‘defensa de necesidad’ que algunas empresas de IA utilizan para justificar el raspado de obras protegidas por derechos de autor para entrenar sus modelos”, dijo Ed Newton-Rex, ex ejecutivo de Stability AI que ahora dirige una organización sin ánimo de lucro que certifica herramientas de IA formadas éticamente, a Wired.

Newton-Rex lideró recientemente una petición para detener a las empresas tecnológicas de raspar datos para entrenar sus modelos de IA.

¿Te ha gustado este artículo?
¡Puntúalo!
No me ha gustado nada No me gusta Ha estado bien ¡Muy bueno! ¡Me ha encantado!

¡Nos alegra que te guste nuestro trabajo!

Eres importante para nosotros, por eso, nos gustaría que nos dejaras una opinión en Trustpilot, ¿te animas? Se tarda muy poco y significa mucho para nosotros. ¡Gracias por todo!

Valóranos en Trustpilot
0 Votado por 0 usuarios
Título
Comentar
Gracias por tu opinión
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Dejar un comentario

Loader
Loader Ver más