Harvard Lanza una Base de Datos de Entrenamiento de IA a Gran Escala Gratuita
La Universidad de Harvard anunció que publicará un extenso conjunto de datos de casi un millón de libros de dominio público para el entrenamiento de inteligencia artificial de manera gratuita, creado por su nuevo programa Institutional Data Initiative (IDI).
¿Apurada? ¡Aquí están los datos rápidos!
- Harvard, en colaboración con Google Books, ha publicado un conjunto de datos con casi 1 millón de libros de dominio público para entrenar modelos de IA de forma gratuita
- El conjunto de datos fue creado por la nueva Iniciativa de Datos Institucionales, una iniciativa respaldada por Microsoft y OpenAI
- Las pequeñas organizaciones pueden beneficiarse de esta recopilación de datos para competir de manera más justa en la esfera de la IA
Según Wired, el conjunto de datos incluye publicaciones escaneadas por Google Books que ya no están protegidas por derechos de autor—generalmente expiran 70 años después de la muerte del autor o de su publicación. La colección de datos abarca múltiples formatos y géneros, desde la escritura creativa de autores famosos como Charles Dickens, Shakespeare y Dante hasta libros de texto y diccionarios.
Según el director ejecutivo de IDI, Greg Leppert, el objetivo es “nivelar el campo de juego” y permitir que más organizaciones y pequeños proyectos se unan a la carrera de la IA con herramientas valiosas. El tamaño del conjunto de datos es mayor que el utilizado para entrenar modelos populares de IA como Llama de Meta. “Lo veo un poco como la forma en que Linux se ha convertido en un sistema operativo fundamental para gran parte del mundo”, dijo Leppert.
El IDI fue oficialmente lanzado hoy y ha contado con el apoyo de OpenAI y Microsoft en términos de financiación y palabras alentadoras. La iniciativa tiene como objetivo trabajar con instituciones de conocimiento como agencias gubernamentales y bibliotecas “para desarrollar colecciones de datos y mejores prácticas para la inteligencia artificial”. No se han revelado los detalles de cómo se puede descargar el nuevo conjunto de datos, solo que Google ayudará con la distribución.
Esta nueva recopilación de datos debería evitar disputas por infracción de derechos de autor, a las que se han enfrentado muchas empresas de IA este año. “Grandes conjuntos de datos de dominio público como estos desmantelan aún más la ‘defensa de necesidad’ que algunas empresas de IA utilizan para justificar el raspado de obras protegidas por derechos de autor para entrenar sus modelos”, dijo Ed Newton-Rex, ex ejecutivo de Stability AI que ahora dirige una organización sin ánimo de lucro que certifica herramientas de IA formadas éticamente, a Wired.
Newton-Rex lideró recientemente una petición para detener a las empresas tecnológicas de raspar datos para entrenar sus modelos de IA.
Dejar un comentario
Cancelar