DeepSeek presenta el modelo 3V, la inteligencia artificial de código abierto más potente hasta ahora.
La empresa china de IA, DeepSeek, lanzó su último modelo de código abierto, DeepSeek-V3, esta semana. La startup asegura que su nuevo modelo grande incluye 671B parámetros y puede rendir mejor que modelos de vanguardia como el GPT-4o de OpenAI y el Claude-Sonnet-3.5 de Anthropic.
¿Con prisa? ¡Aquí están los datos rápidos!
- DeepSeek lanzó su último modelo de IA, DeepSeek-V3, alegando que funciona mejor que GPT 4o y Claude-Sonnet-3.5.
- La compañía de IA china explicó que el nuevo modelo incluye 671B parámetros y es tres veces más rápido que el modelo anterior.
- Ahora, DeepSeek-V3 es el modelo de IA de código abierto más potente en el mercado
Los usuarios pueden interactuar con el modelo a través de la página web oficial, leer el artículo de la empresa y acceder al modelo a través de Hugging Face. DeekSeek afirmó que este nuevo modelo es tres veces más rápido que la versión anterior lanzada en noviembre y que tiene capacidades mejoradas y compatibilidad con API.
🚀 ¡Presentando DeepSeek-V3!
El salto más grande hasta ahora:
⚡ 60 tokens/segundo (¡3 veces más rápido que V2!)
💪 Capacidades mejoradas
🛠 La compatibilidad de la API sigue intacta
🌍 Modelos y trabajos completamente de código abierto🐋 1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) 26 de diciembre, 2024
“Presentamos DeepSeek-V3, un potente modelo de lenguaje Mixture-of-Experts (MoE) con un total de 671B parámetros, activando 37B para cada token,” escribió la compañía en GitHub. “Evaluaciones exhaustivas revelan que DeepSeek-V3 supera a otros modelos de código abierto y logra un rendimiento comparable a los principales modelos de código cerrado.”
Muchos usuarios, organizaciones y empresas han felicitado a DeepSeek por su logro. “¡Felicidades por el impresionante lanzamiento!” escribió Hugging Face en X, “¡Los puntos de control del modelo y un informe detallado, verdaderamente ya es Navidad!”
Andrej Karpathy —ex investigador en OpenAI y jefe de AI en Tesla— también compartió algunas reflexiones. “DeepSeek (compañía de IA china) lo hace parecer fácil hoy con el lanzamiento abierto de un LLM de vanguardia entrenado con un presupuesto ridículo (2048 GPUs durante 2 meses, $6M).”
DeepSeek-V3 es ahora uno de los modelos de IA de código abierto más potentes en el mercado y su API de pago sigue siendo una de las más asequibles del mercado.
Dejar un comentario
Cancelar