En comparación con otros modelos sin uso de herramientas, logra un rendimiento de vanguardia en:
🔘 LiveCodeBench V6, que evalúa el rendimiento del código competitivo
🔘 El Último Examen de la Humanidad, un referente desafiante que mide la experiencia de un modelo en diferentes dominios, incluyendo la ciencia.
Ver originales