️IA. The new Claude Opus 4.6 improves on its predecessor’s coding skills

️IA

The new Claude Opus 4.6 improves on its predecessor’s coding skills. It plans more carefully, sustains agentic tasks for longer, can operate more reliably in larger codebases, and has better code review and debugging skills to catch its own mistakes. And, in a first for our Opus-class models, Opus 4.6 features a 1M token context window in beta.

Opus 4.6 can also apply its improved abilities to a range of everyday work tasks: running financial analyses, doing research, and using and creating documents, spreadsheets, and presentations. Within Cowork, where Claude can multitask autonomously, Opus 4.6 can put all these skills to work on your behalf.

The model’s performance is state-of-the-art on several evaluations. For example, it achieves the highest score on the agentic coding evaluation Terminal-Bench 2.0 and leads all other frontier models on Humanity’s Last Exam, a complex multidisciplinary reasoning test. On GDPval-AA—an evaluation of performance on economically valuable knowledge work tasks in finance, legal, and other domains1—Opus 4.6 outperforms the industry’s next-best model (OpenAI’s GPT-5.2) by around 144 Elo points,2 and its own predecessor (Claude Opus 4.5) by 190 points. Opus 4.6 also performs better than any other model on BrowseComp, which measures a model’s ability to locate hard-to-find information online.

El nuevo Claude Opus 4.6 mejora las capacidades de programación de su predecesor. Planifica con mayor precisión, mantiene tareas autónomas durante más tiempo, opera de forma más fiable en bases de código más grandes y cuenta con mejores habilidades de revisión y depuración de código para corregir sus propios errores. Además, y por primera vez en nuestros modelos de la clase Opus, Opus 4.6 incluye una ventana de contexto de 1 millón de tokens en versión beta.

Opus 4.6 también puede aplicar sus capacidades mejoradas a una variedad de tareas laborales cotidianas: realizar análisis financieros, investigar y crear y utilizar documentos, hojas de cálculo y presentaciones. Dentro de Cowork, donde Claude puede realizar múltiples tareas de forma autónoma, Opus 4.6 puede poner todas estas habilidades a trabajar en su beneficio.

El rendimiento del modelo es de vanguardia en varias evaluaciones. Por ejemplo, obtiene la puntuación más alta en la evaluación de programación autónoma Terminal-Bench 2.0 y supera a todos los demás modelos de última generación en Humanity's Last Exam, una compleja prueba de razonamiento multidisciplinar. En GDPval-AA, una evaluación del rendimiento en tareas de conocimiento de alto valor económico en finanzas, derecho y otros ámbitos¹, Opus 4.6 supera al segundo mejor modelo del sector (GPT-5.2 de OpenAI) en aproximadamente 144 puntos Elo² y a su predecesor (Claude Opus 4.5) en 190 puntos. Opus 4.6 también tiene un mejor rendimiento que cualquier otro modelo en BrowseComp, que mide la capacidad de un modelo para encontrar información difícil de localizar en línea.

https://youtu.be/dPn3GBI8lII

Fuente: Telegram "aresinfoservice"

️IA. The new Claude Opus 4.6 improves on its predecessor’s coding skills

Report Page