Grok-2 está aquí, puede generar imágenes y reconocer imágenes, y su rendimiento es comparable al GPT-4o: se está desarrollando como un cohete

Grok-2 está aquí, puede generar imágenes y reconocer imágenes, y su rendimiento es comparable al GPT-4o: se está desarrollando como un cohete.

2024-08-14

Informe del corazón de la máquina

Departamento editorial de Machine Heart

GPT-5 aún no ha salido, Grok ya lo alcanzó.

El mismo día que Google y OpenAI competían por las novedades, la xAI de Musk tampoco estaba de brazos cruzados.

El miércoles por la tarde, hora de Beijing, xAI lanzó oficialmente el modelo grande Grok 2 de nueva generación.

La organización de referencia de modelos grandes de terceros, Chatbot Arena, también actualizó inmediatamente la lista de puntuaciones de la lista LMSYS. El primer modelo de Grok 2 (sus-column-r) puede ocupar el cuarto lugar después del GPT-4o (versión 0513), superando al Claude 3.5 Sonnet y al GPT-4-Turbo.

Destaca en codificación, problemas complejos y matemáticas.

Musk no pudo evitar alardear: "La velocidad de propulsión de Grok es como la de un cohete".

Tenga en cuenta que esta es solo la puntuación de la versión anterior. Chatbot Arena dijo que probará la versión oficial en el futuro.

Musk dijo que Grok-2 es un modelo de lenguaje avanzado con capacidades de razonamiento de última generación. La nueva generación incluye dos versiones: Grok-2 y Grok-2 mini. Ambos modelos ahora están disponibles para los usuarios de Grok en la plataforma X. Actualmente, los usuarios de X Premium y Premium+ ya pueden experimentar los modelos Grok-2 y Grok-2 mini.

En comparación con el Grok-1.5 anterior, la versión preliminar de Grok-2 ha logrado un progreso significativo, demostrando capacidades líderes en chat, razonamiento, codificación, etc. xAI dice que Grok-2 y Grok-2 mini se encuentran actualmente en versión beta en el X y estarán disponibles a través de una API empresarial a finales de este mes.

Menos de media hora después del lanzamiento del nuevo modelo, un internauta ya estaba mostrando los resultados. Usó Grok 2 mini para generar una imagen de "Musk y yo comiendo hot dogs".

Pruebe con otro para generar un retrato de Washington.

Algunas personas también probaron Grok 2 mini para generar un gato volador.

Alguien más construyó un Tesla Model Y, ¿se parece?

Rendimiento de Grok-2 PK

A medida que xAI coloca una versión inicial de Grok-2, "sus-column-r", en Chatbot Arena, vemos cómo se compara su rendimiento con otros modelos populares de código abierto y cerrado.

En términos de puntuación Elo general, Grok-2 funciona mejor que los modelos de la serie Claude y la mayoría de las versiones de GPT-4. Por supuesto, el primero de la lista es GPT-4o (versión 8 de agosto), que OpenAI acaba de lanzar estos días.

La siguiente imagen muestra la comparación del índice de ganancias entre Grok-2 y otros modelos populares.

La siguiente imagen muestra una comparación de la tasa de victorias basada en hechos entre las dos versiones de Grok 1.5 y Grok 2.

xAI adopta este proceso para evaluar el modelo Grok 2, utilizando tutores de IA para interactuar verdaderamente con el modelo en diversas tareas. Durante cada interacción, Grok 2 proporciona dos respuestas a los tutores de IA, quienes luego seleccionan la mejor respuesta según los criterios específicos enumerados en la guía.

xAI se centra en evaluar el rendimiento del modelo en dos áreas clave: seguir instrucciones y proporcionar información precisa y veraz. Los resultados muestran mejoras significativas en la capacidad de Grok 2 para razonar a partir del contenido recuperado y utilizar herramientas como identificar correctamente la información faltante, razonar a través de secuencias de eventos, descartar publicaciones irrelevantes, etc.

Puntuaciones de referencia

xAI evaluó el modelo Grok-2 en una variedad de puntos de referencia académicos, incluidos razonamiento, comprensión lectora, matemáticas, ciencias y codificación.

Tanto el Grok-2 como el Grok-2 mini son mejoras significativas con respecto al modelo anterior Grok-1.5. El rendimiento es comparable al de otros modelos de vanguardia en áreas como conocimiento científico de posgrado (GPQA), conocimiento general (MMLU, MMLU-Pro) y problemas de competencia matemática (MATH).

Además, Grok-2 también funciona bien en tareas basadas en la visión, con un rendimiento notable en razonamiento matemático visual (MathVista) y respuesta a preguntas basadas en documentos (DocVQA).

Interfaz y funciones de Grok 2 "gran cambio de imagen"

Durante los últimos meses, xAI ha estado mejorando continuamente la experiencia de Grok en la plataforma x. Ahora, con el lanzamiento de la próxima generación de Grok 2, xAI ha rediseñado la interfaz, como se muestra a continuación.

Por supuesto, xAI proporciona algunas características nuevas, como una implementación simple del "Juego de la vida" de Conway.

Otro ejemplo es la capacidad de comprensión multimodal (mirar imágenes y hablar).

Entre ellos, Grok-2 es el asistente de IA más avanzado de xAI, con capacidades de comprensión visual y de texto e información integrada en tiempo real desde la plataforma X, a la que se puede acceder a través de la pestaña Grok en la aplicación X.

Grok-2 mini es un modelo pequeño pero potente que logra un buen equilibrio entre velocidad y calidad de respuesta.

Grok-2 es más intuitivo, más controlable y más flexible que su predecesor, lo que lo hace adecuado para una variedad de tareas, ya sea que esté buscando respuestas, escritura colaborativa o resolviendo tareas de codificación.

Además, xAI está trabajando con la startup Black Forest Labs para experimentar con su modelo FLUX.1 para ampliar las capacidades de Grok en X.

A finales de este mes, xAI también lanzará Grok-2 y Grok-2 mini para desarrolladores a través de una nueva plataforma API empresarial. La próxima API se basa en una nueva pila de tecnología personalizada, que permite la implementación de inferencia en varias regiones para un acceso global de baja latencia.

Por supuesto, xAI también ofrece algunas características de seguridad mejoradas, como la autenticación multifactor obligatoria (por ejemplo, usando Yubikey, Apple TouchID o TOTP).

Se puede observar que desde el lanzamiento de Grok-1 en noviembre de 2023, xAI ha ido avanzando en esta serie de modelos a un ritmo alarmante. Pronto lanzarán una versión preliminar con comprensión multimodal. El objetivo después de xAI será mejorar las capacidades centrales de razonamiento del modelo a través de nuevos clústeres informáticos.

Dirección del blog: https://x.ai/blog/grok-2

noticias

Grok-2 está aquí, puede generar imágenes y reconocer imágenes, y su rendimiento es comparable al GPT-4o: se está desarrollando como un cohete.

Introducción

Mi información de contacto