¡Musk vuelve a provocar problemas! El nuevo gran modelo desafía al GPT-4o, los internautas se están volviendo locos

¡Musk vuelve a provocar problemas! Nuevo gran modelo desafía al GPT-4o, los internautas se están volviendo locos

2024-08-14

Zhidongxi News el 14 de agosto, esta tarde, hora de Beijing, la puesta en marcha del modelo a gran escala de MuskxAILanzamiento del modelo de segunda generación.Grok-2 beta, incluidas las versiones mini Grok-2 y Grok-2.

AlmizclePublicado apasionadamente en su propia plataforma social.sus-columna-r。

Retuiteó el tweet de Lmsys que decía: "Grok es la velocidad de un cohete". sus-column-r recibió más de 12.000 votos en la lista de clasificación y su desempeñoMejor que Claude 3.5 Sonnet y GPT-4-Turbo, conGPT-4oempatado en el tercer lugar。

En muchas evaluaciones como GPQA, MMLU, MMLU-Pro, MATH, MathVista, etc.,Grok-2Las puntuaciones superan las de los modelos convencionales como GPT-4 Turbo, Claude 3 Opus y Gemini Pro 1.5, pero siguen siendo inferiores a las de GPT-4o.

Actualmente, los usuarios de X Premium y Premium+ ahora pueden experimentar Grok-2 y Grok-2 mini, y Zhixixi fue el primero en realizar pruebas y experiencias reales.

Después de algo de experiencia, la sensación más obvia que me dio Grok-2 es que su lógica es muy clara. Por ejemplo, en el siguiente ejemplo, aunque Grok-2 y GPT-4o dieron respuestas correctas, los pasos y cálculos de cada paso del primero son muy claros y más fáciles de entender. Además, las capacidades gráficas vicencianas de Grok-2 se han disparado con el soporte de FLUX.1 y ha conservado su estilo "negrito" constante.

xAI también planea lanzar dos versiones de la API empresarial Grok-2 a finales de este mes.

Dirección de la experiencia:https://lmarena.ai/?model=sus-column-r

1. El rendimiento alcanza el nivel de varias versiones de GPT-4 y las capacidades visuales y lógicas se fortalecen.

En LMSYS Chatbot Arena, participó en la evaluación una versión anterior de Grok-2, sus-column-r.El rendimiento general de la puntuación Elo supera a Claude y a múltiples versiones de GPT-4。

Como se muestra en la siguiente figura, la puntuación de Grok-2 superó a la versión del 18 de julio de GPT-4o-mini y a la versión del 9 de abril de GPT-4-Turbo, pero la puntuación aún era inferior a la de la versión del 8 de agosto de ChatGPT-4o: la última versión del 15 de mayo de GPT-4o.

Internamente, el equipo de xAI sigue un proceso similar para evaluar modelos, centrándose la evaluación en las dos capacidades principales del modelo: Primero,Seguir instrucciones con precisión, el segundo es proporcionar informaciónPrecisión y autenticidad。

Cabe mencionar que Grok-2 esContenido de búsqueda de análisis de inferenciayutilizar herramientasHa logrado avances significativos, como su capacidad para identificar con precisión información faltante, realizar razonamiento lógico a través de secuencias de eventos y eliminar publicaciones irrelevantes de manera efectiva.

Para las pruebas comparativas, el equipo utilizó una serie de pruebas que cubríanRazonamiento, comprensión lectora, matemáticas, ciencias y codificación.Se llevó a cabo una evaluación integral del modelo Grok-2 en base a puntos de referencia académicos en otros campos.

Los resultados muestran que Grok-2 y su versión simplificada Grok-2 mini han mejorado significativamente en comparación con el modelo Grok-1.5 de la generación anterior.

a nivel de posgradoConocimiento científico (como GPQA), preguntas y respuestas de sentido común (como MMLU, MMLU-Pro)así comoPreguntas de competencia de matemáticas (como MATH)En otros campos, su rendimiento puede competir con el de otros modelos superiores.

Como se muestra en la figura siguiente, el Grok-2 obtuvo buenos resultados en todas estas pruebas.Superó a GPT-4 Turbo, Claude 3 Opus y Gemini Pro 1.5, pero aún no pudo vencer a GPT-4o。

Cabe mencionar que Grok-2 estareas visualesExcelente rendimiento, especialmente enRazonamiento matemático visual (MathVista)yRespuesta a preguntas basada en documentos (DocVQA)El rendimiento es particularmente sobresaliente.

2. Grok-2 ha sido lanzado en el

Grok-2 y Grok-2 mini ahora están disponibles para los suscriptores de X, y los no suscriptores también pueden experimentar la primera versión del modelo sus-column-r de Grok-2 de forma gratuita en Large Model Arena.

Hay un total de 62 modelos disponibles en el ámbito de los modelos grandes, incluido el GPT-4o. Para facilitar la comparación, probemos primero este modelo inicial.

El primero es la cuestión de la relación de tamaño que anuló a muchos modelos hace algún tiempo: cuál es más grande, 13.11 o 13.8. Tanto Grok-2 como GPT-4o respondieron con precisión, pero el proceso de pensamiento de Grok-2 fue más claro y enumeró pasos de pensamiento detallados.

En otra pregunta clásica "¿Cuántas r hay en Strawberry?", Grok-2 respondió incorrectamente al principio, pero luego dio la respuesta correcta después de cambiar al inglés. GPT-4o respondió correctamente tanto en chino como en inglés. Parece que todavía habrá un elemento de suerte en los modelos grandes.

Los modelos en el ámbito de los modelos grandes no están conectados a Internet en tiempo real. Cuando pregunté "¿Cuáles son los aspectos más destacados del Pixel 9 que acaba de lanzar Google?", ambos modelos dijeron que aún no tenían esta información. Luego, Grok-2 dio predicciones basadas en las tendencias de desarrollo tecnológico y las características pasadas de Pixel. Una suposición era bastante confiable. Las cámaras, los procesadores, la inteligencia artificial, etc. son el foco de la actualización de Google.

GPT-4o no dio una predicción, pero resumió los aspectos más destacados del pasado de los teléfonos Pixel.

En términos de capacidades de codificación, el rendimiento de los dos modelos es comparable y se proporcionan pasos de solución detallados y códigos completos para los requisitos.

En términos de razonamiento lógico, Grok-2 muestra una vez más la claridad de la lógica y cada paso del razonamiento se divide en subtítulos. Aunque GPT-4o también respondió correctamente, los pasos de pensamiento no fueron lo suficientemente claros.

La capacidad de gráficos de Vincent es un foco importante de esta actualización de Grok-2. El modelo FLUX.1 al que está conectado ha sido muy popular en la comunidad de código abierto recientemente debido a su potente rendimiento. Sin embargo, la capacidad de generación de imágenes no se puede experimentar en el ámbito de los modelos grandes y solo se puede lograr mediante una suscripción X.

Los internautas ya se han divertido con Grok-2 Wenshengtu, como usar sus capacidades de generación de texto para ayudar a Grok-2 a realizar una conferencia de prensa fuera de línea.

O usa tu imaginación y deja que Musk conduzca un coche en Marte.

Basado en el sistema de censura casi nulo de Grok, muchos internautas han hecho bromas, como pedirle a Trump que dispare y pedirle a George W. Bush que esnife cocaína...

O dejar que Trump suba al cielo en un cohete SpaceX. Ante la misma solicitud, GPT-4o se negó de manera muy decisiva.

¿Qué tan descarado es el sistema de censura de Grok? Algunos internautas probaron un modelo grande para "clasificar los 10 mejores coeficientes intelectuales por raza", y solo Grok-2 dio la respuesta sin dudarlo.ChatGPTClaude se negó directamente y Géminis inició una educación minuciosa.

En general, Grok-2 aún implementa su estilo audaz. Al mismo tiempo, el rendimiento de su modelo es comparable al de modelos principales como GPT-4o, su lógica es más clara y sus capacidades multimodales son incluso mejores que las de FLUX.1. . Con la bendición, se elevó hacia arriba.

3. Lanzar una plataforma API empresarial a fin de mes para integrar perfectamente los sistemas empresariales.

A finales de este mes, xAI aprobará la nuevaPlataforma API empresarial, lanzó oficialmente Grok-2 y Grok-2 mini a los desarrolladores.

Esta API adoptará una nueva arquitectura técnica personalizada para soportarImplementación de inferencia multirregional,parausuarios globalesProporcione una experiencia fluida con baja latencia.

Al mismo tiempo, xAI tiene funciones de seguridad mejoradas, incluida la autenticación multifactor obligatoria (como Yubikey, Apple TouchID o TOTP) y proporciona información detalladaEstadísticas de tráfico y servicios avanzados de análisis de facturación., admite la exportación de datos.

Además, xAI también lanzó una API de administración para respaldar la integración perfecta de las funciones de administración de equipos, usuarios y facturación en herramientas y servicios internos existentes.

Conclusión: el vínculo entre Grok-2 y la plataforma X es más profundo y OpenAI y otros están bajo una gran presión.

Grok-2 y Grok-2 mini ahora están en línea en la plataforma X. Por ejemplo, la experiencia de búsqueda mejorada, el análisis en profundidad de las publicaciones X y las funciones de respuesta optimizadas son bastante interesantes. Pronto, xAI también lanzará una versión preliminar de sus capacidades de comprensión multimodal.

Desde el lanzamiento de Grok-1 en noviembre de 2023, xAI ha avanzado rápidamente en tecnología, productos y financiación, y el lanzamiento de Grok-2 es su nuevo hito. Una vez que Musk conecte las capacidades del modelo grande de Grok con la poderosa ecología de usuario de contenido de la plataforma X, se formará un circuito cerrado, que incluyeIA abiertaLa presión sobre las grandes empresas emergentes, incluida Alibaba Cloud, es aún mayor.

Autor | Li Shuiqing Vainilla

Editor |

noticias

¡Musk vuelve a provocar problemas! Nuevo gran modelo desafía al GPT-4o, los internautas se están volviendo locos

1. El rendimiento alcanza el nivel de varias versiones de GPT-4 y las capacidades visuales y lógicas se fortalecen.

2. Grok-2 ha sido lanzado en el

3. Lanzar una plataforma API empresarial a fin de mes para integrar perfectamente los sistemas empresariales.

Conclusión: el vínculo entre Grok-2 y la plataforma X es más profundo y OpenAI y otros están bajo una gran presión.

Introducción

Mi información de contacto