Musk lanzó repentinamente un nuevo modelo grande, sacrificando recursos de Tesla para desafiar a OpenAI, y aquí hay una prueba de primera mano

Musk lanzó repentinamente un nuevo modelo grande, sacrificando recursos de Tesla para desafiar a OpenAI, y ya está aquí una prueba de primera mano.

2024-08-14

Mengchen proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

¡El modelo grande xAI de Musk ya está disponible en su segunda generación!

Grok-2Se lanzó la versión beta, Xiaobei Grok-2 mini ya se puede reproducir en línea en la plataforma.

Musk también reveló el secreto que ha estado plagando el gran círculo de modelos durante más de un mes en forma de Riddler:

Resulta que el misterioso modelo anónimo en el campo de modelos grandes de Lmsyssus-columna-r, cuya verdadera forma es Grok-2.

sus-column-r ha acumulado más de 10.000 votos humanos en la tabla de clasificación y haEmpatado en el tercer lugar con la versión API de GPT-4o。

En las pruebas internas de xAI, Grok-2 compitió con otros modelos de vanguardia en áreas como conocimiento general (MMLU, MMLU-Pro), preguntas de competencia de matemáticas (MATH) y conocimiento científico de posgrado (GPQA).

Además, Grok-2 es mejor en tareas basadas en la visión y alcanza SOTA en razonamiento matemático visual (MathVista).

Sin embargo, el diseño de esta imagen es un poco complicado: GPT-4o y Claude-3.5-Sonnet, que tienen las puntuaciones más altas, están colocados más lejos de ti.

Solo mirar los puntajes sigue siendo abstracto, entremos en las pruebas reales de primera mano.

Prueba de primera mano de Grok-2

Si eres un usuario pago de la plataforma /Twitter, puedes ingresar directamente al canal de Grok para probarlo. Si no gasta dinero, también puede ir al campo de modelos grandes de Lmsys y elegir sus-column-r para probarlo.

yLos usuarios que pagan sólo pueden jugar la versión mini de Xiaobei., los usuarios gratuitos pueden jugar una gran copa, lo que también es muy generoso.。

Dado que Grok-2 tiene acceso a datos en tiempo real sobrePuedes pedirle directamente que resuma las noticias del día., si activas el modo diversión, también puedes dar comentarios.

Versión paga tambiénAccedió al último modelo de gráfico de IA de código abierto Flux.1, traducirá las palabras clave chinas al inglés para su comprensión.

Haga clic en el ejemplo de pregunta "Amway, un juego de fantasía" en la página de inicio y podrá ver que primero recomienda "Baldur's Gate 3" y analiza varios aspectos que incluyen la trama, la personalización de los personajes, la mecánica del juego, la configuración del mundo, los elementos de humor y la comunidad de jugadores. La revisión se realiza desde una perspectiva diferente y captura muy bien los aspectos más destacados del juego.

En este momento, puedes cambiar directamente a chino y seguir haciendo preguntas.

Grok-2 también conoce "Black Myth: Wukong", un juego que aún no se ha lanzado. Dijo con precisión que la fecha de lanzamiento es el 20 de agosto, se utilizó el motor Unreal 5 y resumió las discusiones entre los internautas.

También incluye las publicaciones de los internautas al final, en las que puede hacer clic para participar en la discusión. La integración funcional con toda la plataforma ya está implementada.

Sin embargo, dado que solo hay una versión mini del modelo, a continuación pasaremos al ámbito de los modelos grandes para la prueba de resistencia, y también podemos tener un PK con GPT-4o.

Preguntas de pruebas de coeficiente intelectual recientemente populares"¿Cuál es más grande, el 9.9 o el 9.11?"En la prueba, Grok-2 (sus-column-r) supera a la última versión de ChatGPT.

Pero otra prueba popular"¿Cuantas r tiene la fresa?"En cuanto a esta cuestión, ambos fracasaron. (Inténtelo varias veces y existe una pequeña posibilidad de que ambas sean correctas).

Preguntas trampa más serias"¿Cuál de las siguientes velas se apagará primero?", Grok-2 es un poco más avanzado que ChatGPT.

El punto de prueba es que la parte restante de la vela que se apaga primero es más larga (la respuesta correcta 3 ChatGPT la interpreta incorrectamente como la más corta. La idea de Grok-2 es correcta, pero el número de cuál es la más larga). no es correcto.

Ambos parecen haber superado de alguna manera el clásico problema de la "maldición de la reversión" de la debilidad de los grandes modelos. No sólo puede responder directamente "¿Quién es la madre de Tom Cruise?", sino que también puede responder a la pregunta inversa "El hijo de Mary Lee Pfeiffer es Tom Cruise", cuyos datos aparecen con menos frecuencia.

(Por supuesto, no se puede descartar que después de que se convierta en un problema clásico, se disponga de datos más relevantes).

El gran modelo de Musk fue actualizado a expensas de Tesla

La prueba ha llegado a su fin y se puede ver que Grok-2 ha logrado grandes avances en comparación con la generación anterior Grok-1.5.

Detrás de escena, Musk gastó muchos recursos y mano de obra.

Por ejemplo, un nuevo investigador que se unió a xAI dijo que se puede utilizarGrupo de 100.000 tarjetasInvestigar es mucho más divertido que tener escasos recursos en la escuela.

Pero un grupo de personas no está satisfecho: los accionistas de Tesla.

Según el Wall Street Journal,Musk continúa transfiriendo talento, datos y recursos de GPU de Tesla a xAI。

Hasta ahora, xAI ha contratado al menos a 11 empleados que trabajaron en Tesla, seis de los cuales trabajaron directamente en el equipo de Autopilot.

Musk también pidió a Nvidia que priorizara el suministro de xAI para los pedidos de GPU originalmente reservados para Tesla.

Musk también ha hablado públicamente sobre las grandes cantidades de datos visuales que recopila Tesla, que, según él, pueden servir como recurso para entrenar modelos xAI.

Al menos tres accionistas de Tesla demandaron a Musk por este asunto, alegando que la transferencia de recursos a xAI perjudicaba los intereses de los inversores de Tesla.

El caso está actualmente pendiente en un tribunal de Delaware.

noticias

Musk lanzó repentinamente un nuevo modelo grande, sacrificando recursos de Tesla para desafiar a OpenAI, y ya está aquí una prueba de primera mano.

Introducción

Mi información de contacto