el nuevo rey de los modelos grandes de código abierto ha derrocado a gpt4o, la nueva tecnología puede autocorregirse y mathematics 99.2 ha maximizado el conjunto de pruebas.

2024-09-06

el viento del oeste viene del templo de aofei.
qubits | cuenta pública qbitai

el trono de los grandes modelos de código abierto cambió repentinamente de manos y provino de un pequeño equipo empresarial, lo que detonó instantáneamente la industria.

el nuevo modelo se llamareflexión 70b, utilizando una nueva tecnología de entrenamiento para permitir que la ia aprenda a corregir sus propios errores e ilusiones durante el proceso de razonamiento.

por ejemplo, en la recientemente popular prueba digital r, cometió los mismos errores que la mayoría de los modelos al principio, pero tomó la iniciativa deetiqueta <reflexión>zhong se corrigió.

en la evaluación oficial, el modelo 70b superó ampliamente a los más potentes de código abierto llama 3.1 405b, gpt-4o, claude 3 opus y gemini 1.5 pro. en particular, superó directamente el punto de referencia matemático gsm8k.puntuado 99,2%。

este resultado también hizo que noam brown, científico de openai y padre de la ia del póquer, abriera el micrófono con entusiasmo:

¡gsm8k obtiene una puntuación del 99%! ¿se puede eliminar oficialmente este punto de referencia?

tan pronto como el modelo estuvo en línea, los internautas se sintieron abrumados con la prueba y meta también apoyó activamente una mayor potencia informática.

en las pruebas de internautas, reflection 70b puede responder preguntas que tienen respuestas incorrectas al conjunto de datos gsm8k:

le presenté al modelo 5 problemas "ground_truth" que existen en gsm8k y que son inherentemente incorrectos.
en lugar de repetir las respuestas incorrectas en el conjunto de datos, el modelo las acertó, lo cual es impresionante.muestra que la precisión del 99,2% no proviene de memorizar el conjunto de pruebas！

es fácil contar todo tipo de erres, inclusopalabras creadastambién se pueden contar correctamente varias r en "drirrrrngrrrrnnnn".

los internautas se sorprenden de que el código abierto creado por un pequeño equipo haya superado al código cerrado superior. ahora el modelo de código abierto más poderoso se puede ejecutar localmente.

el 70b clave es solo el comienzo. los funcionarios dijeron que la próxima semana se lanzará uno más grande.reflexión 405b。

se espera que el rendimiento del 405b sea significativamente mejor que el de sonnet y gpt-4o.

los pesos de reflection 70b se han hecho públicos y hyperbolic labs proporcionará acceso a la api más tarde hoy.

los modelos pueden autorreflexionar y corregir errores.

más detalles disponibles actualmente sobre reflection 70b se encuentran a continuación.

la clave para mejorar las capacidades de reflection 70b es el uso de un método llamadoreflexión-afinaciónun método de entrenamiento que permite al modelo reflexionar sobre el texto que genera, detectando y corrigiendo errores en su propio razonamiento antes de finalizar una respuesta.

los datos en entrenamiento provienen de datos sintéticos generados utilizando la plataforma glaiveai.

reflection 70b se basa en llama 3.1 70b instruct y se puede muestrear desde reflection llama-3.1 70b usando el mismo código, canalización, etc. que otros modelos de llama.

incluso utiliza el formato de chat estándar llama 3.1.

sin embargo, reflection 70b introduce algunasfichas especiales, proceso de salida estructurado.

como se muestra en el siguiente ejemplo, dividir el proceso de planificación en un paso separado puede mejorar el efecto cot y mantener el resultado refinado:

el modelo será de<thinking> y</thinking> comienza la inferencia de salida dentro de la etiqueta y, una vez satisfecho con su inferencia, el<output> y</output> la respuesta final se muestra en la etiqueta.

de esta manera es capaz de separar su pensamiento y razonamiento internos de la respuesta final.

existir<thinking> sección, el modelo puede generar uno o más<reflection>etiqueta, lo que indica que el modelo ha descubierto un error en su razonamiento e intentará corregirlo antes de dar una respuesta final.

el sistema indica lo siguiente:

eres un sistema de ia de clase mundial, capaz de razonamiento y reflexión complejos. razona a través de la consulta dentro de las etiquetas y luego proporciona tu respuesta final dentro
etiquetas. si detectas que cometiste un error en tu razonamiento en algún punto, corrígete dentro de las etiquetas.
(usted es un sistema de inteligencia artificial de clase mundial capaz de realizar razonamientos y reflexiones complejos. razonar sobre consultas dentro de etiquetas y luego
proporcione su respuesta final dentro de la etiqueta. si descubre que razona mal en algún momento, corríjase dentro de la etiqueta. )

también vale la pena mencionar que en la prueba de referencia, todos los puntos de referencia fueron verificados en busca de contaminación y aislados mediante el descontaminador llm de lmsys.<output> sección y pruebe esta sección sola.

al utilizar reflection 70b, el funcionario también compartió algunos consejos:

inicialmente se recomienda que el parámetro temperatura sea .7 y top_p sea .95
para mejorar la precisión, es mejor agregar "piense detenidamente" al final del mensaje.

los funcionarios también afirmaron quela próxima semana se publicará un informe., detallando el proceso de capacitación del modelo y sus hallazgos.

creado por el equipo empresarial del agente.

detrás de reflection 70b hay un pequeño equipo, liderado por el director ejecutivo de hyperwriteai perro callejero shumerdirigir.

según linkedin, mutt shumer es un emprendedor en serie que se graduó en la universidad de syracuse en estados unidos y actualmente es cofundador y director ejecutivo de othersideai.

othersideai es una empresa de aplicaciones de ia dedicada a desarrollar las herramientas de autocompletado más avanzadas del mundo a través de sistemas de ia a gran escala. también es la empresa detrás de hyperwrite.

hyperwrite es un agente operativo del navegador que puede operar google chrome como un humano para completar una serie de tareas, como pedir pizza:

al igual que gpt-llm-trainer, solo necesita describir el objetivo en texto y lo ejecutará mientras enumera los pasos.

cuando se lanzó por primera vez, se afirmó que era "mejor que autogpt".

hyperwrite también se puede instalar como una extensión de google.

además, mutt shumer fundó visos cuando estaba en la escuela secundaria y está comprometido con el desarrollo de la próxima generación de software de realidad virtual con fines médicos.

también fundó furi, una empresa que tiene como objetivo revolucionar la industria de artículos deportivos creando productos de alto rendimiento y vendiéndolos a precios justos.

aunque existe soporte meta, la versión de prueba está actualmente abierta, pero todavía está temporalmente inaccesible.

si está interesado en zapatos para niños, puede realizar su pedido primero ~

https://reflection-playground-production.up.railway.app/

enlaces de referencia:
[1]https://huggingface.co/mattshumer/reflexión-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

noticias

el nuevo rey de los modelos grandes de código abierto ha derrocado a gpt4o, la nueva tecnología puede autocorregirse y mathematics 99.2 ha maximizado el conjunto de pruebas.

los modelos pueden autorreflexionar y corregir errores.

creado por el equipo empresarial del agente.

introducción

mi información de contacto