Apple abrió el modelo 7B y proporcionó todo el conjunto de datos del proceso de capacitación de una sola vez. Los internautas dijeron: Es muy diferente a Apple

Apple abrió el modelo 7B y proporcionó todo el conjunto de datos del proceso de capacitación de una sola vez. Los internautas dijeron: Es muy diferente a Apple.

2024-07-22

Apple es la última en ingresar al campo de batalla de los modelos grandes de código abierto y es más abierta que otras empresas.

desenrollarmodelo 7B, no sólo el efecto es el mismo queLlama 3 8BEs bastante bueno y es de código abierto al mismo tiempo.Todos los procesos y recursos formativos。

Ya sabes, no hace mucho, Elizabeth Gibney, editora de la revista Nature,Escribir crítica：

Muchos modelos de IA que afirman ser de código abierto en realidad no son transparentes en términos de datos y métodos de entrenamiento, y no pueden satisfacer las necesidades de la investigación científica real.

¡Y Apple realmente vino de verdad esta vez! !

Incluso el científico de PNL y creador de AutoAWQ exclamó:

Apple lanzó un modelo que supera al Mistral 7B, pero lo que es aún mejor es que tienen todo de código abierto.Incluye conjunto de datos previo al entrenamiento

También atrajo a los internautas a ridiculizarlos en línea:

En cuanto a la importancia de este código abierto, algunos internautas entusiastas también ayudaron a resumirlo:

Para cualquiera que quiera entrenar un modelo desde cero o ajustar un modelo existente,proceso de gestión de datosHay que estudiarlo.

Por supuesto, además de OpenAI y Apple, Mistral AI y Nvidia también lanzaron un modelo pequeño con parámetros 12B la semana pasada.

El fundador de HuggingFace dijo:"Semana del Modelo Pequeño"¡próximo!

¡rollo! ¡Sigue rodando! Entonces, ¿qué tan efectivo es el modelo pequeño lanzado por Apple esta vez?

El efecto es cercano a Llama 3 8B.

No hablemos de lo poderoso que es, echemos un vistazo a lo que acaba de “desempaquetar” el director técnico de Hugging Face.Configuración básica del modelo。

En resumen:

Modelo básico 7B, utilizado en conjuntos de datos abiertos.2,5T de tokensentrenamiento de la conducta
Principalmente datos en inglés, con2048ventana contextual de tokens
Los conjuntos de datos incluyen DCLM-BASELINE, StarCoder y ProofPile2
La puntuación de MMLU está cerca de Llama 3 8B
Capacitación utilizando PyTorch y OpenLM framework

Específicamente, el equipo de investigación propuso por primera vez un modelo de lenguaje.Nuevo punto de referencia para la comparación de datos——DCLM。

Este punto de referencia se propuso porque el equipo encontró:

a partir de conjuntos de datos más grandes mediante modelos de aprendizaje automático (ML)Filtrar y seleccionar automáticamente datos de alta calidad, puede ser la clave para construir un conjunto de entrenamiento de alta calidad.

Por lo tanto, el equipo utiliza DCLM para diseñar conjuntos de datos de alta calidad para mejorar el rendimiento del modelo, especialmente en el dominio multimodal.

EsoIdeasEs simple: use un marco estandarizado para realizar experimentos, incluida la arquitectura de modelo fijo, el código de entrenamiento, los hiperparámetros y la evaluación, y, en última instancia, descubra qué estrategia de manipulación de datos es mejor para entrenar modelos de alto rendimiento.

Con base en las ideas anteriores, el equipo construyó unConjunto de datos de alta calidad DCLM-BASELINEy lo usé para entrenar un modelo de parámetro 7B: DCLM-7B desde cero.

¿Cuál es el rendimiento específico del DCLM-7B?

Los resultados muestran que tiene 5 disparos en el punto de referencia MMLU.La tasa de precisión alcanza el 64%, comparable a Mistral-7B-v0.3 (63%) y Llama 3 8B (66%), y el rendimiento promedio en 53 tareas de comprensión del lenguaje natural también es comparable a Llama 3 8B, mientras que el cálculo requerido es solo 1; /6 de este último.

En comparación con otros modelos del mismo tamaño, la puntuación MMLU del DCLM-7B supera al Mistral-7B y se acerca al Llama 3 8B.

Finalmente, paraProbar el efecto de un nuevo conjunto de datos, algunos expertos utilizaron llm.c de Kapasi para entrenar GPT-2 1.5B y comparar los dos conjuntos de datos de DCLM-Baseline y FineWeb-Edu.

Los resultados muestran que DCLM-Baseline logrópuntuación media más altay se desempeña mejor en tareas como ARC (razonamiento de problemas científicos de estudiantes de primaria), HellaSwag (razonamiento de sentido común) y MMLU.

Los modelos “pequeños” se convierten en una nueva tendencia

Volviendo al principio, los modelos “pequeños” se han convertido en la nueva tendencia últimamente.

Primero, HuggingFace lanzó una familia de modelos pequeños.“Pequeño LM”, que incluye los modelos 135M, 360M y 1.7B.

Superan a los modelos de tamaño similar en una amplia gama de puntos de referencia de inferencia y sentido común.

Entonces, de repente, se lanzó OpenAIGPT-4o mini, no solo la capacidad es cercana a la del GPT-4, sino que el precio ha bajado significativamente.

Solo en GPT-4o miniLanzado el mismo día., Mistral AI y NVIDIA lanzaron un modelo pequeño de parámetros 12B——Mistral NeMo。

En términos de rendimiento general, Mistral NeMo venció a Gemma 2 9B y Llama 3 8B en múltiples pruebas comparativas.

Entonces, ¿por qué todo el mundo empieza a fabricar modelos pequeños?

La razón puede ser la que recordó el fundador de smol AI. Aunque el modelo se ha vuelto más pequeño, cuando las capacidades son similares, el modelo es pequeño.Costos muy reducidos。

Al igual que en la imagen que proporcionó, los modelos pequeños representados por GPT-4o mini son generalmente más baratos que los de la derecha.

En este sentido, estoy esperando que la gente que come melón sea como:

Entonces, ¿cuál prefieres?

noticias

Apple abrió el modelo 7B y proporcionó todo el conjunto de datos del proceso de capacitación de una sola vez. Los internautas dijeron: Es muy diferente a Apple.

Introducción

Mi informacion de contacto