mi información de contacto
correo[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
noticias de tecnología de kuai el 1 de octubre deamd lanzó su primer modelo de lenguaje pequeño (slm), denominado "amd-135m".
en comparación con el modelo de lenguaje grande (llm), cada vez más grande, es más pequeño, más flexible y más específico, y es muy adecuado para su implementación en empresas privadas y profesionales.
el modelo pequeño amd-135 pertenece a la familia llama y tiene dos versiones:
uno es el tipo básico "amd-llama-135m”, con tantos comose entrenaron 670 mil millones de tokens durante seis días en ocho aceleradores instinct mim250 de 64 gb.
el segundo es el extendido ".código amd-llama-135m”, con capítulos adicionales centrados específicamente en la programación.20 mil millones de tokens, entrenados en el mismo hardware durante cuatro días.
proceso de creación e implementación.
utiliza un método llamado"decodificación especulativa"este método genera múltiples tokens candidatos en un solo paso hacia adelante a través de un modelo borrador más pequeño y luego los envía a un modelo objetivo más grande y preciso para su verificación o corrección.
este método puede generar varios tokens al mismo tiempo sin afectar el rendimiento y también puede reducir el uso de memoria. sin embargo, debido a que hay más transacciones de datos, el consumo de energía también aumentará.
amd también utilizó el código amd-llama-135m como modelo preliminar para codellama-7b para probar el rendimiento con o sin decodificación especulativa.
por ejemplo, en el acelerador mi250, el rendimiento se puede mejorar hasta aproximadamente 2,8 veces, en la cpu ryzen ai, se puede mejorar hasta aproximadamente 3,88 veces y en la npu ryzen ai, se puede mejorar hasta aproximadamente 3,88 veces. a aproximadamente 2,98 veces.
decodificación especulativa
el código de entrenamiento, los conjuntos de datos y otros recursos del modelo pequeño amd-135m son de código abierto y siguen apache 2.0.
según amd,su rendimiento es básicamente equivalente o ligeramente superior al de otros modelos pequeños de código abierto.por ejemplo, hellaswag, sciq, arc-easy y otras tareas superan a llama-68m y llama-160m, mientras que hellaswag, winogrande, sciq, mmlu, arc-easy y otras tareas son básicamente similares a gtp2-124mn y opt-125m.