le mie informazioni di contatto
posta[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
notizie sulla tecnologia kuai di ottobre 1,amd ha rilasciato il suo primo modello small language (slm), denominato "amd-135m".
rispetto al sempre più grande modello llm (large language), è più piccolo, più flessibile e più mirato ed è molto adatto per l'implementazione in imprese private e professionali.
il modello piccolo amd-135 appartiene alla famiglia llama e dispone di due versioni:
uno è il tipo base "amd-llama-135m”, con altrettanti670 miliardi di token sono stati addestrati per sei giorni su otto acceleratori instinct mim250 da 64 gb.
la seconda è quella estesa"codice amd-llama-135m”, con capitoli aggiuntivi specificamente focalizzati sulla programmazione20 miliardi di token, addestrati sullo stesso hardware per quattro giorni.
processo di creazione e distribuzione
utilizza un metodo chiamato"decodifica speculativa"questo metodo genera più token candidati in un unico passaggio attraverso un modello di bozza più piccolo, quindi li invia a un modello di destinazione più grande e più accurato per la verifica o la correzione.
questo metodo può generare più token contemporaneamente senza influire sulle prestazioni e può anche ridurre l'utilizzo della memoria. tuttavia, poiché sono presenti più transazioni di dati, aumenterà anche il consumo energetico.
amd ha utilizzato anche il codice amd-llama-135m come modello di bozza per codellama-7b per testare le prestazioni con o senza decodifica speculativa.
ad esempio, sull'acceleratore mi250, le prestazioni possono essere migliorate fino a circa 2,8 volte, sulla cpu ryzen ai possono essere migliorate fino a circa 3,88 volte e sulla ryzen ai npu possono essere migliorate fino a circa 3,88 volte. a circa 2,98 volte.
decodificazione speculativa
il codice di addestramento, i set di dati e altre risorse del modello piccolo amd-135m sono open source e seguono apache 2.0.
secondo amd,le sue prestazioni sono sostanzialmente equivalenti o leggermente superiori a quelle di altri piccoli modelli open source, ad esempio, hellaswag, sciq, arc-easy e altri compiti superano llama-68m e llama-160m, mentre hellaswag, winogrande, sciq, mmlu, arc-easy e altri compiti sono sostanzialmente simili a gtp2-124mn e opt-125m.