amd veröffentlicht das erste kleine ki-sprachmodell: 690 milliarden token, spekulative dekodierungsgeschwindigkeit um das 3,88-fache erhöht

amd veröffentlicht sein erstes ki-modell für kleine sprachen: 690 milliarden token, spekulative dekodierungsgeschwindigkeit um das 3,88-fache erhöht

2024-10-01

kuai technology news am 1. oktoberamd veröffentlichte sein erstes small language model (slm) mit dem namen „amd-135m“.

im vergleich zum immer größeren large language model (llm) ist es kleiner, flexibler und zielgerichteter und eignet sich sehr gut für den einsatz in privaten und professionellen unternehmen.

das kleine modell amd-135 gehört zur llama-familie und ist in zwei versionen erhältlich:

einer ist der grundtyp „amd-llama-135m“, mit so vielen wie670 milliarden token wurden sechs tage lang auf acht instinct mim250 64gb-beschleunigern trainiert.

das zweite ist das erweiterte „amd-llama-135m-code“, mit zusätzlichen kapiteln, die sich speziell auf die programmierung konzentrieren20 milliarden token, vier tage lang auf derselben hardware trainiert.

erstellungs- und bereitstellungsprozess

es verwendet eine methode namens„spekulative dekodierung“diese methode generiert mehrere kandidaten-tokens in einem einzigen vorwärtsdurchlauf durch ein kleineres entwurfsmodell und sendet sie dann zur überprüfung oder korrektur an ein größeres und genaueres zielmodell.

diese methode kann mehrere token gleichzeitig generieren, ohne die leistung zu beeinträchtigen, und kann auch die speichernutzung reduzieren. da jedoch mehr datentransaktionen stattfinden, steigt auch der stromverbrauch.

amd verwendete außerdem amd-llama-135m-code als entwurfsmodell für codellama-7b, um die leistung mit oder ohne spekulative dekodierung zu testen.

beispielsweise kann die leistung auf dem mi250-beschleuniger um das bis zu etwa 2,8-fache, auf der ryzen ai-cpu um das bis zu etwa 3,88-fache und auf der ryzen ai npu um das bis zu etwa 3,88-fache gesteigert werden auf etwa das 2,98-fache.

spekulative dekodierung

der trainingscode, die datensätze und andere ressourcen des kleinen modells amd-135m sind open source und folgen apache 2.0.

laut amd,seine leistung entspricht im wesentlichen der leistung anderer kleiner open-source-modelle oder übertrifft diese geringfügigbeispielsweise übertreffen hellaswag, sciq, arc-easy und andere aufgaben llama-68m und llama-160m, während hellaswag, winogrande, sciq, mmlu, arc-easy und andere aufgaben grundsätzlich gtp2-124mn und opt-125m ähneln.

nachricht

amd veröffentlicht sein erstes ki-modell für kleine sprachen: 690 milliarden token, spekulative dekodierungsgeschwindigkeit um das 3,88-fache erhöht

einführung

meine kontaktdaten