η amd κυκλοφορεί το πρώτο μοντέλο τεχνητής νοημοσύνης σε μικρή γλώσσα: 690 δισεκατομμύρια μάρκες, κερδοσκοπική αποκωδικοποίηση επιτάχυνση 3,88 times

η amd κυκλοφορεί το πρώτο της μοντέλο τεχνητής νοημοσύνης σε μικρή γλώσσα: 690 δισεκατομμύρια μάρκες, κερδοσκοπική ταχύτητα αποκωδικοποίησης 3,88 φορές

2024-10-01

kuai technology news την 1η οκτωβρίου,η amd κυκλοφόρησε το πρώτο της μοντέλο μικρής γλώσσας (slm), με το όνομα "amd-135m".

σε σύγκριση με το ολοένα και μεγαλύτερο μοντέλο μεγάλων γλωσσών (llm), είναι μικρότερο, πιο ευέλικτο και πιο στοχευμένο και είναι πολύ κατάλληλο για ανάπτυξη σε ιδιωτικές και επαγγελματικές επιχειρήσεις.

το μικρό μοντέλο amd-135 ανήκει στην οικογένεια llama και έχει δύο εκδόσεις:

ο ένας είναι ο βασικός τύπος"amd-llama-135m”, με τόσα όσα670 δισεκατομμύρια μάρκες εκπαιδεύτηκαν για έξι ημέρες σε οκτώ επιταχυντές instinct mim250 64 gb.

το δεύτερο είναι το εκτεταμένο "amd-llama-135m-κωδικός”, με πρόσθετα κεφάλαια που επικεντρώνονται ειδικά στον προγραμματισμό20 δισεκατομμύρια μάρκες, εκπαιδευμένα στο ίδιο υλικό για τέσσερις ημέρες.

διαδικασία δημιουργίας και ανάπτυξης

χρησιμοποιεί μια μέθοδο που ονομάζεται"κερδοσκοπική αποκωδικοποίηση"αυτή η μέθοδος δημιουργεί πολλαπλά υποψήφια διακριτικά σε ένα μεμονωμένο πέρασμα προς τα εμπρός μέσω ενός μικρότερου πρόχειρου μοντέλου και στη συνέχεια τα στέλνει σε ένα μεγαλύτερο και πιο ακριβές μοντέλο στόχου για επαλήθευση ή διόρθωση.

αυτή η μέθοδος μπορεί να δημιουργήσει πολλά διακριτικά ταυτόχρονα χωρίς να επηρεάσει την απόδοση και μπορεί επίσης να μειώσει τη χρήση της μνήμης ωστόσο, επειδή υπάρχουν περισσότερες συναλλαγές δεδομένων, η κατανάλωση ενέργειας θα αυξηθεί επίσης.

η amd χρησιμοποίησε επίσης τον κώδικα amd-llama-135m ως πρόχειρο μοντέλο για το codellama-7b για να δοκιμάσει την απόδοση με ή χωρίς κερδοσκοπική αποκωδικοποίηση.

για παράδειγμα, στον επιταχυντή mi250, η απόδοση μπορεί να βελτιωθεί έως και περίπου 2,8 φορές, στον επεξεργαστή ryzen ai μπορεί να βελτιωθεί έως περίπου 3,88 φορές και στον npu ryzen ai μπορεί να βελτιωθεί έως περίπου 2,98 φορές .

κερδοσκοπική αποκωδικοποίηση

ο κώδικας εκπαίδευσης, τα σύνολα δεδομένων και άλλοι πόροι του μικρού μοντέλου amd-135m είναι ανοιχτού κώδικα και ακολουθούν το apache 2.0.

σύμφωνα με την amd,η απόδοσή του είναι βασικά ισοδύναμη ή ελαφρώς πιο μπροστά από άλλα μικρά μοντέλα ανοιχτού κώδικα, για παράδειγμα, οι εργασίες hellaswag, sciq, arc-easy και άλλες εργασίες υπερβαίνουν τα llama-68m και llama-160m, ενώ οι hellaswag, winogrande, sciq, mmlu, arc-easy και άλλες εργασίες είναι βασικά παρόμοιες με τις gtp2-124mn και opt-125m.

νέα

η amd κυκλοφορεί το πρώτο της μοντέλο τεχνητής νοημοσύνης σε μικρή γλώσσα: 690 δισεκατομμύρια μάρκες, κερδοσκοπική ταχύτητα αποκωδικοποίησης 3,88 φορές

εισαγωγή

τα στοιχεία επικοινωνίας μου