моя контактная информация
почта[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
новости kuai technology от 1 октября,amd выпустила свою первую модель малого языка (slm) под названием «amd-135m».
по сравнению со все более крупной моделью большого языка (llm), она меньше, более гибкая и более целенаправленная и очень подходит для развертывания на частных и профессиональных предприятиях.
малая модель amd-135 относится к семейству llama и имеет две модификации:
один из них — базовый тип».амд-лама-135м», с таким количеством670 миллиардов токенов были обучены в течение шести дней на восьми ускорителях instinct mim250 64gb.
второй — расширенный»код amd-llama-135m», с дополнительными главами, специально посвященными программированию.20 миллиардов токенов, обученных на одном и том же оборудовании в течение четырех дней.
процесс создания и развертывания
он использует метод под названием«спекулятивное декодирование»этот метод генерирует несколько токенов-кандидатов за один прямой проход через меньшую черновую модель, а затем отправляет их в более крупную и точную целевую модель для проверки или исправления.
этот метод может генерировать несколько токенов одновременно, не влияя на производительность, а также может уменьшить использование памяти. однако из-за большего количества транзакций данных потребление энергии также увеличится.
amd также использовала код amd-llama-135m в качестве черновой модели codellama-7b для тестирования производительности с спекулятивным декодированием или без него.
например, на ускорителе mi250 производительность может быть улучшена примерно в 2,8 раза, на ryzen ai cpu она может быть улучшена примерно до 3,88 раз, а на ryzen ai npu она может быть улучшена в 2 раза. примерно в 2,98 раза.
умозрительное декодирование
обучающий код, наборы данных и другие ресурсы небольшой модели amd-135m имеют открытый исходный код и соответствуют apache 2.0.
по данным amd,его производительность в основном эквивалентна или немного превосходит другие небольшие модели с открытым исходным кодом., например, hellaswag, sciq, arc-easy и другие задачи превосходят llama-68m и llama-160m, тогда как hellaswag, winogrande, sciq, mmlu, arc-easy и другие задачи в основном аналогичны gtp2-124mn и opt-125m.