новости

первая в китае крупномасштабная модель генерации звука прошла подачу заявок

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20 сентября, недавно шанхайское управление киберпространства китая опубликовало последний список одобренных на регистрацию генеративных больших моделей шанхая. к большой аудиомодели himalayan присоединились такие текстовые модели, как mihoyo и the china literature’s dream island. модель совместно прошла процесс регистрации и стала первой крупномасштабной моделью генерации звука в стране, получившей услуги генеративного искусственного интеллекта от администрации киберпространства китая.

аудиомодель himalayan — это первая в мире модель генерации звука четвертого поколения с мультиэмоциональной интерпретацией и сверхъестественным выражением.эта модель приведет к эволюции aigc во всей аудиоиндустрии от модели генерации звука третьего поколения к большой модели генерации звука четвертого поколения.

аудиомодель гималаев — это структура llm, основанная на совместном моделировании текста и звука, разработанном командой everest ai. она реализует совместное обучение моделированию звука и текста в рамках одного и того же пространственного векторного представления.этот метод совместного моделирования полностью наделяет задачу генерации звука мощной семантической информацией и в полной мере использует присущие связи и дополнительную информацию между ними., что значительно улучшает производительность и возможности обобщения модели. это также основной технологический прорыв для четвертого поколения больших аудиомоделей, превосходящий предыдущее поколение.

в процессе обучения ии гималайского эвереста сначала предварительно обрабатывает аудиоданные и текстовые данные соответственно, преобразует их в формы токенов, подходящие для ввода модели, и отображает аудиотокены и текстовые токены в одно и то же пространственное векторное представление, чтобы модель могла лучше понимать и обрабатывать связь между звуком и текстом. общий процесс обучения включает в себя несколько основных процессов: предварительное обучение (pretraining), контролируемая точная настройка (sft), контролируемая точная настройка (domain sft), точная настройка под контролем говорящего (speaker sft) и обучение с подкреплением (rl). благодаря тренировке этих процессов,модель имеет следующие особенности: (1) возможность клонирования 15-секундных тонов и возможность преобразования звука. (2) гиперантропоморфное, мультиэмоциональное, ориентированное на человеческие предпочтения речевое поколение. (3) хорошо контролируемый стиль и паралингвистические способности.

команда исследований и разработок искусственного интеллекта в гималаях эвереста оценила обученную модель и обнаружила, что в контексте длинного аудиоконтента, такого как аудионовеллы, управляемость стиля интерпретации символов, стабильность воспроизведения фонем, а также естественность речевого потока и ритмических пауз значительно улучшаются. выше модель аудио поколения третьего поколения в стране и за рубежом.

большая модель himalaya audio реализует парадигму «сочетания производства и модели»., объединяя отрасль с моделью для формирования положительной обратной связи бизнеса, данных и алгоритмов. он широко используется в бизнес-сценариях, таких как аудиокниги aigc и диалоговое взаимодействие в чате. например, недавно популярная аудиокнига «мой алтай» была создана с помощью большой аудиомодели himalayan. himalaya everest ai заявила, что возможности большой аудиомодели можно непосредственно ощутить на официальном сайте everest ai, а пользователи могут напрямую создавать свой собственный аудиоконтент.