nachricht

chinas erstes großformatiges modell zur audioerzeugung hat den antrag bestanden

2024-09-20

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

ifeng.com technology news, 20. september, veröffentlichte die shanghai cyberspace administration of china die neueste liste der genehmigungslisten für generative großmodelle in shanghai, zu denen textmodelle wie mihoyo und china literature’s dream island hinzukamen das modell hat gemeinsam den registrierungsprozess bestanden und war das erste groß angelegte audioerzeugungsmodell des landes, das generative künstliche intelligenzdienste von der cyberspace administration of china erhielt.

das himalaya-audiomodell ist das weltweit erste audiogenerationsmodell der vierten generation mit multiemotionaler interpretation und übernatürlichem ausdruck.dieses modell wird die entwicklung von aigc in der gesamten audiobranche anführen, vom audiogenerationsmodell der dritten generation zum großen audiogenerationsmodell der vierten generation.

das himalaya-audiomodell ist ein llm-framework, das auf der vom everest ai-team selbst entwickelten gemeinsamen modellierung von text und audio basiert. es realisiert ein gemeinsames modellierungstraining von audio und text unter derselben räumlichen vektordarstellung.diese gemeinsame modellierungsmethode stattet die audiogenerierungsaufgabe vollständig mit leistungsstarken semantischen informationen aus und nutzt die inhärenten verbindungen und ergänzenden informationen zwischen ihnen vollständig aus., wodurch die leistung und die generalisierungsfähigkeiten des modells erheblich verbessert werden. dies ist auch der zentrale technologische durchbruch für die vierte generation großer audiomodelle, der die vorherige generation übertrifft.

während des trainingsprozesses verarbeitet die himalayan everest ai zunächst audiodaten bzw. textdaten vor, wandelt sie in für die modelleingabe geeignete tokenformen um und ordnet audio-token und text-token derselben räumlichen vektordarstellung zu, damit das modell sie besser verstehen und verarbeiten kann beziehung zwischen audio und text. der gesamte trainingsprozess umfasst mehrere hauptprozesse: vortraining (pretraining), überwachte feinabstimmung (sft), domänenüberwachte feinabstimmung (domäne sft), sprecherüberwachte feinabstimmung (speaker sft) und reinforcement learning (rl). durch die schulung dieser prozesse wird diedas modell verfügt über die folgenden funktionen: (1) 15-sekunden-funktion zum klonen von tönen und fähigkeit zur tonumwandlung. (2) hyperanthropomorphe, multiemotionale, an menschlichen vorlieben ausgerichtete spracherzeugung. (3) sehr kontrollierbarer stil und paralinguistische fähigkeiten.

das ai-forschungs- und entwicklungsteam des himalayan everest evaluierte das trainierte modell und stellte fest, dass im kontext langer audioinhalte wie audioromane die steuerbarkeit des charakterinterpretationsstils, die stabilität der phonemleistung und die natürlichkeit des sprachflusses und der rhythmuspausen signifikant waren höher das audio-generationsmodell der dritten generation im in- und ausland.

das große himalaya-audiomodell setzt das paradigma der „kombination von produktion und modell“ um.dabei wird die branche mit dem modell kombiniert, um eine positive rückkopplungsschleife aus geschäft, daten und algorithmen zu bilden. es wird häufig in geschäftsszenarien wie aigc-hörbüchern und chat-konversationsinteraktionen verwendet. beispielsweise wurde das kürzlich beliebte hörbuch „my altay“ vom großen himalaya-audio-modell erstellt. himalaya everest ai gab an, dass die audio-großmodellfähigkeit direkt auf der offiziellen website von everest ai erlebt werden kann und benutzer direkt ihre eigenen audioinhalte erstellen können.