minimax realizou sua primeira conferência partner day e lançou modelos de geração de vídeo e música

2024-09-01

01:55

em um show ao vivo que combina tecnologia e música, em 31 de agosto, teve início a primeira conferência de desenvolvedores da empresa unicórnio de ia minimax shanghai xiyu technology co., ltd. (doravante denominada minimax) - "minimaxlink partner day". no mesmo dia, a minimax lançou oficialmente o vídeo model-video-01 e o music model music-01.

os modelos multimodais tornaram-se uma pergunta obrigatória para grandes empresas de modelos, entre as quais a involução do modelo de vídeo é a mais óbvia. muitas empresas de ia lançaram vídeos de grandes modelos anteriormente, incluindo o modelo de geração de vídeo "qingying" lançado pela zhipu ai, ai pixverse v2. da shi technology, vidu da shengshu technology, “keling ai” da kuaishou, etc.

01:55

apresentar modelos multimodais é apenas o começo

entende-se que o vídeo-01 lançado pela minimax desta vez se concentra na geração de vídeos nativos de alta resolução e alta taxa de quadros. inserir uma palavra de alerta pode gerar um vídeo de cinco segundos. os usuários podem fazer login no site oficial do minimax para. experimente o produto.

minimax lança oficialmente modelo de vídeo – video-01

depois de avaliar o modelo de vídeo video-01, um designer de produto disse: "o efeito geral é muito bom, com física correta, boa faixa dinâmica e estabilidade, e a resposta aos conceitos de ficção científica e fantasia é relativamente precisa, mas a sensação plástica é pesado o desempenho estético é relativamente ruim, a qualidade e os detalhes da imagem são ruins.”

a este respeito, o fundador e ceo da minimax, yan junjie, disse que o que está atualmente em exibição é apenas a primeira versão do produto, e versões atualizadas serão lançadas gradualmente no futuro.

por este motivo, o modelo de vídeo será fornecido gratuitamente aos usuários por um período de tempo. a comercialização não será considerada até que o produto seja atualizado para um estado satisfatório. “a comercialização futura é dividida principalmente em duas formas. uma é baseada na plataforma aberta da empresa e nos mais de 2.000 parceiros clientes da empresa. muitos usuários conhecidos da empresa também estão dispostos a usar recursos de reconhecimento de voz. capacidades de reconhecimento por conta própria. mecanismos de publicidade foram introduzidos nos produtos.”

segundo relatos, os atuais produtos de matriz de modelo multimodal da minimax também incluem music-01, um modelo multifuncional de geração de música ponta a ponta, speech-01, uma nova geração de modelo generativo de síntese de fala, etc. "este é apenas o começo. continuaremos a melhorar a velocidade e o efeito do modelo e a lançar ainda mais produtos correspondentes."

a chave para melhorar o desempenho do modelo

“como empresa de tecnologia, a tecnologia é sempre o elemento central.” yan junjie disse que, nesta fase, o foco da minimax não está na comercialização.

yan junjie disse que o modelo minimax atualmente lida com mais de 3 bilhões de interações com clientes. há um ano, o tempo de interação do minimax era de apenas 3% do chatgpt; agora essa proporção aumentou para 53%, mas mesmo assim, os usuários conectados não atingiram 1% da população global, apenas 0,8%. para crescer de 1% para 100%, o mais importante é aumentar a taxa de penetração e a profundidade de uso dos produtos de ia entre os usuários.

dados de interação do usuário minimax

existem muitas dificuldades técnicas que precisam ser superadas. entre elas, as três direções de otimização mais importantes são: como reduzir continuamente a taxa de erro do modelo, entrada e saída infinitas e multimodalidade. "não é difícil descobrir na vida que a interação de texto é apenas uma pequena parte, e mais é a interação de voz e vídeo. conteúdo multimodal, como som, gráficos, texto e vídeo, tornou-se a corrente principal da transmissão de informações. em para melhorar a velocidade de penetração, a multimodalidade é o único caminho a percorrer." yan junjie disse que, para superar essas dificuldades, a "velocidade" é o principal objetivo de pesquisa e desenvolvimento de tecnologia do grande modelo subjacente do minimax. “entre dois modelos com desempenho semelhante, aquele com treinamento e inferência mais rápidos pode usar recursos de computação de forma mais eficaz para iterar mais dados, tendo assim uma melhor capacidade de modelo.”

segundo relatos, o minimax passou por duas mudanças tecnológicas subjacentes importantes no passado, incluindo moe (mixed expert architecture) e atenção linear (atenção linear). em abril deste ano, a empresa desenvolveu um modelo de nova geração baseado em atenção linear moe+, considerado comparável ao nível do gpt-4o. ao processar 100.000 tokens, a eficiência de processamento do novo modelo pode ser melhorada em até 2 a 3 vezes e, à medida que o comprimento aumenta, a eficiência do modelo aumenta de forma mais óbvia.

entende-se que os modelos de texto da série abab7 utilizando tecnologia de nova geração serão lançados oficialmente nas próximas semanas.

relatórios públicos mostram que a minimax, fundada em dezembro de 2021, já completou três rodadas de financiamento. os investidores incluem tencent, mihoyo, etc., e sua avaliação atual ultrapassou us$ 2,5 bilhões.

o repórter do the paper yu yan e o estagiário wang chun

(este artigo é do the paper. para mais informações originais, baixe o app “the paper”)

relatório/comentários

notícias

minimax realizou sua primeira conferência partner day e lançou modelos de geração de vídeo e música

introdução

minhas informações de contato