notícias

A IA produz imagens com mais rapidez e entende melhor seus pensamentos. Que segredos técnicos o belo modelo de imagens de Vincent cultivou?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Com o lançamento de modelos grandes e o apertar do botão do acelerador, os diagramas Vicentinos são, sem dúvida, uma das direções de aplicação mais quentes.

Desde o nascimento da Difusão Estável, tem havido um fluxo interminável de grandes modelos de figuras vicentinas no país e no exterior, e por um tempo parecia uma “luta entre deuses”. Em apenas alguns meses, o título de “The Strongest AI Artist” mudou de mãos várias vezes. Cada iteração tecnológica continua a ultrapassar o limite superior da qualidade e velocidade de geração de imagens de IA.

Agora podemos obter qualquer imagem que quisermos digitando algumas palavras. Quer se trate de um cartaz comercial de nível profissional ou de uma foto hiper-realista, a fidelidade do mapeamento de IA nos surpreendeu. A IA até ganhou o Sony World Photography Award de 2023. Antes do grande prêmio ser anunciado, esta “foto” havia sido exibida na Somerset House, em Londres – se o autor não a divulgasse publicamente, ninguém poderia descobrir que a foto foi realmente criada pela IA.



Eldagse e seu trabalho "Eletricista" gerado por IA

Como tornar as imagens desenhadas pela IA mais bonitas não pode ser separada dos esforços persistentes dos técnicos de IA.A sexta edição da "AIGC Experience School" convidou o especialista técnico Doubao Vincent Chart, Li Liang, e o arquiteto de soluções da NVIDIA, Zhao Yijia, para nos fornecer uma análise aprofundada da tecnologia por trás do modelo Vincent Chart para produzir imagens mais bonitas, mais rápidas, e entender melhor o link da mente do usuário.

No início da transmissão ao vivo, Li Liang primeiro dissecou em detalhes a atualização técnica do modelo de diagrama Vincent do recente grande modelo doméstico de "nível superior" - modelo grande ByteDance Doubao.

Li Liang disse que os problemas que a equipe Doubao deseja resolver incluem principalmente três aspectos: primeiro, como obter uma correspondência mais forte de imagem e texto para atender ao design da ideia do usuário, segundo, como gerar imagens mais bonitas para fornecer uma experiência mais definitiva aos usuários; a terceira é como produzir gráficos mais rapidamente para atender chamadas de serviço em larga escala.

Em termos de correspondência de imagens e textos, a equipe Doubao começou com dados, refinou e filtrou os enormes dados de imagens e textos e, finalmente, armazenou centenas de bilhões de imagens de alta qualidade no banco de dados. Além disso, a equipe também treinou especialmente um modelo multimodal de linguagem grande para a tarefa de recapitulação. Este modelo descreverá de forma mais abrangente e objetiva as relações físicas das imagens nas imagens.



Depois de ter dados de imagem e texto de alta qualidade e detalhados, se quiser aproveitar melhor a força do modelo, você precisa melhorar a capacidade do módulo de compreensão de texto. A equipe usa um modelo bilíngue nativo de grande idioma como codificador de texto, o que melhora significativamente a capacidade do modelo de compreender o chinês. Portanto, diante de elementos nacionais como "Dinastia Tang" e "Festival das Lanternas", os modelos de diagrama Doubao e Vincent. também mostram uma compreensão mais profunda.



Para a arquitetura do modelo Diffsuion, a equipe Doubao também injetou segredos exclusivos. Eles usaram o UNet para um dimensionamento eficaz. Ao aumentar o número de parâmetros, o modelo gráfico Doubao-Vensen melhorou ainda mais a compreensão dos pares imagem-texto e os recursos de geração de alta fidelidade. .



Para o estilo estético mais óbvio que os usuários sentem intuitivamente, a equipe Doubao introduziu orientação estética profissional e sempre presta atenção às preferências estéticas dos usuários e do público. Ao mesmo tempo, a equipe também trabalhou duro na arquitetura de dados e modelos. Muitas vezes, a comparação entre as imagens que o usuário obtém e a exibição de demonstração é como uma “mostra do comprador” e uma “mostra do vendedor”. Na verdade, o prompt fornecido não é detalhado e claro o suficiente para o modelo e o diagrama Doubao Vincent. o modelo introduz um "Rephraser", ao mesmo tempo que segue a intenção original do usuário, adiciona descrições mais detalhadas às palavras do prompt, para que todos os usuários experimentem um efeito de geração mais perfeito.



Para fazer com que o modelo produza imagens mais rapidamente e consuma menos dinheiro por imagem, a equipe Doubao também deu novas ideias de resolução de problemas no método de destilação do modelo. Uma conquista representativa é o Hyber-SD, que é um novo modelo de destilação de difusão. estrutura que mantém desempenho quase sem perdas enquanto compacta o número de etapas de remoção de ruído.



Em seguida, o arquiteto de soluções da NVIDIA Zhao Yijia começou com a tecnologia subjacente e explicou as duas arquiteturas de modelo SD e DIT baseadas em Unet mais populares de Vincent Graph e suas características correspondentes, e apresentou Tensorrt, Tensorrt-LLM, Triton da NVIDIA, ferramentas como Nemo Megatron fornece suporte para implantação de modelos e ajuda modelos grandes a raciocinar com mais eficiência.

Zhao Yijia primeiro compartilhou uma explicação detalhada dos princípios do modelo por trás da Difusão Estável e elaborou os princípios de funcionamento de componentes-chave como Clip, VAE e Unet. À medida que Sora se tornou popular, também se tornou popular com a arquitetura DiT (Diffusion Transformer) por trás dele. Zhao Yijia fez ainda uma comparação abrangente das vantagens de SD e DiT em três aspectos: estrutura do modelo, características e consumo de energia computacional.



Ao usar a difusão estável para gerar imagens, muitas vezes você sente que o conteúdo das palavras do prompt é apresentado nos resultados gerados, mas a imagem não é o que você deseja. Isso ocorre porque a difusão estável baseada na renderização de texto não é boa para controlar os detalhes. da imagem, como composição, movimentos, características faciais, relações espaciais, etc. Portanto, com base no princípio de funcionamento da difusão estável, os pesquisadores projetaram muitos módulos de controle para compensar as deficiências da difusão estável. Zhao Yijia adicionou o adaptador IP representativo e ControlNet.



Para acelerar a inferência do modelo gráfico vicentino de uso intensivo de computação, o suporte técnico da NVIDIA desempenha um papel fundamental. Zhao Yijia apresentou as ferramentas Nvidia TensorRT e TensorRT-LLM, que otimizam o processo de inferência de modelos de geração de imagem e texto por meio de convolução de alto desempenho, agendamento eficiente e tecnologias de implantação distribuída. Ao mesmo tempo, Ada, Hopper e a próxima arquitetura de hardware BlackWell da NVIDIA já suportam treinamento e inferência FP8, o que trará uma experiência mais suave ao treinamento de modelos.



Após seis maravilhosas transmissões ao vivo, a "AIGC Experience Party" lançada em conjunto pela Volcano Engine, NVIDIA e CMO CLUB chegou ao fim com sucesso. Através destes seis programas, acredito que todos tenham uma compreensão mais profunda de como o AIGC passa de “interessante” a “útil”. Esperamos também que a “AIGC Experience School” não apenas permaneça na discussão do programa, mas também acelere o processo de atualização inteligente na área de marketing na prática.

Revise o endereço de todas as seis edições da "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy