notícias

Liderando a comercialização do AIGC com um “modelo vertical”, qual o caminho técnico da FancyTech?

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Máquina Coração Original

Departamento Editorial de Coração de Máquina

Estamos testemunhando mais uma rodada de inovação tecnológica. Desta vez, o AIGC fornece aos indivíduos ferramentas para se expressarem, tornando a criação mais fácil e popular, mas a força motriz por trás dela não é o “grande” modelo.

Nos últimos dois anos, a tecnologia AIGC desenvolveu-se mais rapidamente do que se imaginava, abrangendo todos os campos, desde texto a imagens e vídeo. As discussões sobre a trajetória de comercialização do AIGC nunca pararam. Entre elas, há consensos e diferenças de rumos.

Por um lado, as poderosas capacidades dos modelos gerais são surpreendentes e mostram potencial de aplicação em vários setores. Em particular, a introdução de arquiteturas como DiT e VAR permitiu que o Scaling Law saltasse da geração de texto para a geração visual. Sob a orientação desta regra, muitos grandes fabricantes de modelos continuam a avançar na direção de aumentar os dados de treinamento, o investimento em poder de computação e o acúmulo de parâmetros.

Por outro lado, também vimos que um modelo universal não significa “matar todos”. Diante de muitas tarefas de pista subdivididas, um modelo vertical “bem treinado” pode alcançar melhores resultados.

À medida que a tecnologia de grandes modelos entra num período de implementação acelerada, o último caminho de comercialização tem recebido atenção de rápido crescimento.

Durante esta evolução, a FancyTech, uma empresa startup da China, destacou-se:Expandiu rapidamente o mercado com produtos padronizados para geração de conteúdo visual comercial e verificou a superioridade do "modelo vertical" no nível de implementação industrial antes de seus pares.

Olhando ao redor do círculo empresarial nacional de grandes modelos, o histórico de comercialização da FancyTech é óbvio para todos. Mas o que menos se sabe é o modelo vertical e as vantagens tecnológicas que esta empresa, nascida há poucos anos, coloca na vanguarda.

Em entrevista exclusiva, Machine Heart conversou com a FancyTech sobre a exploração tecnológica que estão fazendo.

FancyTech lança modelo vertical de vídeo DeepVideo

Como romper as barreiras da indústria?

De modo geral, depois que a capacidade de generalização zero de um modelo geral atinge um certo nível, ele pode ser usado para tarefas posteriores, ajustando-o. Esta é também a forma como muitos produtos de grandes modelos são lançados hoje. Mas, do ponto de vista real, apenas o "ajuste fino" não pode atender às necessidades das aplicações industriais, porque as tarefas de geração de conteúdo de cada indústria têm seu próprio conjunto específico e complexo de padrões.

Um modelo geral pode ser capaz de completar 70% das tarefas rotineiras, mas o que os clientes realmente precisam é de um “modelo vertical” que possa atender 100% de suas necessidades. Tomemos como exemplo o design visual comercial. Antigamente, os trabalhos relacionados eram realizados por profissionais com acumulação de longo prazo e precisavam ser desenhados e ajustados de acordo com as necessidades específicas da marca, o que envolvia muita experiência manual. Em comparação com indicadores como estética e conformidade com as instruções, a “restauração do produto” é um ponto ao qual as marcas prestam mais atenção nesta tarefa e é também o fator decisivo para saber se as marcas estão dispostas a pagar.

No processo de autodesenvolvimento de um modelo vertical para imagens/vídeos comerciais, a FancyTech desmontou o desafio central: como tornar o produto suficientemente restaurado e integrado ao fundo, especialmente no vídeo gerado, para obter movimento controlável do produto sem deformação .







视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Com o desenvolvimento atual de grandes modelos de tecnologia, para a camada de aplicação, seguir a rota de código aberto ou de código fechado não é mais a questão central. O modelo vertical da FancyTech é baseado na estrutura de algoritmo subjacente de código aberto, sobreposto com sua própria anotação de dados e retreinado, e requer apenas algumas centenas de GPUs para iterações de treinamento contínuo para alcançar bons resultados de geração. Em contraste, os dois factores de "dados do produto" e "métodos de formação" são mais críticos para o efeito final da implementação.

Com a premissa de acumular massivos dados de treinamento 3D, a FancyTech introduziu a ideia de inteligência espacial para orientar a geração de conteúdo 2D do modelo.Especificamente, para geração de conteúdo de imagem, a equipe propôs um "dispositivo de recurso multimodal" para garantir a restauração de produtos e utilizou coleta de dados especiais para garantir a integração natural de produtos e fundos para geração de conteúdo de vídeo, a equipe reconstruiu a geração de vídeo; Os links subjacentes, estrutura de design direcional e engenharia de dados, realizando assim a geração de vídeo centrada no produto.

Verdadeira greve de redução de dimensionalidade: Como a “inteligência espacial” orienta a geração de conteúdo 2D?

A principal razão pela qual os efeitos de muitos produtos de geração visual são insatisfatórios é que os modelos atuais de geração de imagens e vídeos geralmente aprendem com base em dados de treinamento 2D e não entendem o mundo físico real.

Este ponto alcançou consenso na área, e alguns pesquisadores até acreditam que sob o paradigma de aprendizagem autorregressiva, a compreensão do mundo pelo modelo é sempre superficial.

No entanto, na tarefa de subdivisão da geração visual comercial, não é completamente insolúvel melhorar a compreensão do mundo físico 3D do modelo e gerar melhor conteúdo 2D.

A FancyTech migrou ideias de pesquisa na área de “inteligência espacial” para a construção de modelos visuais generativos. Diferente dos modelos generativos gerais, a ideia da inteligência espacial é aprender com os sinais originais obtidos por um grande número de sensores e calibrar com precisão os sinais originais obtidos pelos sensores para dar ao modelo a capacidade de perceber e compreender o mundo real.

Portanto, a FancyTech usa digitalização lidar em vez da filmagem tradicional em estúdio e acumulou um grande número de pares de dados 3D de alta qualidade que refletem as diferenças antes e depois da integração do produto. Ele combina dados de nuvem de pontos 3D com dados 2D como dados de treinamento de modelo. para melhorar a compreensão do modelo da realidade.

Sabemos que na geração de qualquer conteúdo visual, a modelagem de efeitos de luz e sombra é uma tarefa muito desafiadora. Elementos como iluminação, corpos luminosos, luz de fundo e pontos de luz podem tornar a estratificação espacial da imagem mais forte, mas este é um "ponto de conhecimento" difícil de entender para modelos generativos.

Para coletar o máximo possível de dados de luz natural e sombra, a FancyTech construiu dezenas de luzes com brilho e temperatura de cor ajustáveis ​​em cada ambiente, o que significa que cada par nos dados massivos pode ser sobreposto com múltiplas luzes e diferentes brilhos e temperaturas de cor. . mudanças.



Essa coleta de dados de alta intensidade simula a iluminação de cenas reais de filmagem, tornando-a mais alinhada com as características das cenas de comércio eletrônico.



Combinando o acúmulo de dados 3D de alta qualidade, a FancyTech fez uma série de inovações na estrutura de algoritmos, combinando organicamente algoritmos espaciais com algoritmos de imagem e vídeo para permitir que o modelo compreenda melhor a interação entre os objetos principais e o ambiente.

Durante o processo de treinamento, o modelo pode "emergir" uma compreensão do mundo físico até certo ponto, e ter uma compreensão mais profunda do espaço tridimensional, profundidade, reflexão e refração da luz, e os resultados da luz operando em diferentes meios e materiais diversos. Sabendo disso, finalmente conseguimos “forte redução” e “hiperfusão” dos produtos nos resultados gerados.

Quais são as inovações de algoritmo por trás da “forte redução” e da “hiperfusão”?

Para tarefas comuns de geração de imagens de cenas de produtos, o método convencional atual usa principalmente texturas para garantir a restauração da parte do produto e, em seguida, implementa a edição de cenas de imagens com base na tecnologia Inpainting. O usuário seleciona a área que precisa ser alterada e insere um prompt ou fornece uma imagem de referência para orientar a geração da cena do produto. O efeito de fusão deste método é melhor, mas a desvantagem é que a controlabilidade dos resultados da geração de cena não é alta. Por exemplo, não é suficientemente claro ou muito simples e não pode garantir a alta taxa de disponibilidade de uma única saída.

Em resposta aos problemas que não podem ser resolvidos pelos métodos atuais, a FancyTech propôs um "dispositivo de recursos multimodal" proprietário que extrai recursos do produto em múltiplas dimensões e, em seguida, usa esses recursos para gerar gráficos de cena integrados.



O trabalho de extração de recursos pode ser dividido em "recursos globais" e "recursos locais". Os recursos globais incluem o contorno, a cor e outros elementos do produto, que são extraídos usando codificadores VAE. Os recursos locais incluem detalhes do produto em todos os lugares, que são extraídos; usando redes neurais gráficas. Um dos grandes benefícios da rede neural gráfica é que ela pode extrair as informações de cada pixel-chave do produto e o relacionamento entre os pixels-chave, além de melhorar a restauração dos detalhes dentro do produto.

Na geração de conteúdo de produtos de materiais flexíveis, o efeito obtido por este método é significativamente melhorado:



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Em comparação com as imagens, a geração de vídeos também envolve o controle do movimento do próprio produto e das mudanças de luz e sombra que ele traz. Para modelos gerais de geração de vídeo, a dificuldade reside na incapacidade de proteger de forma independente uma determinada parte do vídeo. Para resolver este problema, a FancyTech dividiu a tarefa em dois ramos: “geração de movimento do produto” e “integração de cena de vídeo”.

  • Na primeira etapa, a FancyTech projetou algumas soluções de planejamento de movimento direcionadas para controlar o movimento do produto na tela, o que equivale a “fixar” o produto antecipadamente em cada quadro do vídeo;
  • Na segunda etapa, a geração de vídeo controlável é obtida através do módulo de controle. O módulo de controle adota um design flexível e é compatível com diferentes arquiteturas como U-net e DiT, facilitando sua expansão e otimização.

No nível dos dados, além de usar os recursos exclusivos de dados de produtos da FancyTech para fornecer treinamento de controle e proteção do produto, vários conjuntos de dados de código aberto também são adicionados para garantir recursos de generalização de cena. O plano de formação combina aprendizagem comparativa e aprendizagem de cursos e, em última análise, alcança o efeito de proteção dos bens.

Deixe os dividendos da era AIGC

Partindo do modelo vertical para pessoas mais comuns

Quer seja “universal” ou “vertical”, o ponto final de ambas as rotas é a comercialização.

O beneficiário mais direto da implementação do modelo vertical da FancyTech é a marca. No passado, o ciclo de produção de um vídeo publicitário podia durar várias semanas, desde o planejamento, filmagem e edição. Mas na era AIGC, leva apenas dez minutos para criar esse vídeo publicitário, e o custo é apenas um quinto do custo original.

Com as vantagens de enormes dados únicos e know-how da indústria, a FancyTech ganhou amplo reconhecimento no país e no exterior através das vantagens do modelo vertical. Assinou contratos com a Samsung e LG com parceiros coreanos e cooperou com a Lazada, uma empresa bem-sucedida. plataforma de comércio eletrônico conhecida no Sudeste Asiático; nos Estados Unidos, foi favorecida por marcas locais como Kate Sommerville e Solawave na Europa, ganhou o Prêmio de Inovação LVMH e mantém uma cooperação profunda com clientes europeus;

Além do modelo vertical central, a FancyTech também fornece publicação automática de link completo e recursos de feedback de dados para vídeos curtos de IA, impulsionando o crescimento contínuo nas vendas de produtos.

Mais importante ainda,O modelo vertical visualiza o caminho para o público em geral usar a tecnologia AIGC para melhorar a produtividade.Por exemplo, um estúdio fotográfico tradicional na rua pode completar a transformação do negócio, desde a simples fotografia de retratos até a produção de material visual comercial de nível profissional, sem adicionar equipamentos profissionais e profissionais com a ajuda dos produtos da FancyTech.



视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Agora, apenas pegando um celular, quase todo mundo pode gravar vídeos, gravar músicas e compartilhar suas criações com o mundo. Imagine um futuro onde a AIGC mais uma vez libere a criatividade individual——

Permitir que as pessoas comuns ultrapassem os limites profissionais e transformem ideias em realidade com mais facilidade, permitindo assim que a produtividade de cada indústria dê um salto e gere mais indústrias emergentes. A partir deste momento, os dividendos dos tempos trazidos pela tecnologia AIGC tornar-se-ão verdadeiramente comuns. pessoas.