notícias

Revelando os segredos da FancyTech: a inovação do algoritmo por trás da “forte redução” e da “hiperconvergência”

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Na recente vaga de mudança tecnológica, o AIGC (conteúdo gerado por inteligência artificial) está a tornar-se uma ferramenta importante para a autoexpressão e criação das pessoas. A força motriz desta onda de inovação tecnológica não são apenas enormes modelos de algoritmos, mas soluções profundamente personalizadas que se concentram nas necessidades de campos específicos. Nos últimos dois anos, o AIGC desenvolveu-se mais rapidamente do que muitos esperavam e as suas aplicações expandiram-se desde a geração de texto até à gama completa de imagens e vídeos.
Recentemente, "Heart of the Machine" conduziu uma entrevista exclusiva com uma startup chinesa chamada FancyTech. A empresa não apenas expandiu rapidamente o mercado, fornecendo produtos padronizados de geração de conteúdo visual comercial, mas também foi a primeira a provar as vantagens do modelo vertical em aplicações práticas.
"Heart of the Machine" também apresenta em detalhes o mais recente modelo vertical de vídeo da FancyTech, DeepVideo, que atende com sucesso ao desafio de como restaurar com precisão e integrar produtos naturalmente em vídeos, garantindo que os produtos permaneçam inalterados em movimento.
O modelo vertical da FancyTech é baseado na estrutura de algoritmo subjacente de código aberto, sobreposto com sua própria anotação de dados e retreinado, e requer apenas algumas centenas de GPUs para iterações de treinamento contínuo para alcançar bons resultados de geração. Em contraste, os dois factores de "dados do produto" e "métodos de formação" são mais críticos para o efeito final da implementação.
Com base no acúmulo de uma grande quantidade de dados de treinamento 3D, a FancyTech introduziu a ideia de inteligência espacial para orientar a geração de conteúdo 2D do modelo. Em termos de geração de conteúdo de imagem, a equipe propôs um "dispositivo de recurso multimodal" para garantir a restauração de bens e garantiu a integração natural de bens e antecedentes através da coleta de dados especiais. Em termos de geração de conteúdo de vídeo, a equipe reconstruiu os links subjacentes de geração de vídeo, estrutura de design direcional e engenharia de dados para gerar vídeos centrados em produtos.
Além disso, "Heart of the Machine" revela em profundidade como a FancyTech aplica ideias de pesquisa de inteligência espacial a modelos de geração visual. Ao contrário dos modelos generativos tradicionais, a inteligência espacial analisa grandes quantidades de dados de sensores e realiza calibração precisa, permitindo que o modelo perceba e compreenda o mundo real.
A FancyTech usa digitalização lidar em vez da filmagem tradicional em estúdio e acumulou uma grande quantidade de dados 3D de alta qualidade. Esses dados são combinados com dados 2D para servir como dados de treinamento do modelo, o que melhora muito a compreensão do modelo do mundo real.
Para a desafiadora tarefa de moldar efeitos de luz e sombra na geração de conteúdo visual, a FancyTech implantou várias luzes com brilho e temperatura de cor ajustáveis ​​em cada ambiente para coletar o máximo possível de dados de luz natural e sombra para melhorar a estratificação espacial das imagens geradas.
Essa coleta de dados de alta intensidade simula a iluminação de cenas reais de filmagem, tornando-a mais alinhada com as características das cenas de comércio eletrônico. Combinando o acúmulo de dados 3D de alta qualidade, a FancyTech fez uma série de inovações na estrutura de algoritmos, combinando organicamente algoritmos espaciais com algoritmos de imagem e vídeo, permitindo que o modelo compreenda melhor a interação entre os objetos principais e o ambiente.
A exploração da comercialização nunca parou no campo do AIGC. Embora haja um consenso, também existem diferentes direções de desenvolvimento. "Heart of the Machine" revelou no artigo a inovação do algoritmo da FancyTech por trás da "forte redução" e da "hiperfusão".
O “gerador de recursos multimodais” da FancyTech extrai recursos do produto em múltiplas dimensões e, em seguida, usa esses recursos para gerar imagens que se misturam à cena. A extração de recursos é dividida em recursos globais e recursos locais: os recursos globais incluem elementos básicos como o contorno e a cor do produto, que são extraídos usando codificadores VAE. Os recursos locais concentram-se nos detalhes do produto e são extraídos por meio de redes neurais gráficas; Este método pode capturar detalhadamente as características internas do produto. A relação entre detalhes e pixels principais, melhorando assim a precisão da restauração dos detalhes do produto.
No caminho para a comercialização, quer seja adoptado um modelo geral ou um modelo vertical, o objectivo final é alcançar o sucesso comercial. A FancyTech aproveitou sua riqueza de dados exclusivos e experiência no setor para obter amplo reconhecimento nos mercados nacionais e estrangeiros e estabeleceu relações de cooperação com parceiros internacionais como Samsung, LG e a plataforma de comércio eletrônico Lazada do Sudeste Asiático, adquirida nos Estados Unidos; Kate Somerville e preferida por marcas locais como a Solawave na Europa, ganhou o Prémio de Inovação LVMH e tem uma cooperação profunda com clientes europeus;
Além disso, a FancyTech também fornece funções de publicação automática de link completo e feedback de dados de vídeos curtos de IA, impulsionando efetivamente o crescimento contínuo das vendas de produtos.
A aplicação bem sucedida do modelo vertical não só promove o desenvolvimento do mercado comercial, mas também torna mais fácil para o público em geral utilizar a tecnologia AIGC para melhorar a produtividade.
Com a disseminação da tecnologia, quase todas as pessoas podem agora gravar vídeos, gravar músicas e compartilhar suas criações com o mundo através de seus celulares. Ansiamos por um futuro em que a tecnologia AIGC libertará mais uma vez a criatividade pessoal - permitindo que as pessoas comuns ultrapassem facilmente os limites profissionais e transformem ideias em realidade, promovendo assim saltos de produtividade em todas as esferas da vida e dando origem a mais indústrias emergentes.
Text/Lin Ke que se concentra em IA
Relatório/Comentários