notícias

Uma conversa com a equipe de Qi Peng no Chongqing AI Research Institute da Shanghai Jiao Tong University: O nível atual de modelos grandes é equivalente apenas ao de uma criança de cinco anos |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Fonte da imagem: unsplash)

Recentemente, uma notícia sobre “O grande modelo não consegue determinar se 9.11 ou 9.9 é maior” gerou discussão.

Quando um usuário perguntou a 12 grandes modelos de IA no país e no exterior, incluindo GPT-4o, uma questão matemática que é difícil para alunos do ensino fundamental, "Qual é maior, 9,11 ou 9,9?", o resultado final acabou sendo apenas Alibaba Tongyi Qianwen e Baidu Wenxin, Minimax e Tencent Yuanbao deram 4 respostas corretas, enquanto 8 modelos grandes, incluindo ChatGPT-4o, deram respostas erradas.

Isto significa que as capacidades matemáticas de grandes modelos são fracas e há muitos problemas que precisam ser resolvidos.

Em uma conversa exclusiva anterior com TMTpost AGI, Dr. Qi Peng, diretor do AI ​​Large Model Center do Shanghai Jiao Tong University Chongqing Artificial Intelligence Research Institute (Shanghai-Chongqing Artificial Intelligence Research Institute), disse que embora modelos grandes tenham ótimo potencial e pode lidar com problemas complexos e ter a capacidade de aprender habilidade de generalização. No entanto, grandes modelos de linguagem podem ser mais parecidos com "estudantes de artes liberais" devido às limitações da arquitetura do modelo e à falta de habilidades científicas. Além disso, o atual poder de computação limitado é insuficiente, os dados de texto são insuficientes, a precisão e a confiabilidade são tendenciosas e a escala do modelo não é grande o suficiente. Seu nível de inteligência ainda está no nível infantil, mais parecido com uma "criança de cinco anos". ", e é difícil lidar com tarefas complexas. , a "ilusão" existe há muito tempo.

Qi Peng formou-se na Universidade de Tsinghua com bacharelado e concluiu o doutorado na Universidade de Wisconsin, nos Estados Unidos. Atualmente trabalha no Instituto de Pesquisa de Inteligência Artificial de Chongqing da Universidade Jiao Tong de Xangai. Qi Peng está profundamente envolvido em ciência de dados, IA e outras áreas há muitos anos, participou de muitos projetos nacionais de ciência e tecnologia e possui vários direitos de propriedade intelectual.

À medida que o ChatGPT se tornou popular em todo o mundo, ao longo do último ano, Qi Peng liderou a equipe do grande centro de modelos de IA da Universidade Jiao Tong de Xangai e do Instituto de Pesquisa de Inteligência Artificial de Chongqing para desenvolver de forma independente o grande modelo de linguagem "Zhaoyan", e em março deste ano, a avaliação do agente de grande modelo chinês SuperCLUE ficou em terceiro lugar globalmente e em segundo lugar no mercado interno em benchmarks.

Ao mesmo tempo, em julho deste ano, Qi Peng levou Zhuang Shaobin, um estudante de doutorado da Universidade Jiao Tong de Xangai, e outros a participarem de um projeto comunitário de código aberto e reproduziram com sucesso um modelo de vídeo Wensheng semelhante a Sora usando o Latte avançado. arquitetura de atenção de desacoplamento espaço-temporal, após treinamento cuidadoso, foi capaz de Um vídeo de 16 segundos (128 quadros) é gerado no conjunto de dados de vídeo InternVid Em comparação com o modelo de código aberto anterior, que só pode gerar 3 segundos (24). -frame), o desempenho é melhorado em 5 vezes (500%).

Em 12 de julho, Qi Peng e Zhuang Shaobin tiveram uma conversa exclusiva com TMTpost por cerca de duas horas, com foco no status atual de desenvolvimento de Sora e nos desafios enfrentados pelo desenvolvimento de grandes modelos, implementação na indústria e direções de desenvolvimento futuro.

Falando sobre o impacto da tecnologia Sora, Qi Peng disse ao TMTpost AGI que Sora é mais como um novo “martelo” que pode resolver uma variedade de problemas. Além da geração de vídeo, o modelo de vídeo Sora Vincent também pode desempenhar um papel em muitas áreas, como direção autônoma e simulação do mundo físico. A aplicação mais intuitiva é a geração de vídeo. Os usuários só precisam inserir uma descrição de texto para gerar rapidamente conteúdo de vídeo que atenda aos requisitos, melhorando a eficiência e conveniência da produção de vídeo.

Quando se trata de implementação na indústria, Qi Peng destacou que modelos grandes são amplamente utilizados em vários setores verticais, mas há relativamente poucos casos reais de implementação. Existem duas razões principais: primeiro, a falta de capacidades matemáticas e de engenharia de grandes modelos; segundo, como parte da categoria de aprendizagem automática, a natureza dos grandes modelos baseados em métodos estatísticos determina que não podem atingir 100% de precisão;

Ansioso pelo desenvolvimento futuro da AGI, Qi Peng enfatizou que a sociedade humana está em um período crítico que leva à AGI. Embora as capacidades do modelo atual não atendam aos padrões AGI, um dia no futuro, quando as pessoas olharem para trás, para este período da história, poderão perceber que o ChatGPT nos colocou em um importante nó histórico.

"Um objetivo importante do instituto é realizar a comercialização de tecnologia. O Grande Centro Modelo está atualmente focado na implementação do AIGC, especialmente na questão da 'última milha', como transformar os resultados da pesquisa em produtos ou serviços reais para satisfazer o mercado Procura Embora a inteligência dos grandes modelos possa continuar a melhorar, dos cinco aos dez anos, aos dezoito anos, e até atingir o nível dos melhores especialistas, tais sistemas necessitarão sempre de instalações e ferramentas de apoio para apoiar o seu funcionamento e aplicação. Os custos de desenvolvimento de instalações podem ser relativamente baixos, mas desempenham um papel crucial na promoção da aplicação prática e do valor social de grandes modelos", disse Qi Peng.


Qi Peng, Diretor do Centro de Grandes Modelos de IA do Instituto de Inteligência Artificial de Chongqing, Universidade Jiao Tong de Xangai

A seguir está um resumo da conversa entre TMTpost Media AGI e Qi Peng e Zhuang Shaobin:TMTpost Media AGI: Comparado com outros modelos de vídeo, quais são as principais diferenças do modelo de vídeo recorrente Sora Vincent desenvolvido em conjunto pelo Instituto de Pesquisa de Inteligência Artificial de Chongqing da Universidade Jiao Tong de Xangai?

Qi Peng: Este projeto foi desenvolvido por uma equipe liderada pelo Dr. Zhuang Shaobin. A equipe optou por usar todos os dados de código aberto para treinamento do modelo. A equipe não apenas abriu os dados, mas também tornou público o processo de treinamento. Desta forma, outros pesquisadores ou desenvolvedores podem reproduzir o processo de treinamento do modelo em seu próprio ambiente com base nas mesmas etapas e configurações de parâmetros, e verificar a eficácia e estabilidade do modelo.

As principais diferenças refletem-se principalmente em três aspectos:

Primeiro, a equipe usa todos os dados de código aberto para o treinamento do modelo, o que significa que todo o processo de treinamento é baseado em conjuntos de dados acessíveis ao público. Essa abordagem garante a transparência e repetibilidade do processo de treinamento, e qualquer pessoa interessada pode utilizar o mesmo conjunto de dados para reproduzir ou melhorar o modelo.

Em segundo lugar, a equipe adotou um método de treinamento indireto, que pode treinar o modelo com eficiência e com menor custo computacional. Esta abordagem é adequada para conjuntos de dados de grande escala e modelos complexos, pois requerem tempos de treinamento mais longos e maiores recursos computacionais. Ao usar o treinamento indireto, o tempo de treinamento pode ser reduzido aumentando o número de nós de computação sem aumentar o custo do poder de computação de um único nó de computação.

Terceiro, a equipe também realizou alguns trabalhos de otimização subjacentes, especialmente a otimização da sobrecarga da memória de vídeo. Essas otimizações permitem que o modelo treine vídeos longos de maneira estável em um cluster ou servidor, melhorando a eficiência do treinamento e a escalabilidade do modelo.

TMTpost AGI: Qual a lógica e os motivos da escolha do modelo de código aberto?

Qi Peng: Ao contrário dos projetos comerciais, a vantagem de usar o modelo de código aberto para projetos de pesquisa que contam com a colaboração de equipes e comunidades de código aberto é que eles podem atrair mais pessoal de P&D para participar. Como não há restrições de direitos autorais e comercialização, qualquer pessoa interessada neste projeto pode facilmente obter e utilizar o modelo, propor suas próprias sugestões de melhorias ou contribuir com novo código. Este modelo pode ajudar na melhoria contínua e otimização de modelos, e também pode fortalecer a comunicação e cooperação interdisciplinar e interdisciplinar.

TMTpost AGI: Este modelo de vídeo recorrente do tipo Sora usa a arquitetura de atenção de acoplamento espaço-temporal Latte. Qual é a razão pela qual ele não está conectado à arquitetura DiT?

Qi Peng: A arquitetura do modelo semelhante ao Sora desenvolvida pela equipe não abandona completamente o Transformer ou outros modelos tradicionais. Ela se expande com base no DiT e adiciona a dimensão do tempo para suportar o processamento de vídeo. A consideração desta nova arquitetura pode ser uma melhor adaptação às características dos dados de vídeo e melhorar o desempenho do modelo em tarefas de geração ou processamento de vídeo.

Titanium Media AGI: A arquitetura DiT tem limitações na geração de vídeos longos. A arquitetura de atenção acoplada espaço-temporal Latte pode resolver esses problemas?

Zhuang Shaobin: O melhor modelo atualmente treinado pela equipe pode gerar vídeos de até 16 segundos de duração. Esta é uma grande melhoria em relação aos modelos anteriores baseados na arquitetura unet, que normalmente só conseguia gerar dois a três segundos de vídeo. 16 segundos não é um tempo particularmente longo, mas é um recorde relativamente longo no campo da geração de vídeo.

Questões de continuidade e coerência na geração de vídeo, que são afetadas principalmente pela qualidade dos dados. Se houver situações incoerentes, como saltos de quadros nos dados de vídeo, o modelo treinado também provavelmente gerará vídeos incoerentes. Além disso, a taxa de quadros e a resolução durante o treinamento do modelo têm impacto na qualidade da geração do vídeo. Se o modelo for treinado apenas em dados de resolução e taxa de quadros mais baixos, ele poderá não ser capaz de gerar vídeos suaves e de alta resolução.

Por que não consigo gerar um vídeo de um ou dois minutos de ponta a ponta? Um vídeo ponta a ponta de um ou dois minutos significa milhares de frames ou mesmo dois ou três mil frames de dados, o que requer centenas ou milhares de vezes o consumo de recursos computacionais. Embora a arquitetura de atenção acoplada espaço-temporal Latte possa, teoricamente, ser estendida a tal duração, nenhuma instituição atualmente possui poder computacional e dados suficientes para apoiar tal treinamento.

TMTpost AGI: Atualmente, quem está usando Sora? Que problemas são resolvidos? Que valor isso traz?

Zhuang Shaobin: No lado C, para produtores de vídeo não profissionais, como usuários domésticos comuns, modelos de geração de vídeo como o Sora podem reduzir bastante a dificuldade de produção de vídeo. Os usuários só precisam inserir descrições de texto para gerar um belo conteúdo de vídeo, facilitando a participação na criação do vídeo.

No lado B, para editores de vídeo profissionais e criativos, Sora pode gerar materiais de vídeo complexos ou imaginativos. Os profissionais podem ajustar e otimizar com base nos materiais fornecidos pelo modelo, melhorando assim a eficiência do trabalho e a qualidade da criação.

Sora não é usado apenas na produção de vídeo, mas também possui uma série de explorações em diversos campos, como direção autônoma, geração e modelagem 3D e pesquisa física. O sistema de condução autônoma precisa prever com precisão as mudanças dinâmicas dos objetos circundantes, e Sora, como um "simulador mundial", pode simular e prever as trajetórias de movimento dos objetos, fornecendo modelagem ambiental mais precisa para o sistema de direção autônoma.

Por exemplo, no campo da condução autónoma, a solução de condução autónoma da Tesla e sistemas avançados de assistência à condução semelhantes fizeram progressos tecnológicos significativos. Eles podem perceber o ambiente circundante em tempo real, incluindo veículos, pedestres, obstáculos, etc., que é a chave. para realizar a direção autônoma. Sora ajuda os sistemas de direção autônoma a tomar decisões antecipadamente para evitar situações potencialmente perigosas, como colisões e colisões traseiras. Ao mesmo tempo, ao prever o movimento de objetos, o sistema também pode otimizar rotas e velocidades de condução, melhorar a eficiência do tráfego e reduzir congestionamentos e emissões.

Em geral, Sora reduz o limite para produção de vídeo e permite que mais pessoas participem na criação de vídeo. Tanto usuários não profissionais no lado C quanto produtores de vídeo profissionais no lado B podem se beneficiar disso.

Qi Peng: Sora é mais como um “martelo”, uma nova ferramenta que pode resolver uma variedade de problemas. Além da geração de vídeo, o modelo de vídeo Sora Vincent também pode desempenhar um papel em muitas áreas, como direção autônoma e simulação do mundo físico. A aplicação mais intuitiva é a geração de vídeo. Os usuários só precisam inserir uma descrição de texto para gerar rapidamente conteúdo de vídeo que atenda aos requisitos, melhorando a eficiência e conveniência da produção de vídeo.

Muitas vezes, a tecnologia não é desenvolvida para resolver um problema específico, mas soluções poderosas são descobertas acidentalmente durante o processo de pesquisa. Uma vez amadurecido, esse método poderá ser amplamente utilizado em muitos campos para resolver uma série de problemas.

Atualmente, Sora ainda está em beta e não está amplamente disponível ao público. Na China, pode haver alguns casos de aplicação de versões beta internas ou externas, mas o número é relativamente pequeno e limitado principalmente à geração de vídeos curtos ou clipes de filmes. Por se tratar de uma versão beta, em muitos casos pode estar disponível gratuitamente. Se a cobrança começar no futuro, o custo será uma parte muito pequena dos custos atuais de produção de vídeo, como algumas centenas de yuans, reduzindo assim bastante o custo de produção de vídeo.

TMTpost AGI: Quais desafios a equipe encontrou durante o desenvolvimento do modelo Sora? Como superar esses desafios?

Qi Peng : Este projeto coopera principalmente com a comunidade de código aberto. O principal trabalho de pesquisa e desenvolvimento é realizado pelo Dr. Zhuang Shaobin e um ou dois funcionários de pesquisa e desenvolvimento. O projeto como um todo é dividido em quatro grupos, que são responsáveis ​​pela coleta e rotulagem de dados, treinamento de modelos, avaliação de modelos, aceleração de treinamento e otimização de máquinas.

Zhuang Shaobin: Durante o processo de treinamento do modelo, o maior desafio enfrentado pela equipe são os recursos computacionais insuficientes. Especialmente no processamento de dados em grande escala e modelos complexos, a demanda por recursos computacionais é muito alta. Para utilizar os recursos limitados da máquina de forma mais eficiente, a equipe de algoritmos da equipe do projeto conduziu muito trabalho de otimização.

Essas otimizações incluem estratégias avançadas de otimização, como paralelismo de modelo e paralelismo de pipeline, bem como otimização de memória de vídeo para modelos individuais.

Além disso, a equipe também otimizou o campo de vídeo, para que o projeto possa ter cenários de aplicação e áreas-alvo claros para melhor atender às reais necessidades de aplicação do projeto.

TMTpost Media AGI: O Instituto de Pesquisa de Inteligência Artificial de Chongqing da Universidade Jiao Tong de Xangai e o Instituto de Pesquisa de Revitalização Rural (Chongqing) lançaram anteriormente um grande modelo de agricultura de revitalização rural chamado “Zhaoyan·Zhaofeng”.

Qi Peng: Sendo o único município com cenários rurais, Chongqing oferece cenários ricos e amplo espaço para a aplicação de modelos agrícolas em grande escala. O modelo de revitalização rural em grande escala utiliza enormes dados online e dados agrícolas da Academia de Ciências Agrícolas. Estes dados fornecem uma base para a construção e formação de modelos e podem reflectir com mais precisão a situação real da produção agrícola. Atualmente, este projeto é desenvolvido em conjunto com agências governamentais, o Instituto de Pesquisa de Revitalização Rural (Chongqing) e outras partes. Este modelo de cooperação ajuda a integrar recursos, tecnologia e fundos para promover conjuntamente a investigação e o desenvolvimento e a aplicação de modelos agrícolas em grande escala.

Existem 14 grandes modelos de revitalização rural planeados e actualmente existem 3-4 produtos relacionados. Através de grandes modelos, o conhecimento especializado é transformado em informação popular e fácil de compreender para resolver problemas na produção agrícola, gestão e subsistência das pessoas. para ajudar a indústria agrícola. Os trabalhadores podem aceder e utilizar o conhecimento agrícola tão facilmente como os residentes urbanos, o que ajudará a reduzir a lacuna de informação entre as áreas urbanas e rurais e a melhorar a eficiência e a eficácia da produção agrícola.

TMTpost AGI: Neste estágio, quais são os gargalos no desenvolvimento de tecnologia de modelos grandes?

Qi Peng: Em primeiro lugar, fica claro o que a equipe define como modelo grande, que é um modelo de linguagem grande. O grande modelo de linguagem é o mainstream e seu núcleo está no conhecimento e na lógica. À medida que o grande modelo linguístico continua a desenvolver-se, o seu nível de inteligência pode aumentar gradualmente, desde o QI de uma criança de cinco anos até ao nível de uma criança de dez anos, de um adolescente de dezoito anos, ou mesmo de um super-homem. Este processo depende principalmente do domínio do modelo e da aplicação de conhecimento e lógica.

Diferente do modelo de linguagem grande, o modelo de vídeo Vincent é outra linha do modelo grande. Não envolve conhecimento e lógica complexos, mas se concentra mais na compreensão e simulação das leis do mundo físico. Modelos como o Vincent Video Modeling podem prever e responder a mudanças no mundo físico com base na percepção e na experiência, mas carecem de compreensão lógica de alto nível e capacidades de resumo de conhecimento.

Além disso, existem modelos multimodais, que podem codificar e processar múltiplas formas de informação, como texto, imagens, sons, etc., de forma unificada. Os modelos multimodais são uma das direções de desenvolvimento futuro, que podem compreender e processar informações complexas de forma mais abrangente no mundo real.

Actualmente, os grandes modelos estão a entrar num período de estagnação e parece difícil conseguir um salto qualitativo em termos de inteligência. Ainda acreditamos que modelos maiores tendem a ser capazes de lidar com problemas mais complexos e a ter capacidades de aprendizagem e generalização mais fortes. Assim que um modelo atingir 99,9% de precisão, esse grande modelo se tornará uma nova ferramenta de produtividade capaz de realizar diversas tarefas.

O desenvolvimento de grandes modelos apresenta problemas como poder de computação insuficiente, dados de texto insuficientes, desvios na precisão e confiabilidade e escala de modelo insuficiente. Desta forma, o "QI" do modelo grande não é suficientemente elevado, mais parecido com o nível de QI de uma criança de cinco ou seis anos. A capacidade do modelo grande para lidar com tarefas complexas é limitada e não pode atingir o nível que as pessoas. esperar.

Em segundo lugar, devido às limitações da arquitetura do modelo de linguagem grande, o modelo grande é um pouco como um “estudante de artes liberais”. Ele lida muito bem com a linguagem, mas não é bom em matemática e engenharia. O modelo grande pode ser comparado ao “CEO ou COO” da empresa. Embora este “CEO ou COO” possa não saber muito sobre tecnologia, ele pode mobilizar vários componentes de alta tecnologia.

Ao mesmo tempo, os grandes fabricantes nacionais e as start-ups enfrentam dificuldades no desenvolvimento de grandes modelos, principalmente porque o custo do investimento é enorme e a comercialização não é suficiente para apoiar o investimento contínuo em poder computacional e dados.

Se o nível de inteligência de grandes modelos não puder ser melhorado significativamente num curto período de tempo, então o desenvolvimento de aplicações torna-se uma opção viável. No estágio atual de desenvolvimento de grandes modelos, os clientes precisam explorar e melhorar na prática em diferentes cenários de aplicação. Através da comercialização de aplicações, podem ser geradas receitas para apoiar o desenvolvimento contínuo e a otimização de grandes modelos. Isto não só garante a sustentabilidade económica do projecto, mas também proporciona a possibilidade de futuras inovações tecnológicas.

Além disso, grandes empresas modelo também podem apoiar o desenvolvimento de projetos através de financiamento. Contudo, o financiamento não é fácil. Depende de o mercado reconhecer o potencial e o valor do projecto.

TMTpost Media AGI: O mercado está muito entusiasmado com modelos grandes, mas a aplicação de modelos grandes está avançando lentamente, o que fica aquém das expectativas do mercado. Por que a aplicação de modelos grandes está avançando lentamente?

Qi Peng: Existem dois motivos:

Primeiro, a actual falta de capacidades técnicas resulta numa melhoria limitada, o que reduz o entusiasmo por actualizações proactivas;

Em segundo lugar, a aplicação de novas tecnologias requer novo hardware e suporte de poder computacional, mas várias empresas estão mal preparadas e carecem de salas de informática suficientes e de recursos computacionais inteligentes para implantar e executar grandes modelos, dificultando a implementação de grandes modelos em indústrias verticais. O segundo problema pode realmente ser resolvido através de políticas correspondentes. Se as empresas puderem confiar na garantia de segurança de dados de institutos de investigação ou centros de poder computacional investidos pelo governo, poderão começar a desenvolver soluções modelo em grande escala antes de construir as suas próprias salas de computação inteligentes.

Modelos grandes, especialmente aqueles capazes de gerar texto, imagens, etc. de alta qualidade, geralmente requerem recursos computacionais significativos para serem executados. Por exemplo, quando 1 milhão de usuários usam um modelo grande ao mesmo tempo, o custo anual da capacidade de computação pode exceder centenas de milhões, dificultando a comercialização. Para usuários comuns, esses produtos de aplicação de grande modelo e alto custo podem ser inacessíveis, o que também limita a promoção de aplicações C-end.

Nesta fase, as soluções podem incluir a adoção de algoritmos mais eficientes, a otimização de estruturas de modelos para reduzir a quantidade de cálculos ou a utilização de recursos de computação distribuídos, como a computação em nuvem, para distribuir custos.

Em alguns aspectos, o atual agente inteligente de grande modelo ainda é como uma "criança de cinco anos". Ele tem problemas como "QI" insuficiente, desempenho instável e tendência a alucinações, o que afeta seriamente a experiência e a confiança do usuário. Esses problemas são inaceitáveis ​​em cenários de aplicação que exigem alta precisão, como cenários de atendimento ao cliente governamental ou financeiro. Mesmo em alguns campos de consultoria ou operação e manutenção onde os requisitos de precisão não são tão elevados, a taxa de precisão atual de 80% ou 60% ainda não atingiu o ponto crítico para aplicação generalizada.

Melhorar o desempenho e a estabilidade dos agentes requer otimização contínua dos algoritmos, aumentando a diversidade e a quantidade de dados de treinamento e introduzindo arquiteturas de modelos mais complexos. Ao mesmo tempo, os mecanismos de monitorização em tempo real e de tratamento de erros também precisam de ser reforçados para garantir a estabilidade de grandes modelos em ambientes complexos.

O reconhecimento de imagem é um campo muito importante na aplicação de grandes modelos multimodais. Com base no modelo pré-treinado, novos modelos de reconhecimento de imagem podem ser desenvolvidos a um custo muito baixo, cobrindo muitos cenários de cauda longa e com grande potencial de mercado. Embora o reconhecimento de imagem tenha muitos cenários de aplicação, os atuais grandes modelos de reconhecimento de imagem ainda apresentam o problema de baixa precisão e requisitos de poder de computação relativamente altos.

Além disso, como a geração anterior de inteligência artificial era relativamente madura na compreensão de imagens, as pessoas não aceitaram totalmente o valor adicional que os grandes modelos podem produzir, o que também afecta a velocidade da sua promoção.

TMTpost AGI: Como você vê a inovação industrial atual de grandes modelos de indústria vertical? Por que há tão poucos casos de indústria vertical implementados?

Qi Peng: Em termos de implementação vertical da indústria, tomando como exemplo os robôs humanóides na indústria de manufatura, pode levar de cinco a dez anos para que os robôs humanóides sejam utilizáveis ​​nas famílias. Isso ocorre principalmente porque suas capacidades de generalização em software ainda são limitadas. Não é suficiente, e o hardware também precisa de mais pesquisa, desenvolvimento e melhoria.

Uma direção de pesquisa mais prática é focar no problema de generalização de braços robóticos em cenários de manufatura. Embora os próprios braços robóticos sejam muito maduros e ocupados pelos principais fabricantes nacionais e estrangeiros no mercado, os braços robóticos existentes carecem de capacidades de generalização suficientes e não podem adaptar-se com flexibilidade a uma variedade de diferentes tarefas de trabalho. Isto resulta na necessidade de reprogramação sempre que o braço robótico é necessário para realizar uma nova tarefa em aplicações práticas, o que é impraticável quando as tarefas mudam frequentemente.

A chave para resolver o problema da generalização do braço robótico reside no desenvolvimento de software, especialmente aqueles que permitem ao braço robótico lidar com uma gama mais ampla de cenários. Espera-se que dentro de um ou dois anos, através da otimização e desenvolvimento de software, as capacidades de generalização do braço robótico sejam significativamente melhoradas.

É claro que existem alguns desafios para atingir o objetivo de generalização das capacidades do braço robótico, nomeadamente a falta de dados. Para treinar um braço robótico que possa lidar com uma variedade de cenários, é necessária uma grande quantidade de dados de alta qualidade para apoiar o aprendizado e a otimização de algoritmos.

Na verdade, grandes modelos podem ser usados ​​como agentes inteligentes na indústria de manufatura e podem chamar diferentes softwares como um todo. Isto significa que em sistemas complexos na indústria de manufatura, vários softwares que originalmente exigiam operação manual ou conexão de programação podem agora ser teoricamente automatizados e integrados através de grandes modelos.

Os usuários só precisam interagir com o modelo grande por meio de linguagem ou ideias, e o modelo grande pode executar automaticamente os programas correspondentes e concluir várias tarefas. No entanto, como diferentes empresas de produção têm diferentes ambientes de produção, sistemas e APIs, a adaptabilidade de grandes modelos em diferentes cenários tornou-se um grande desafio. Mesmo um modelo grande e bem ajustado em uma cena pode não funcionar adequadamente em outro ambiente. Portanto, os desenvolvedores empresariais precisam ajustar cenários específicos para melhorar o desempenho e a precisão de modelos grandes.

Esta limitação afeta diretamente a aplicação generalizada e o desenvolvimento aprofundado de grandes modelos na fabricação. Porque a fabricação muitas vezes envolve operações altamente complexas e refinadas, exigindo cálculos e controle de alta precisão. Se um modelo grande não estiver à altura destas tarefas, não atingirá o seu potencial na produção.

Além das limitações de capacidade dos próprios modelos grandes, as questões de compatibilidade entre sistemas também são um fator importante que restringe a aplicação de modelos grandes na fabricação. Diferentes empresas ou unidades de produção podem utilizar sistemas completamente diferentes, incluindo software, hardware e APIs diferentes. Isso dificulta a aplicação direta de um modelo grande ajustado em um cenário para outro cenário, porque os ambientes de sistema dos dois cenários podem ser completamente diferentes. Essa variabilidade entre sistemas aumenta a complexidade e o custo da aplicação de grandes modelos na fabricação.

Na verdade, existe uma solução. Para indústrias verticais, como manufatura ou finanças e varejo, podem ser definidas interfaces para grandes modelos padronizados. Essas interfaces esclarecerão os recursos específicos que o modelo grande pode fornecer, de modo que todos os sistemas possam chamar as funções do modelo grande por meio dessas interfaces. A vantagem disso é que não importa como o ambiente do sistema mude, desde que sigam essas especificações de interface padronizadas, eles podem ser conectados perfeitamente a modelos grandes.

Portanto, ao definir interfaces padronizadas, os desenvolvedores empresariais podem reduzir bastante a dificuldade de combinar modelos grandes com sistemas diferentes, permitindo que modelos grandes se adaptem mais rapidamente a diferentes ambientes de produção. As interfaces padronizadas ajudam a garantir que modelos grandes possam funcionar de forma estável em vários sistemas e reduzir problemas de compatibilidade causados ​​por diferenças de sistema.

Em geral, grandes modelos são amplamente utilizados em múltiplas indústrias verticais, mas há relativamente poucos casos reais de implementação. Há duas razões principais: Primeiro, as capacidades matemáticas e de engenharia insuficientes tornam difícil que grandes modelos alcancem precisão e estabilidade suficientes em aplicações práticas. Em segundo lugar, o próprio modelo grande faz parte da categoria de aprendizagem automática e a sua natureza baseada em métodos estatísticos determina que não pode ser 100% correto.

Na verdade, a estrutura do cérebro humano não é 100% precisa, mas o julgamento humano é muitas vezes preciso o suficiente para atender às necessidades da maioria dos cenários reais. Em contrapartida, mesmo após o treinamento, a precisão de um modelo grande pode permanecer em torno de 95%, o que pode não ser suficiente em alguns cenários que exigem precisão extremamente alta. Além disso, as capacidades matemáticas de grandes modelos são relativamente pobres, o que também limita a sua aplicação em determinados campos.

Se quiser superar essas limitações, você precisa perceber a importância de suportar instalações para modelos grandes. Ao fornecer os recursos e ferramentas de suporte necessários para grandes modelos, pode compensar a falta de capacidades matemáticas e de engenharia, para que possa se adaptar melhor às necessidades dos cenários de aplicação reais. Tais recursos de apoio podem incluir conjuntos de dados mais precisos, algoritmos mais eficientes, plataformas de hardware mais estáveis, etc.

TMTpost AGI: Por que modelos grandes criam alucinações?

Qi Peng: Às vezes é porque os próprios dados originais estão faltando ou apresentam problemas, o grande modelo de linguagem não consegue aprender o conhecimento correto durante o processo de treinamento e, portanto, não consegue fazer inferências corretas. Este erro não é causado por falhas no próprio modelo de linguagem grande, mas por imprecisões nos dados de entrada.

Se um modelo grande for treinado em um ambiente hipotético onde todas as informações apontam para conclusões erradas, então o modelo grande também fará julgamentos errados com base nessas informações erradas. Isto enfatiza a importante influência dos dados e do ambiente no desempenho de agentes e grandes modelos.

Às vezes, modelos grandes podem gerar respostas que parecem lógicas e ponderadas, mas que na verdade não são verdadeiras ou precisas. Isso é semelhante ao modo como crianças de 5 anos costumam descrever falsas memórias com confiança.

Os adultos também costumam ter alucinações ou erros de memória ao processar informações e memória. Por exemplo, durante os registos de audiências judiciais e análises de casos, as partes envolvidas em situações muito graves e importantes também podem ter falsas memórias ou alucinações devido a diversas pressões, informações enganosas, etc.

TMTpost AGI: Como são refletidas as diferenças no ambiente de mercado de grandes modelos no país e no exterior?

Qi Peng: Actualmente, os países estrangeiros ainda mantêm uma forte confiança na melhoria da tecnologia e não se voltaram completamente para o desenvolvimento de aplicações. Isto pode estar relacionado com o facto de os mercados estrangeiros serem relativamente maduros e estáveis, permitindo que as empresas tenham mais recursos e espaço para se concentrarem na investigação e desenvolvimento tecnológico e na inovação. Em contraste, o mercado interno enfrenta um ambiente competitivo mais acirrado, e a maioria das grandes empresas de P&D de base de modelos recorreram a aplicações em larga escala.

A concorrência no mercado interno não se reflete apenas no número de empresas, mas também nas guerras de preços. Como várias empresas oferecem serviços semelhantes ao mesmo tempo, o preço dos modelos grandes cai rapidamente, tornando difícil para as empresas recuperarem os custos através da prestação de serviços. Em países estrangeiros, as empresas representadas pela ChatGPT podem continuar a obter rendimentos e utilizá-los para mais investigação, desenvolvimento e inovação em virtude da sua posição de liderança em tecnologia e reconhecimento de mercado.

No mercado interno, devido à feroz guerra de preços e à relativamente fraca disponibilidade para pagar, as empresas poderão ter de se concentrar mais no desenvolvimento de novas aplicações, a fim de procurarem avanços comerciais. Embora esta estratégia possa aliviar até certo ponto a pressão económica das empresas, também pode levar a um investimento insuficiente em investigação e desenvolvimento tecnológico, afectando assim a sua competitividade a longo prazo.

TMTpost AGI: Quais são as direções futuras de desenvolvimento do AGI?

Qi Peng: Acredito que a sociedade humana está num período crítico que leva à AGI. Embora a indústria acredite atualmente que certas tecnologias ou modelos não estão no caminho certo para a AGI, eles acreditam que essas tecnologias ou modelos não pertencem à AGI.Mas um dia, no futuro, quando olharmos para trás, para este período da história, poderemos perceber que estamos num importante momento histórico.

Tomemos como exemplo a tecnologia de condução autônoma da Tesla Cinco anos atrás, as pessoas poderiam ter pensado que a tecnologia de direção autônoma de nível L4 levaria de dez a vinte anos para ser alcançada, mas agora essa tecnologia fez um progresso significativo. Este progresso fortuito permite à indústria acreditar que a AGI real pode ser realizada inadvertidamente.

Zhuang Shaobin: Qual é o estado ideal de AGI? A AGI não deve apenas possuir habilidades de pensamento de alto nível, mas, mais importante ainda, ser capaz de ser aplicada na vida real, especialmente na indústria.

Actualmente, as pessoas têm visto muitas aplicações de robôs e tecnologia de IA em dispositivos físicos, o que mostra que as pessoas estão a trabalhar arduamente para libertar a tecnologia de IA dos computadores e transformá-la em entidades tangíveis e activas. Este salto é muito importante para a tecnologia de IA. Somente em aplicações práticas a IA pode criar maior valor.

TMTpost AGI: Além da rota DiT, existem outras rotas ou estratégias possíveis para o desenvolvimento da AGI? Qual é o caminho de implementação do AGI?

Qi Peng: No processo de desenvolvimento da AGI, os humanos precisam ter uma atitude diversa e inclusiva. Se o AGI for comparado ao dever de casa de alunos com notas diferentes em uma turma, mesmo que os alunos tenham habilidades diferentes, todos podem concluir algumas coisas básicas. Da mesma forma, mesmo que existam diferenças de desempenho entre as arquiteturas, todas elas podem completar algumas tarefas básicas, mas possuem habilidades diferentes em tarefas mais difíceis.

Em particular, com o suporte de grandes quantidades de dados e poder computacional, diferentes arquitecturas podem melhorar as suas capacidades básicas, aumentando o número de parâmetros, para que todas possam funcionar a um determinado nível.Ao mesmo tempo, existem também algumas novas tendências no campo de grandes modelos, como mecanismos de atenção linear e outros métodos de otimização. Esses métodos são projetados para reduzir a quantidade de cálculo do modelo Transformer tradicional e melhorar a eficiência.

Quanto ao caminho final de implementação da AGI, na verdade não existe uma rota fixa. Vários modelos e tecnologias atuais têm suas vantagens e limitações. No processo de desenvolvimento da AGI, são necessárias exploração e integração contínuas de múltiplas arquiteturas e tecnologias. Diferentes arquiteturas e tecnologias fornecerão referências e referências importantes para AGI neste processo, promovendo o seu desenvolvimento contínuo. Ao mesmo tempo, é preciso prestar atenção à praticidade e à capacidade de autocorreção do modelo.

TMTpost AGI: Como encontrar um equilíbrio entre inovação em pesquisa e comercialização no campo de grandes modelos nacionais?

Qi Peng: Em termos de pesquisa inovadora, devido aos fundos limitados, o instituto precisa esclarecer os objetivos que pode se esforçar para alcançar, em vez de perseguir cegamente projetos que exigem uma grande quantidade de recursos, como grandes modelos de linguagem que só podem ser realizados por grandes empresas como a Baidu.

Em segundo lugar, a equipa do instituto deve selecionar projetos de investigação que possam ser realizados com determinados esforços e que tenham valor prático. Por exemplo, o modelo semelhante ao Sora baseado na arquitetura de atenção de acoplamento espaço-temporal Latte desenvolvido pela equipe toma como exemplo a geração de vídeo de alta definição de 16 segundos. Este é um objetivo que o instituto pode se esforçar para alcançar com os recursos existentes. Ao mesmo tempo, o instituto também precisa escolher algumas direções de pesquisa que possam exigir menos recursos, como otimização de modelos ou aplicações de apoio.

Em termos de comercialização, o instituto deverá focar-se na implementação do AIGC, especialmente na questão da “última milha”. Isto significa que os institutos de investigação precisam de se concentrar em como transformar os resultados da investigação em produtos ou serviços reais para satisfazer a procura do mercado e conseguir a comercialização.

Embora o QI dos grandes modelos possa continuar a aumentar, dos cinco aos dez aos dezoito anos, e até atingir o nível dos melhores especialistas, tal sistema exigirá sempre instalações ou ferramentas de apoio para apoiar o seu funcionamento e aplicação. Os custos de I&D destas instalações de apoio podem ser relativamente baixos, mas desempenham um papel crucial na promoção da aplicação prática e do valor social de grandes modelos.

Portanto, as equipas das instituições de investigação nacionais no domínio da IA ​​devem concentrar-se principalmente na investigação e desenvolvimento destas instalações de apoio para apoiar a operação e implementação de grandes modelos.

(Este artigo foi publicado pela primeira vez no Titanium Media App, autor|Dou Yueyi, Lin Zhijia, editor|Lin Zhijia)