notícias

o texto completo do discurso de shun xiangyang no fórum jovens cientistas 50²: 10 reflexões sobre grandes modelos

2024-09-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

em 28 de setembro, o 4º “fórum de jovens cientistas 50²” foi realizado na southern university of science and technology. shen xiangyang, um acadêmico estrangeiro da academia nacional de engenharia, fez um discurso sobre “como devemos pensar sobre grandes modelos no. era da inteligência artificial geral" e deu suas 10 idéias sobre modelos grandes.

a seguir estão os conteúdos específicos de seus 10 pensamentos:

1. o poder computacional é o limite: os requisitos de poder computacional de grandes modelos têm sido enormes nos últimos 10 anos. hoje vamos fazer um grande modelo de inteligência artificial, dizendo que a estagnação fere os sentimentos e a falta de bloqueio significa ausência de sentimentos.

2. dados sobre dados: se o gpt-5 for lançado, o volume de dados poderá chegar a 200t. mas não há tantos dados bons na internet. após a limpeza, 20t pode ser quase o máximo. portanto, no futuro, para construir o gpt-5, além dos dados existentes, mais dados multimodais e até dados sintetizados artificialmente. será necessário.

3. o próximo capítulo do grande modelo: há muito trabalho de pesquisa científica multimodal a ser feito. acredito que uma direção muito importante é a unificação da compreensão e geração multimodal.

4. mudança de paradigma da inteligência artificial: após o lançamento do o1, a ideia original de pré-treinamento do gpt mudou para o atual caminho de aprendizagem independente, que é um processo de fortalecimento da aprendizagem na etapa de inferência e autoaprendizagem contínua. todo o processo é muito semelhante à forma como os humanos pensam e analisam os problemas, e também requer muito poder computacional.

5. grandes modelos abrangem milhares de indústrias: na onda de construção de grandes modelos na china, cada vez mais modelos grandes são usados ​​nas indústrias. esta tendência é definitivamente assim, e a proporção de modelos grandes em geral se tornará cada vez menor no futuro.

6. agente ai, da visão à implementação: o superaplicativo está presente desde o início. este superaplicativo é um superassistente e um superagente.

7. código aberto versus código fechado: acho que o llama do meta não é o código aberto tradicional. ele apenas abre um modelo e não fornece o código e os dados originais. mentes para realmente compreender o quadro geral do trabalho de código fechado do sistema modelo.

8. preste atenção à governação da ia: a inteligência artificial tem um enorme impacto em milhares de indústrias e em toda a sociedade, e todos devem enfrentá-lo juntos.

9. repensar a relação homem-computador: somente compreendendo verdadeiramente a interação homem-computador poderemos nos tornar líderes verdadeiramente valiosos do ponto de vista comercial para cada geração de empresas de alta tecnologia. fale agoraopenaiadicionar a microsoft significa que esta era ainda é muito cedo. eles estão à frente, mas ainda há muito espaço para imaginação no futuro.

10. a natureza da inteligência: embora os grandes modelos tenham chocado a todos, não temos nenhuma teoria sobre grandes modelos e aprendizagem profunda. sobreiao surgimento do problema foi apenas falado, mas não explicado com clareza.

"young scientists 50² forum" é o encontro acadêmico anual da new cornerstone science foundation, organizado poruniversidade sul de ciência e tecnologia, divisão de valor social sustentável da tencent e new cornerstone science foundation organizadas em conjunto. a new cornerstone science foundation foi criada e operada de forma independente pela tencent com um investimento de 10 bilhões de yuans ao longo de 10 anos. é atualmente uma das maiores fundações científicas de bem-estar público na china. seu estabelecimento e operação são o investimento de longo prazo da tencent em tecnologia para. bom. ações concretas para financiamento da ciência.

o "fórum jovens cientistas 50²" é uma plataforma de intercâmbio acadêmico interdisciplinar para os vencedores do "prêmio de exploração científica". o "prêmio de exploração científica" foi criado em 2018. é um prêmio de bem-estar público financiado pela new cornerstone science foundation e liderado por cientistas. é atualmente um dos maiores projetos de financiamento para jovens talentos científicos e tecnológicos na china. cada vencedor compartilhará sua grande ideia e suas últimas explorações no fórum pelo menos uma vez durante o período de financiamento de cinco anos. "50²" significa que os 50 jovens cientistas selecionados anualmente pelo "prêmio de exploração científica" terão um impacto significativo nos avanços científicos e tecnológicos nos próximos 50 anos.

os seguintes sãoshen xiang yango texto completo do discurso neste fórum:

estou muito feliz por ter a oportunidade de compartilhar com vocês alguns aprendizados e experiências recentes em inteligência artificial em shenzhen hoje.

vou continuaryao qizhio tema da inteligência artificial de que o sr. sir falou, deixe-me contar-lhes algumas das coisas que estamos fazendo agora na era dos grandes modelos, especialmente olhando para esta questão do ponto de vista da integração tecnológica e da transição industrial.

na verdade, não se trata apenas da importância do desenvolvimento tecnológico na era da inteligência artificial. toda a história do desenvolvimento humano é uma história de desenvolvimento tecnológico. não vamos olhar para trás, para coisas como perfurar madeira para fazer fogo ou inventar a roda – vamos apenas olhar para os muitos avanços notáveis ​​na física nos últimos 100 anos, e os avanços na inteligência artificial e na ciência da computação nos últimos 70 anos. podemos ver que houve muitas oportunidades de desenvolvimento.

o tema de que falamos hoje é inteligência artificial e grandes modelos. nos últimos anos, todos devem ter ficado chocados com a nova experiência de inteligência artificial, passo a passo. mesmo que eu tenha trabalhado com inteligência artificial durante toda a minha vida, seria difícil imaginar a situação hoje, há alguns anos.

quero falar de três exemplos: o primeiro é gerar texto a partir de texto, o segundo é gerar imagens a partir de texto e o terceiro é gerar vídeo a partir de texto. há pouco falamos sobre um sistema de inteligência artificial como o chatgpt, que não está disponível apenas internacionalmente, mas também nacionalmente. por exemplo, antes de vir aqui para fazer um discurso hoje, perguntei ao chatgpt que iria participar do fórum young scientists 50² da tencent e fazer um discurso sobre que tipo de tópicos devo falar, dada a minha formação? você pode achar um pouco engraçado, mas na verdade, depois de usá-lo, você acha que é muito bom.

todo mundo conhece o chatgpt há dois anos, a openai lançou um sistema que gera gráficos. você dá um parágrafo e ele gera um gráfico. há sete meses, lançou sora. você dá uma mensagem e gera um vídeo de alta definição de 60 segundos para você, como este vídeo de caminhada pelas ruas de tóquio. (não mostrarei o vídeo devido a limitações de tempo.)

deixe-me dar um exemplo deste diagrama vicentino. sou formado em computação gráfica e acho que tenho uma boa noção se uma foto é boa ou ruim. há dois anos, esta foto foi publicada. foi a primeira foto gerada por inteligência artificial na história da humanidade e apareceu na capa de uma revista de moda americana ("cosmopolitan"). um artista digital de são francisco utilizou o sistema openai e fez uma pergunta, que resultou neste resultado. esta passagem é: no vasto céu estrelado, uma astronauta desfilava em marte e caminhava em direção a uma lente grande angular. não tenho muito talento artístico, mas fiquei muito chocado quando vi esta foto, acho que você concordará comigo. quando a inteligência artificial desenha tal imagem, realmente se parece com uma astronauta. portanto, esta inteligência artificial atingiu um nível muito inteligente.

hoje temos tecnologias incríveis e até produtos incríveis. também estamos trabalhando muito em casa e construindo modelos em grande escala. da tecnologia aos modelos e às aplicações subsequentes, estamos trabalhando em todos os aspectos. agora há pouco, o acadêmico yao também falou sobre muitos dos trabalhos mais recentes da universidade de tsinghua. então, quero compartilhar com vocês como devemos pensar sobre grandes modelos na era da inteligência artificial geral. gostaria de compartilhar algumas de minhas próprias opiniões.

o primeiro pensamento é que o poder da computação é o limite.

a coisa mais importante sobre a inteligência artificial geral de hoje, os grandes modelos e o aprendizado profundo é o crescimento geral do poder de computação da inteligência artificial nos últimos anos.

nos últimos 10 anos, o poder de computação utilizado pelos grandes modelos aumentou, inicialmente seis a sete vezes por ano e, posteriormente, mais de quatro vezes por ano. deixe-me fazer uma pergunta agora: se algo aumenta quatro vezes por ano, quantas vezes aumentará em 10 anos? você pensa sobre isso primeiro, voltarei a esse assunto mais tarde.

todos sabem que a empresa que mais se beneficia desta onda de desenvolvimento da inteligência artificial énvidia, as remessas da nvidia estão aumentando ano a ano, seu poder de computação está aumentando gradualmente e o valor de mercado de toda a empresa tornou-se uma das três empresas no mundo (microsoft, apple, nvidia) com um valor de mercado de us$ 3 trilhões. o mais importante é a demanda de todos por poder de computação todos os anos. o número de chips nvidia adquiridos em 2024 ainda está crescendo rapidamente. por exemplo, elon musk está construindo um cluster de 100.000 placas h100. é ainda mais difícil construir um sistema de 100.000 placas. os requisitos de rede são muito altos.

hoje estamos falando de poder de computação e modelos grandes. o mais importante são as leis de escala (poder de computação e dados). infelizmente, quando a quantidade total de dados aumenta, o crescimento do poder computacional não é um crescimento linear, mas o crescimento do poder computacional é mais parecido com um crescimento quadrado.

porque quando o modelo fica maior, a quantidade de dados precisa ser aumentada para treinar o modelo, então, relativamente falando, é mais como um crescimento quadrado. portanto, os requisitos de poder de computação têm sido enormes nos últimos 10 anos. então direi apenas uma coisa: hoje vou fazer um grande modelo de inteligência artificial. se estiver travado, isso machuca seus sentimentos.

acabei de fazer uma pergunta: se aumenta 4 vezes por ano, quantas vezes aumentará em 10 anos? todos nós que estudamos computadores sabemos que existe algo chamado “lei de moore”, o que significa que o poder de computação dobra a cada 18 meses ou mais. foi assim que a intel se desenvolveu ao longo dos anos. por que a nvidia ultrapassou a intel? uma razão muito importante é que sua taxa de crescimento é diferente. se duplicar em 18 meses, provavelmente aumentará 100 vezes em 10 anos, o que também é notável; se aumentar 4 vezes por ano, será 1 milhão de vezes em 10 anos. se você pensar desta forma, é compreensível que o valor de mercado da nvidia tenha aumentado tão rapidamente nos últimos 10 anos.

o segundo pensamento é sobre dados.

poder computacional, algoritmos e dados são três fatores importantes para a inteligência artificial. mencionei anteriormente que precisamos de muitos dados para treinar a inteligência artificial geral. quando o chatgpt3 foi lançado, ele ainda estava em fase de publicação de artigos e foi dito que precisava de 2 trilhões de dados de token; quando o gpt-4 fosse lançado, seriam cerca de 12t. hoje estima-se que tenha quantidade superior a 20t. qualquer pessoa que se preocupa com inteligência artificial sabe que todo mundo está esperando há muito tempo o lançamento do gpt5, mas ele não foi lançado. se o gpt-5 for lançado, meu julgamento pessoal pode ser que a quantidade de dados chegará a 200t. . olhando para trás, não há muitos dados bons na internet. depois de limpá-los, 20t pode estar quase no topo. portanto, no futuro, se você quiser construir o gpt-5, além dos dados existentes, você precisará. mais dados multimodais, até mesmo dados sintetizados artificialmente.

uma coisa muito interessante é que nos últimos trinta ou quarenta anos todos compartilharam suas informações online. no passado, pensávamos que estávamos trabalhando para mecanismos de busca. o que é ainda mais notável agora é que nosso acúmulo nos últimos trinta ou quarenta. anos é por um momento como o chatgpt, ele integrou tudo e aprendeu esse modelo de inteligência artificial por meio de um poderoso poder de computação.

terceiro pensamento, o próximo capítulo do grande modelo.

você trabalhou até hoje, o que deve fazer a seguir? o primeiro é o modelo de linguagem. representado pelo chatgpt, sua tecnologia subjacente é o processamento de linguagem natural. o que todos estão trabalhando hoje é um modelo multimodal, representado pelo gpt-4, e muitas das tecnologias nele contidas são visão computacional. seguindo em frente, precisamos desenvolver a inteligência incorporada. qual é o propósito da inteligência incorporada? na verdade, precisamos de construir um modelo mundial. mesmo que seja multimodal, não existe um modelo físico subjacente, por isso precisamos de construir um tal modelo mundial. o modelo mundial significa que você não só precisa ler milhares de livros, mas também viajar milhares de quilômetros para alimentar seu cérebro com mais conhecimento do mundo. portanto, deveríamos fazer robôs. acho que shenzhen deveria decidir construir robôs e inteligência incorporada. existe uma pista especial nos robôs chamada direção autônoma. a direção autônoma é um robô especial, mas ele dirige em uma determinada rota.

o que fazer? há muito trabalho de pesquisa científica multimodal a ser feito e acredito que uma direção muito importante é a unificação da compreensão e geração multimodal. mesmo que o sora seja construído, ele será separado. a geração de multimódulos e a compreensão de multimódulos não são unificadas. há muito trabalho de pesquisa científica que podemos fazer nesta área.

para dar um exemplo, vários dos meus alunos criaram uma grande empresa modelo, a step stars, e seu entendimento multimodal foi muito bom. se você mostrar uma imagem para uma inteligência artificial, por que o comportamento na imagem é chamado de "habilidade inválida", a ia explicará que a imagem parece uma criança rolando no chão, mas sua mãe é indiferente, e ela olha para o celular e bebe bebidas, então essa habilidade das crianças é chamada de habilidade inválida. a ia agora está cada vez melhor na compreensão de gráficos.

o quarto pensamento é a mudança de paradigma da inteligência artificial.

há duas semanas, a openai lançou seu modelo mais recente, o1. mencionei anteriormente que o gpt está se desenvolvendo depois do gpt4, o gpt5 não foi lançado. todo mundo está pensando, se for apenas um aumento nos parâmetros dos modelos grandes, já atingiu o seu pico? ninguém sabe, ainda não foi lançado e não fizemos um modelo maior na china.

mas agora surgiu uma nova dimensão, que não é fazer o pré-treinamento anterior (expansão), mas sim fazer a expansão ao fazer inferência. mudou da ideia original do gpt para o atual caminho de aprendizagem independente, que é um processo de fortalecimento da aprendizagem na etapa de raciocínio e autoaprendizagem contínua.

antigamente fazíamos um pré-treinamento, basicamente prevendo qual será a próxima palavra e qual será o próximo token. agora a nova ideia é fazer um rascunho e tentar ver se esse caminho está certo e aquele caminho está certo. assim como o cérebro humano. no pensamento, existe um sistema rápido e um sistema lento. assim como quando resolvemos problemas de matemática, primeiro fazemos um rascunho para ver como funciona. existe uma cadeia de pensamento e depois olhamos. nas oportunidades no processo de otimização da cadeia de pensamento. até agora, apenas a openai lançou tal sistema, e encorajo todos a dar uma olhada em alguns exemplos aqui.

o mais importante é que todo o processo seja muito parecido com a forma como o ser humano pensa e analisa os problemas, elabora, verifica, corrige erros e recomeça. esse espaço para pensar será muito grande. fazer isso também requer muito poder de computação.

o quinto pensamento é que os grandes modelos estão varrendo milhares de indústrias.

todas as empresas têm que enfrentar as oportunidades trazidas pelos modelos grandes, mas nem todas as empresas precisam fazer um modelo universal grande. se você não tem nem 10.000 cartões, não há chance de fazer um modelo universal grande. modelo grande o modelo deve ter pelo menos 10.000 cartões.

por exemplo, quando o gpt4 foi lançado, seu volume total de treinamento era de 2×10^25 flops. com uma quantidade tão grande de treinamento, levará um ano para executar 10.000 cartões a100 para atingir esse valor. se esse valor não puder ser alcançado, não haverá um modelo verdadeiramente grande e universal. com o grande modelo geral, podemos construir nossos próprios grandes modelos da indústria com base nisso, como finanças e seguros. talvez as quilocalorias possam funcionar muito bem e possamos fazer alguns ajustes nisso. para uma empresa, você tem seus próprios dados, incluindo dados internos e dados de clientes. se você retirar esses dados e usar dezenas ou centenas de cartões, poderá criar um modelo muito bom para sua empresa. portanto, é construído camada por camada.

claro que existe uma outra dimensão muito importante que me agrada muito, que é o modelo pessoal do futuro. hoje, usamos gradualmente pcs e telefones celulares (os dados se acumularam até certo ponto) e nos entendemos cada vez mais. no futuro, acredito que haverá uma ia superinteligente para ajudá-lo. dados, ele pode construir seu próprio modelo pessoal. isso está na parte do terminal (pessoal), e os telefones celulares são uma coisa natural. em termos de pc, empresas de pc como a microsoft e a lenovo também estão promovendo o conceito de ai pc, portanto, também existem essas oportunidades.

na onda de construção de grandes modelos na china, cada vez mais modelos de grande porte da indústria estão incluídos. aqui está um exemplo. como os grandes modelos da china precisam ser aprovados pela administração do ciberespaço da china antes de serem colocados online, até o final de julho deste ano, um total de 197 modelos na china foram aprovados pela administração do ciberespaço da china, de dos quais 70% eram modelos de grande porte da indústria e 30% eram modelos de grande porte em geral. esta tendência é definitivamente assim, e a proporção de modelos grandes em geral se tornará cada vez menor no futuro. por exemplo, podemos fazer um modelo financeiro em um modelo geral de grande porte. este é um modelo grande feito por uma empresa em xangai para seus clientes financeiros. por exemplo, quando o relatório financeiro da nvidia for publicado, você poderá resumir imediatamente seus destaques e problemas.

o sexto pensamento é o agente ai, da visão à implementação.

hoje vemos quais são as maiores super aplicações de grandes modelos e onde estão as maiores oportunidades. muitas pessoas ainda estão tentando encontrar um super aplicativo. na verdade, o superaplicativo existe desde o início. esse superaplicativo é um superassistente, um superagente.

gates e eu trabalhamos juntos na microsoft por muitos anos e ambos estávamos pensando sobre esse assunto. o que há de tão difícil nisso? a dificuldade está em entender um fluxo de trabalho quando você realmente deseja fazer um trabalho útil. se você fizer uma pergunta, ela poderá ser detalhada passo a passo. o que posso fazer hoje é algo que tenha um certo grau de influência, como ser atendente de atendimento ou assistente pessoal. mas muitos trabalhos não podem ser realizados. você precisa ser um cérebro digital. o modelo grande abaixo é apenas o primeiro passo. a capacidade do modelo grande não é poderosa o suficiente para ajudá-lo a fazer todo o trabalho acima passo a passo. porque você realmente quer fazer um agente assim, para que ele possa fazer as coisas, ele precisa entender quais são os seguintes problemas, e cada parte tem as habilidades correspondentes.

já fizemos muitos bons exemplos usando o modelo atual. por exemplo, você pode ser um consultor de saúde de ia, falar sobre sua compreensão de cosméticos e recomendar cosméticos. a seguir, você verá muitas aplicações nesta área.

o sétimo pensamento é código aberto e código fechado.

no desenvolvimento da ciência e da tecnologia mundial nas últimas décadas, especialmente no desenvolvimento da ciência e da tecnologia da china, duas coisas são muito importantes.

a primeira é o surgimento da internet. com a internet, você pode encontrar todos os documentos e materiais online.

o segundo é o código aberto. o código aberto permite reduzir drasticamente a distância com os líderes ao fazer inscrições. mas código aberto não é o mesmo que código aberto para grandes modelos e bancos de dados, embora as capacidades do código aberto estejam agora próximas das do código fechado. existem também muitas empresas na china que estão fazendo coisas de código aberto. a melhor ferramenta de código aberto hoje é o llama 3.1 da meta, que afirma estar próximo do openai. acho que não. acho que não é o código aberto tradicional. ele apenas abre um modelo e não fornece o código e os dados originais. portanto, quando usamos sistemas de código aberto, também devemos decidir. compreender verdadeiramente o fechamento do sistema de grandes modelos de trabalho.

o oitavo pensamento é prestar atenção à governança da ia.

como a ia está a desenvolver-se tão rapidamente, o mundo atribui grande importância à segurança da ia. porque o impacto desta questão é tão grande. a inteligência artificial tem um enorme impacto em milhares de indústrias e em toda a sociedade. o desenvolvimento do mundo inteiro exige que todos o enfrentem juntos.

o nono pensamento é repensar a relação homem-máquina.

acabei de apresentar o texto de vincent, as fotos de vincent e o vídeo de vincent - quanto disso é a inteligência da máquina e quanto disso é o choque que a interação humano-computador nos traz?

há cerca de 10 anos, o colunista do "new york times" john markoff escreveu um livro que gosto muito, "machine of loving grace", que resumia as duas linhas de desenvolvimento passado da tecnologia: uma é inteligência artificial e a outra é ia (; aumento inteligente), é o aprimoramento da inteligência, que é a interação humano-computador. depois que os computadores se tornaram disponíveis, eles ajudaram as pessoas a fazer muitas coisas, e jogar xadrez é um exemplo.

na verdade, só compreendendo verdadeiramente a interacção humano-computador poderemos tornar-nos líderes com valor comercial real para cada geração de empresas de alta tecnologia. a interface de inteligência artificial de hoje tornou-se muito clara, que é o processo de diálogo. o representante de hoje é o chatgpt. mas falar sobre openai mais microsoft significa que esta era ainda é muito cedo. eles estão à frente, mas ainda há muito espaço para imaginação no futuro.

o décimo pensamento é a natureza da inteligência.

embora os grandes modelos tenham chocado a todos hoje, não temos nenhuma teoria sobre grandes modelos e aprendizagem profunda. hoje, adoraríamos ter qualquer teoria que nos parecesse boa. ao contrário da física, do ponto de vista físico, tudo, desde o vasto céu estrelado até o menor quantum, é descrito por algumas belas leis físicas. hoje não existe tal teoria para a inteligência artificial, que não tem explicabilidade ou robustez. a estrutura atual de aprendizagem profunda não consegue alcançar a verdadeira inteligência artificial geral.

em relação ao surgimento da inteligência artificial, todos apenas falaram sobre isso, mas não explicaram com clareza. por que surge a inteligência quando o modelo é suficientemente grande? por que o modelo 70b pode emergir com inteligência? não existe tal verdade. portanto, também estamos trabalhando muito nessa questão. no verão passado, também organizei um seminário na universidade de ciência e tecnologia de hong kong com o tema "teoria matemática para inteligência emergente". ao discutir inteligência emergente, alguns princípios científicos e matemáticos precisam ser explicados claramente e mais pessoas que estejam dispostas a fazê-lo. explore a necessidade de participar. entre, especialmente com o surgimento dos projetos “prêmio de exploração científica” e “novo pesquisador cornerstone” da tencent, mais jovens cientistas se juntaram e têm mais confiança e crença para se aprofundar na difícil tarefa de fazer. avanços para o desenvolvimento futuro da inteligência artificial entre as questões.

parabéns novamente a todos os vencedores e jovens cientistas. o desenvolvimento da ciência e da tecnologia precisa ser feito pelos jovens de geração em geração, principalmente pela inteligência artificial. obrigado a todos novamente.