notícias

andrej karpathy, ex-membro fundador da openai: tesla pode alcançar agi no campo da direção autônoma

2024-09-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

o conteúdo deste artigo é“o que investir na agix”do 6 artigos.é uma combinação de 40 empresas de “alta pureza de ia” selecionadas entre milhares de empresas de tecnologia listadas em todo o mundo. o índice agix é a coordenada para posicionar o processo agi e também fornece uma ferramenta valiosa para os investidores capturarem ai-alfa. na seção “o que investir no agix”, realizaremos uma análise aprofundada das empresas do portfólio do índice agix e forneceremos uma referência abrangente de investimento em ia para o mercado.


tesla é uma das 10 maiores holdings do portfólio do índice agix. o investimento em grande escala da empresa em direção autônoma e robôs nos últimos 10 anos deu-lhe a oportunidade de se tornar o player agi mais forte no mundo físico.recentemente, a tesla inaugurou a segunda onda de aumento dos preços das ações em 2024, não apenas atingindo o nível mais alto dos últimos dois meses, mas também apagando todas as quedas deste ano e fazendo com que a ia seja o fator mais importante que impulsiona esta rodada de crescimento. .


em 10 de outubro, a tesla lançará oficialmente o robotaxi. de acordo com a análise da ark, espera-se que, até 2029, quase 90% do valor empresarial e dos lucros da tesla sejam atribuídos ao negócio de táxis autônomos.esta semana, a tesla também baixou o preço das opções fsd para impulsionar as vendas de carros novos. ao mesmo tempo, o aumento nas taxas de opções fsd também ajudará a tesla a coletar mais dados para melhorar o desempenho do fsd. embora o robô optimus ainda esteja longe da comercialização em grande escala, se o optimus for usado para substituir os trabalhadores da fábrica da tesla e melhorar a eficiência humana, os lucros podem ser muito melhorados. referindo-se à modelagem de tesla da ark, se o optimus for implementado na fábrica da tesla no. próximos cinco anos a implementação pode poupar até 3 a 4 mil milhões de dólares em custos.



                      💡 índice💡                           

01 a direção autônoma é muito semelhante ao agi

02 tesla também é uma empresa de robótica

03 pequenos modelos e “empresas llms”

04 educação na era da ia




01.


a direção autônoma é muito semelhante ao agi


sara guo:o que você acha do desenvolvimento da direção autônoma hoje? quanto tempo até vermos a condução autônoma se generalizar?


andrej karpatia: trabalho na área de direção autônoma há 5 anos e acho essa área muito interessante. a julgar pelo desenvolvimento actual deste campo, a condução autónoma e a agi são muito semelhantes. talvez também seja porque estou familiarizado com a área da condução autónoma, mas sinto que estamos próximos da agi no domínio da condução autónoma. por exemplo, já existem produtos formados que podem ser usados ​​​​pelos usuários mediante o pagamento de uma taxa. waymo é um bom exemplo agora é muito comum em são francisco e muitas pessoas já experimentaram o waymo e ele se tornou um produto comercial.


minha primeira experiência com waymo foi há quase 10 anos. um amigo trabalhava para waymo na época e me levou para dar uma volta no quarteirão inteiro. do ponto de vista técnico, waymo há 10 anos. já está muito bom, mas o processo desde a demonstração até se tornar um produto implantado em grande escala nas cidades levou 10 anos. é claro que a waymo ainda está em expansão hoje.


elad gil:demorou 10 anos desde a demonstração até o produto pago de sucesso. até que ponto isso se deve à regulamentação? quando você acha que a tecnologia de direção autônoma estará pronta?


andrej karpatia:acho que a condução autônoma atingiu um nível bastante maduro há 10 anos, mas uma demonstração de 30 minutos não pode demonstrar totalmente todos os desafios que enfrentaram nos últimos 10 anos. claro, haverá. existem algumas razões regulatórias.


mas penso que atingimos, até certo ponto, a agi no domínio da condução autónoma. ao mesmo tempo, existe uma grande lacuna entre a demonstração e a promoção global.embora o waymo já esteja funcionando em são francisco, ainda não teve impacto e resultados muito substanciais na perspectiva de popularização no mercado global. é aqui que penso que agi e condução autónoma são semelhantes.


de volta ao campo da direção autônoma,muitas pessoas pensam que waymo está tecnologicamente à frente de tesla, mas eu pessoalmente acho que tesla está realmente mais à frente de waymo. essa visão pode não ser a mesma da voz dominante atual, mas tenho confiança na direção autônoma de tesla.


tesla enfrenta problemas de software, enquanto os desafios de waymo vêm de hardware. em comparação, os problemas de software são mais fáceis de resolver. a tesla implantou veículos em grande escala em todo o mundo, enquanto a waymo ainda não atingiu essa escala. portanto, acredito que uma vez que o sistema tesla possa ser implementado em larga escala e funcionar de forma eficiente, os resultados serão surpreendentes. acabei de testar a versão mais recente do fsd ontem e a experiência de direção foi muito tranquila. uma série de operações do sistema de direção autônoma da tesla me faz sentir que a tesla alcançou resultados muito bons na direção autônoma hoje.


no geral, acho que o maior desafio para a direção autônoma da tesla vem da perspectiva do software, enquanto os desafios da waymo vêm mais do hardware. do ponto de vista de hoje, waymo parece estar em uma posição forte, mas acredito que se você olhar para isso ao longo de um período de 10 anos, a tesla estará mais à frente em termos de escala e modelo de receita.



elad gil:quanto tempo você acha que levará para resolver um problema de software? você acabou de mencionar que os veículos da waymo têm muitos lidars e sensores caros. esses hardwares fornecem suporte para o sistema de software. se, como o tesla, depender apenas do sistema de câmeras, ele poderá não apenas reduzir significativamente os custos, mas também reduzir a complexidade do sistema. sistema e aplicável a mais modelos. quando essa mudança provavelmente será realizada?


andrej karpatia: pessoalmente, espero que isso seja resolvido nos próximos anos. na verdade, tesla também usou muitos sensores caros na fase de treinamento e também fez muitas tecnologias que não podem ser promovidas em grande escala, como wirelesspesquisa de modelo de confiança de sensor de linha e mapeamento de mapas, etc.durante a fase de testes, a tesla simplificou esses dados em um pacote de testes que dependia apenas do sistema de visão e o implantou em veículos de produção. muitas pessoas podem não perceber que esta é, na verdade, uma “arbitragem” muito inteligente entre sensores e custos. como a câmera pode capturar informações suficientes, a rede neural também é capaz de processar essas informações. durante a fase de treinamento, esses sensores são muito úteis, mas durante a fase de testes, o seu papel não é tão importante. então, acho que só confiar na câmera é o suficiente.


elad gil: uma tendência recente no campo da direção autônoma é a mudança gradual de algoritmos heurísticos projetados com base em casos extremos para o aprendizado profundo de ponta a ponta. quais são as razões e a lógica por trás disso?


andrej karpatia: de ponta a ponta é na verdade o que queríamos fazer desde o início. quando entrei na tesla, discutimos que as redes neurais acabariam por substituir toda a pilha de tecnologia. havia muito código c++ no sistema naquela época, mas hoje há muito pouco código c++ em execução no conjunto de testes. as redes neurais as substituíram gradualmente. no início, as redes neurais eram usadas apenas para processamento de reconhecimento de imagens e, posteriormente, expandidas para processar vários quadros de imagens e gerar resultados de predição. com o tempo, os códigos c++ foram gradualmente substituídos. em última análise, o sistema só precisa fornecer instruções de direção e a rede neural pode gerar os resultados.


então, o que tesla está fazendo é dirigir com ia de ponta a ponta, mas waymo provavelmente não escolheu esse caminho técnico. embora tenham tentado, os resultados não são satisfatórios.


pessoalmente, acredito que o caminho de ponta a ponta é correto e a direção inevitável para o desenvolvimento futuro.se você olhar dessa perspectiva, o sistema tesla provavelmente se desenvolverá em uma rede neural ponta a ponta em dez anos, onde o fluxo de vídeo é inserido e as instruções de direção são emitidas diretamente. é claro que este processo requer a melhoria gradual de cada módulo do sistema. não creio que todas as actuais previsões intermédias sejam enganosas no processo de desenvolvimento; pelo contrário, são uma parte importante do sistema; porque ao treinar uma rede neural totalmente ponta a ponta, os sinais de supervisão para simular a direção humana são muito limitados e não podem suportar o treinamento de uma rede tão grande. as previsões intermediárias podem ajudar a desenvolver recursos e detectores, tornando o problema de ponta a ponta mais viável. então, meu palpite é que eles estão fazendo muito pré-treinamento para permitir um ajuste fino de ponta a ponta no futuro.


no geral, acho que o processo de substituição de toda a pilha de tecnologia pelas redes neurais é necessário, mas o processo precisa ser gradual. as tentativas atuais da tesla mostraram resultados iniciais, deixando as pessoas cheias de expectativas para o futuro.


💡

previsões intermediárias:os resultados ou saídas não finais gerados durante o treinamento ou inferência do modelo. essas previsões servem como etapas intermediárias em um processo de cálculo em várias etapas, ajudando o modelo a se aproximar gradualmente do resultado final. eles são úteis em tarefas complexas, como tomada de decisão hierárquica, tradução automática ou aprendizagem multitarefa, onde esses resultados intermediários podem ser avaliados para otimizar o desempenho do modelo, corrigir vieses ou melhorar o treinamento do modelo. além disso, as previsões intermediárias ajudam a explicar o funcionamento interno do modelo e podem fornecer uma referência para o ajuste do modelo.




02.


tesla também é uma empresa de robótica


sara guo: antes de deixar a tesla, você também participou do projeto do robô humanóide da tesla. da condução autónoma aos robôs, que tecnologias podem ser transferidas?


andrej karpatia: basicamente todas as tecnologias podem ser migradas. mas acho que as pessoas podem não perceber isso ainda.não há muita diferença entre robôs e carros. acho que simplesmente entender a tesla como uma empresa automobilística é, na verdade, um mal-entendido.


a tesla é na verdade uma grande empresa de robótica que não apenas produz carros, mas também fabrica máquinas automatizadas. a produção em massa é um campo muito diferente, e acho que a tesla é uma empresa especializada em robótica em larga escala.


a migração da tecnologia automotiva para a robótica humanóide não exige muito trabalho extra. na verdade, o primeiro robô optimus até pensava que era um carro porque usava exatamente o mesmo computador e câmeras que um carro. curiosamente, estávamos executando uma rede neural projetada para carros no robô, e quando o robô andava pelo escritório, o “espaço para dirigir” que ele identificou tornou-se na verdade um “espaço transitável”. embora seja necessário algum ajuste fino, isso demonstra a versatilidade da tecnologia.


sara guo: de uma certa perspectiva, a tesla pode de fato ser considerada uma empresa de robótica, e muitas tecnologias essenciais podem ser migradas entre plataformas. a parte principal que falta aos robôs de produção é, na verdade, o mecanismo de execução e os dados de ação relacionados.


andrej karpatia: sim, embora alguns locais ainda não sejam perfeitos, quero enfatizar que muitas tecnologias podem ser migradas diretamente. por exemplo, o projeto optimus começou muito rapidamente depois de elon musk ter anunciado o projeto, as equipas e ferramentas relevantes foram rapidamente implementadas. recursos como modelos cad, cadeias de suprimentos, etc. foram preparados rapidamente. naquela época, senti que a tesla já tinha internamente uma grande quantidade de recursos de fabricação de robôs, todos retirados de carros tesla. essa sensação é um pouco parecida com a mostrada em “transformers”. depois que o carro se transforma em robô, tudo fica igual, mas algumas coisas precisam ser um pouco ajustadas e reconfiguradas. além do hardware, toda a forma de pensar, as equipes de anotação, a coordenação entre as diversas seções de componentes, etc. mas, em geral, alguma experiência e recursos podem ser transferidos.


elad gil:qual você acha que será o primeiro cenário de aplicação de robôs humanóides?


andrej karpatia: muitas pessoas pensariam que os robôs podem nos ajudar nas tarefas diárias, como lavar roupa. mas penso que pode demorar muito tempo até que estas tecnologias sejam realmente implementadas. não creio que o direto ao consumidor seja um bom ponto de partida para robôs humanóides, porque ainda não podemos garantir totalmente a segurança dos robôs ao interagir com pessoas como os idosos, como evitar acidentes como "derrubar o velhinha", esse tipo de situação trará enormes riscos jurídicos, então acho que essa direção não é adequada. mesmo em muitos cenários de interação simples, é provável que os robôs derrubem as pessoas diretamente.


mas a tecnologia atual não está suficientemente madura e precisa de mais melhorias. portanto, acho que para os desenvolvedores de robôs, o melhor cliente no primeiro estágio é o próprio robô. se os desenvolvedores de robôs conseguirem perceber isso, a primeira coisa a fazer é usar essas tecnologias internamente para incubação, e então elas poderão ser aplicadas nas fábricas. , como movimentação de materiais (manuseio de materiais) e outras áreas, para que não haja necessidade de assinatura de contrato com terceiros, evitando o incômodo processo que envolve advogados e contratos.


após incubação interna e sucesso, você pode entrar no mercado b e cooperar com algumas empresas com grandes armazéns para realizar tarefas como movimentação de materiais. nestas cooperações, as empresas de robótica podem construir um sistema de segurança de mercado e, após implementação bem-sucedida por várias empresas, podem fazer a transição gradual para aplicações orientadas para o consumidor. acredito que veremos muitos robôs desenvolvidos para consumidores no futuro. por exemplo, vale a pena esperar pelos produtos desenvolvidos pela unitree.


quando os robôs se tornarem populares em vários cenários, haverá um ecossistema completo, ou seja, todos desenvolverão vários tipos de robôs baseados na plataforma do robô. mas do ponto de vista da escala, penso que o caminho do avanço gradual é o mais razoável.


pode começar lidando com alguns trabalhos relacionados ao manuseio de materiais (manuseio de materiais) e, em seguida, expandir gradualmente para áreas mais específicas e de alta demanda. um item que me interessa particularmente é o "soprador de folhas". por exemplo, um dia poderemos ver robôs optimus a passear pelas ruas e a recolher suavemente cada folha caída, para que não precisemos mais de usar sopradores de folhas. acho que este é um ótimo projeto e espero que possa se tornar um cenário de aplicação inicial.


sara guo: em termos de forma de robô, algumas pessoas pensam que os robôs humanóides serão uma escolha melhor, porque muitos projetos no mundo físico hoje são baseados em hábitos de comportamento humano, portanto, um modelo unificado de desenvolvimento de forma de hardware baseado em robôs humanóides pode completar cada vez mais tarefas. ., outra visão é que os robôs humanóides não são necessariamente a única resposta aos robôs universais. o que você pensa sobre esse assunto?


andrej karpatia: acho que muitas pessoas realmente subestimam a complexidade dos custos fixos de diferentes plataformas de robôs. cada plataforma de robô requer um alto custo fixo, portanto a rota de um robô universal será mais razoável. tentar.


portanto, acho que os robôs humanóides realmente têm um grande potencial e os humanos podem controlá-los facilmente remotamente para ajudar a coletar dados. ao mesmo tempo, assim como uma das perspectivas que você acabou de mencionar, o mundo inteiro gira em torno do comportamento e dos hábitos humanos, outra razão pela qual os robôs humanóides são importantes.


é claro que pode haver várias mudanças nos robôs humanóides no futuro, mas para qualquer nova plataforma robótica, o custo fixo é uma questão importante que precisa ser considerada.


também quero enfatizar que vocês ganharão mais compartilhando informações e aprendendo uns com os outros entre diferentes tarefas.


no campo da ia, queremos construir uma rede neural que possa lidar com múltiplas tarefas e aprender uns com os outros através de múltiplas tarefas para melhorar o nível geral de inteligência. o interessante dos modelos de linguagem é que eles servem como modelos multitarefa para processamento de texto, capazes de lidar com diversos tipos de problemas e ao mesmo tempo compartilhar informações entre essas tarefas. mas todas essas tarefas são, na verdade, executadas por meio de uma única rede neural.


da mesma forma, esperamos que os dados coletados durante a tarefa de colheita de folhas o ajudem a completar outras tarefas, mas se você desenvolver um sistema especificamente para uma tarefa específica, sua margem de lucro poderá ser reduzida.


sara guo: robôs como o unitree g1 custam atualmente cerca de us$ 300.000. parece que o campo dos robôs humanóides alcançou baixo custo atualmente., plano de alta funçãoé difícil equilibrar, mas se adotarmos uma estrutura com rodas e adicionarmos um braço robótico para completar tarefas específicas, não teríamos mais chances de criar um robô de uso geral mais econômico?


robô unitree g1


andrej karpatia:do ponto de vista do hardware, faz sentido procurar plataformas de uso geral mais baratas. em algumas circunstâncias, pode ser uma escolha mais eficiente utilizar rodas e outras estruturas em vez de pés para completar tarefas, mas penso que isto pode significar uma solução local óptima. no longo prazo, acho que provavelmente é mais sensato escolher uma forma e aperfeiçoá-la até a perfeição. e do ponto de vista psicológico humano, as vantagens dos robôs humanóides serão mais óbvias. eles parecem familiares e fazem as pessoas quererem interagir com eles.


é claro que, considerando o efeito do vale misterioso, talvez as formas abstratas sejam mais populares entre os usuários. porque na verdade não tenho certeza de como as pessoas reagirão às diferentes formas de robôs. se acabarmos com um monstro de oito rodas para fazer o trabalho, não tenho certeza se as pessoas vão gostar ou ficar mais assustadas.


elad gil: os cães mecânicos também são uma rota de forma, e os cães também são formas mais familiares aos humanos.


andrej karpatia:sim, mas muitas pessoas que assistiram "black mirror" podem combinar cães mecânicos com certas cenas de terror, então a aceitação psicológica de cada um será diferente. em comparação, a forma humanóide pode ser mais fácil para as pessoas. a aceitação também torna mais fácil para as pessoas entenderem. suas funções e comportamentos.


elad gil:se quisermos alcançar a forma humanóide, que avanços importantes precisam ser alcançados do ponto de vista técnico?


andrej karpatia: não creio que haja uma resposta clara para essa pergunta ainda. uma das discussões mais interessantes aqui é que no projeto de robôs humanóides, a parte inferior do corpo não é adequada para aprendizagem por imitação. esta parte envolve um controle de pêndulo mais invertido. para a parte superior do corpo (parte superior do corpo), ela depende mais do controle remoto. , coleta de dados e aprendizagem de ponta a ponta. em certo sentido, os sistemas robóticos precisam reunir múltiplas tecnologias, mas ainda não tenho certeza de como esses sistemas funcionam entre si.


💡

pêndulo invertido:envolvendo manter um pêndulo em uma posição vertical instável, é um problema de controle clássico com amplas aplicações em robótica, aeroespacial e outros campos. os métodos tradicionais de controle de pêndulo invertido incluem controle pid, regulador quadrático linear (lqr), controle de modo deslizante, etc.


com o desenvolvimento da ia, métodos de aprendizagem por reforço são gradualmente introduzidos no controle de pêndulos invertidos. sob o caminho rl, atraiu muita atenção devido à sua capacidade de aprender estratégias ideais sem modelos precisos. o algoritmo de controle do equilíbrio do pêndulo invertido baseado na aprendizagem por reforço é uma tecnologia muito prática e tem sido amplamente utilizada em robótica, automação e outros campos.


elad gil: ao me comunicar com algumas pessoas da área de robótica, descobri que elas estão muito preocupadas com questões como acionamento de energia, controle e manipulação digital.


andrej karpatia: sim, penso que nas fases iniciais existirão de facto muitos cenários de controlo remoto, como permitir que robôs imitem humanos a apanhar itens do chão, até que o sistema possa funcionar de forma autónoma 95% do tempo. em seguida, aumente gradualmente a proporção do trabalho robótico, permitindo que os humanos passem de operadores a supervisores.


na verdade, penso que não existem obstáculos técnicos especiais, mas sim que é necessário fazer muito trabalho básico.já temos as ferramentas e recursos adequados, como a arquitetura transformer. essa tecnologia é como um excelente “coordenador”. só precisamos preparar os dados corretos, treinar e experimentar e, finalmente, implementar a implantação. embora o processo seja complicado, na verdade não existem muitos gargalos técnicos essenciais.




03.


dados sintéticos, pequenos modelos, empresas llms


sara guo: onde você acha que estamos em termos de pesquisa sobre large blobs?


💡

pesquisa de grandes bolhas:geralmente se refere a uma direção de pesquisa ou tecnologia nas áreas de aprendizado profundo e visão computacional. blob é "binário grande objeto, que significa "binary large object", é uma grande região contígua em uma imagem ou mapa de recursos que pode conter informações visuais importantes ou representar um objeto específico ou parte da cena. o estudo dessas grandes regiões pode ajudar a melhorar a capacidade do modelo de compreender e. processar recursos visuais em grande escala.


andrej karpatia: sinto que estamos em uma fase de rápido desenvolvimento agora. o transformer não é apenas uma rede neural, mas uma rede neural poderosa e versátil.


por exemplo, quando todos discutem a lei de escala, muitas vezes se referem às características da arquitetura do transformer. antes do transformer, as pessoas usavam lstm empilhados principalmente para fazer algum trabalho, mas nenhuma lei de escala clara foi encontrada. o transformer é o primeiro modelo que deixa isso claro e é dimensionado de maneira eficaz.


💡

lstm empilhado refere-se a uma estrutura de rede neural profunda formada pelo empilhamento de várias camadas lstm (long short-term memory).


o transformer é como um computador geral, mais especificamente um computador neural diferenciável (dnc). podemos fazer com que ele execute entradas e saídas em grande escala e treine este computador por meio do método de retropropagação,eventualmente, ele se tornará um sistema de conclusão de missão que evolui automaticamente.


💡

computador neural diferenciável (dnc):um tipo especial de rede neural capaz de armazenar e recuperar informações, semelhante ao sistema de memória de um computador. é "diferenciável", o que significa que seus parâmetros podem ser otimizados por meio de retropropagação para melhorar o desempenho na resolução de tarefas complexas.


embora o transformer seja um milagre que descobrimos acidentalmente no campo de algoritmos, há de fato muitas inovações importantes por trás dele, como conexões residuais, normalização de camadas e bloqueios de atenção. ao contrário dos métodos tradicionais, o transformer não utiliza funções de ativação não lineares que fazem com que os gradientes desapareçam. em vez disso, integra tecnologias inovadoras mencionadas nos seus documentos técnicos, o que melhora muito a eficiência e o desempenho do treino.


sara guo:durante este período, tem havido discussão sobre o data wall e o custo de expansão do modelo da próxima geração será extremamente elevado. o que você acha sobre questões de dados?


andrej karpatia: isso é o que discutimos desde o início. sinto que a arquitetura das redes neurais em si não é mais um gargalo hoje. embora antes do nascimento do transformer, as questões arquitetônicas fossem de fato um obstáculo. agora os novos gargalos estão focados principalmente na função de perda e no conjunto de dados.portanto, muitas empresas e pesquisadores não se concentram mais nas mudanças na arquitetura do transformer. por exemplo, o llama não possui nenhuma inovação arquitetônica particularmente óbvia. a única grande mudança pode ser as "codificações posicionais rotacionais" (codificações posicionais rope).o próprio transformer não mudou muito nos últimos cinco anos. todos se concentram apenas na inovação de treinamento, conjuntos de dados e funções de perda com base na base existente.


💡

"codificações posicionais rotativas" (rope, codificações posicionais rotativas):uma técnica de codificação posicional para modelos de transformadores. ele representa informações de posição na sequência de entrada por meio de rotação de vetores. em comparação com a codificação de posição tradicional, o rope pode dar ao modelo mais vantagens ao processar sequências longas. sua principal característica é codificar a posição de cada elemento na sequência girando o ângulo do vetor enquanto mantém as informações de distância relativa. esta abordagem permite que o modelo tenha melhor flexibilidade e escalabilidade em diferentes locais, sendo especialmente adequada para tarefas que lidam com dependências de longa distância.


sara guo:quando não houver dados suficientes na internet, começaremos a usar dados sintéticos ou métodos semelhantes mais caros de coleta de dados?


andrej karpatia: muitas pesquisas atualmente se concentram em modelos de linguagem. embora os dados da internet não sejam a fonte de dados ideal para o transformer, eles podem ser usados ​​como uma ferramenta para melhorar continuamente os recursos do modelo. os dados da internet são apenas uma coleção de páginas da web, mas o que é realmente valioso é o que está em nossos cérebrosmonólogo interior”—— aquelas trajetórias de pensamento complexas e profundas.



se pudermos ter bilhões de dados semelhantes a “trilhas de pensamento”, então poderemos estar próximos da agi até certo ponto. mas estes dados não existem actualmente, pelo que a investigação actual centra-se principalmente na reorganização dos conjuntos de dados existentes num formato semelhante ao "monólogo interno (monólogo interno)". esta é a importância dos dados sintéticos. os modelos atuais podem nos ajudar a gerar a próxima geração de modelos. este é um processo de progresso iterativo contínuo, como subir uma escada, aproximando-se da meta passo a passo.


elad gil:quão úteis são os dados sintéticos? como você disse, cada modelo pode nos ajudar a treinar o próximo modelo, ou pelo menos fornecer ferramentas para tarefas como anotação de dados, parte dos quais podem ser dados sintéticos.


andrej karpatia: acredito que os dados sintéticos são essenciais para melhorar as capacidades do modelo.mas tenha cuidado ao usar dados sintéticos, porque o modelo “entra em colapso” sem saber quando. por exemplo, quando pedimos ao chatgpt que nos conte piadas, se tentarmos mais algumas vezes, perceberemos que ele pode saber apenas 3 piadas. embora pareça saber muitas, na verdade só conhece algumas. colapso" ", ou seja, não há problema com uma única saída, mas se a saída nesta direção específica, a diversidade e a flexibilidade do modelo forem bastante reduzidas, isso é um problema na geração de dados, principalmente na geração de dados sintéticos, é fácil "entrar em colapso". isso ocorre porque realmente precisamos da diversidade e da riqueza dos dados, ou seja, da "entropia", para evitar problemas causados ​​por um conjunto de dados muito único.

💡

colapso do modo:este é um fenômeno em redes adversariais generativas (gans) onde o modelo generativo passa a gerar amostras muito semelhantes ou repetitivas em vez de amostras diversas. isto é frequentemente visto como um problema porque indica que o modelo não é capaz de aprender a rica diversidade dos dados.


por exemplo, alguém divulgou um conjunto de dados relacionados a personagens contendo 1 bilhão de histórias de personagens fictícios, como "sou professor" ou "sou um artista, moro aqui, faço esse trabalho" e assim por diante.ao gerar dados sintéticos, você realmente permite que ele imagine o processo de interação com uma pessoa específica. isso pode dar ao modelo mais espaço para explorar, gerando mais informações e aumentando a diversidade do conjunto de dados.portanto, precisamos injetar entropia com cuidado, mantendo a estabilidade da distribuição dos dados, que é o maior desafio na geração de dados sintéticos.


sara guo:o que você acha que podemos aprender sobre a cognição humana com esta pesquisa? por exemplo, algumas pessoas acreditam que compreender o processo de formação das trajetórias de pensamento nos ajudará a compreender como funciona o cérebro.


andrej karpatia:modelos de pesquisa e cognição humana são duas coisas completamente diferentes, mas em alguns casos podem ser comparadas. por exemplo, acho que o transformer é mais forte que o cérebro humano em alguns aspectos, e o modelo é um sistema mais eficiente que o cérebro humano, mas devido às limitações de dados, seu desempenho atual não é tão bom quanto o do cérebro humano. mas esta é apenas uma explicação aproximada.


por exemplo, em termos de capacidade de memória, os transformers têm um desempenho melhor do que o cérebro humano ao processar sequências longas. se você fornecer uma sequência e solicitar que ele execute um cálculo para frente e para trás, ele poderá lembrar as partes anterior e posterior da sequência e concluir a tarefa, o que é difícil para a memória humana fazer. portanto, em alguns aspectos, acho que o método de treinamento baseado na otimização de gradiente é realmente mais eficiente do que o cérebro humano e, mesmo no futuro, o modelo pode realmente superar os humanos em alguns níveis cognitivos.


elad gil:a capacidade de memória é um dos pontos fortes dos computadores.


andrej karpatia: sim, acho que o cérebro humano realmente tem muitas limitações. por exemplo, a capacidade da memória de trabalho é muito limitada, enquanto a memória de trabalho dos transformers é muito maior em comparação, e a lacuna entre eles ainda está aumentando. além disso, os transformers aprendem com mais eficiência. a operação do cérebro humano é limitada por muitos fatores ocultos, como antecedentes, responsabilidade, ambiente, etc., o que torna o sistema cerebral humano mais aleatório e limitado. portanto, sinto que em alguns aspectos estes modelos já são mais fortes que o cérebro humano, mas ainda não atingiram todo o seu potencial.


elad gil:no que diz respeito à relação entre humanos e ia, um argumento é que a utilizamos como uma ferramenta externa, enquanto outros dizem que haverá uma integração mais profunda dos humanos e dos modelos de ia. o que você pensa sobre esse assunto?


andrej karpatia: penso que alcançámos, até certo ponto, a integração dos humanos e da ia. as ferramentas técnicas sempre foram um derivado das capacidades humanas. acontece que o problema dos modelos actuais reside no estrangulamento do processo de entrada e saída de informação, pelo que a integração dos humanos e da ia ​​ainda requer tentativas contínuas. no entanto, quando os modelos são aperfeiçoados, a utilização destes modelos é muito simples e pode ser conseguida com apenas alguns movimentos simples. assim, embora existam alguns obstáculos, a tecnologia atual tornou esta integração relativamente fácil e viável.


elad gil:algumas pessoas na área de ia acreditam quese houver um conflito entre nós e a ia no futuro, está tudo bem

resolvido por alguma forma de fusão de humanos e ia.


andrej karpatia: sim, isso é muito semelhante à filosofia da neuralink. embora não tenha certeza de como será essa fusão, o que está claro é que queremos reduzir a latência de entrada e saída entre humanos e ferramentas. você pode pensar nisso como a adição de um novo córtex ao nosso córtex cerebral. esse novo córtex pode ser baseado em nuvens e é essencialmente a próxima camada do cérebro.


elad gil: existir acelerando o livro tem uma premissa semelhante, onde tudo é entregue ao cérebro por meio de óculos inteligentes que podem ser usados. se você perder esses óculos, é como perder uma parte da sua personalidade ou memória.


andrej karpatia: acho que é provável que isso aconteça. os telemóveis de hoje quase se tornaram parte das nossas vidas, como um dispositivo externo ao cérebro. cada vez que desligamos nossos telefones, sentimos que voltamos ao estado original.


por outro exemplo, se tivermos um “tradutor universal” e dependermos dele por muito tempo, então, quando de repente não o tivermos, poderemos perder a capacidade de nos comunicarmos diretamente com pessoas que falam idiomas diferentes. conforme mostrado em um vídeo, uma criança está segurando uma revista e tentando deslizá-la com o dedo. ela não consegue dizer o que é natural e o que é provocado pela tecnologia. isso me faz pensar que, à medida que a tecnologia se torna cada vez mais onipresente, as pessoas podem ficar mais dependentes dessas ferramentas, apenas para perceber que não conseguem dizer o que é tecnologia e o que não é até que desapareçam. especialmente dispositivos como tradutores, que sempre ajudam você a realizar tarefas, reduzirão bastante a sensibilidade das pessoas às fronteiras entre tecnologia e natureza.


sara guo: o “exocórtex” parece algo muito importante e é importante para todos. hoje, a pesquisa llm é liderada por alguns laboratórios de ia, e somente eles têm os recursos para promover o desenvolvimento de modelos de treinamento de próxima geração. o que você acha dessa estrutura na pesquisa de llm hoje? que impacto terá na popularidade da tecnologia de ia no futuro?


andrej karpatia: o ecossistema do llm é de fato monopolizado por várias plataformas fechadas hoje, enquanto o meta llama, que está na parte inferior, é relativamente aberto. este fenômeno também é um reflexo do ecossistema de código aberto até certo ponto. quando pensamos no llm como a “camada externa”, estão envolvidas questões de privacidade de informações e dados. há um ditado no campo da criptografia que diz "não são suas chaves, nem seus tokens". talvez no futuro, no campo llm, enfatizemos "não seus pesos, não seu cérebro". se a ia for o novo córtex cerebral para todos no futuro, e se esse córtex for controlado por uma determinada empresa, as pessoas sentirão que estão “alugando” um cérebro em vez de realmente possuí-lo.


sara guo: você está disposto a abrir mão da propriedade e do controle de seu próprio cérebro para alugar um mais poderoso?


andrej karpatia: penso que esta é uma compensação crítica. a tendência futura poderá ser que a maioria das pessoas utilize o poderoso modelo de código fechado como opção padrão, mas em alguns casos específicos, os sistemas de código aberto tornar-se-ão a alternativa. tal como agora, quando alguns fornecedores de modelos de código fechado têm problemas com as suas apis, as pessoas recorrem ao ecossistema de código aberto e, portanto, sentem-se mais no controlo.


esta também pode ser a direção do futuro desenvolvimento da tecnologia cerebral: quando surgem problemas, podemos mudar para sistemas de código aberto, enquanto na maioria dos casos ainda dependemos de sistemas fechados. é importante manter os sistemas de código aberto avançando, mas hoje talvez nem todos estejam cientes desta questão.


elad gil:o que você acha das miniaturas? que nível de desempenho os pequenos modelos atuais podem alcançar?


andrej karpatia: acho que o modelo poderia ser reduzido ainda mais. devido ao problema com o conjunto de dados, sentimos que o modelo atual desperdiça muita capacidade no armazenamento de algumas informações irrelevantes. a chave para um modelo pequeno é focar na cognição central, e esse núcleo pode, na verdade, ser muito pequeno. é mais como uma forma de pensar. quando precisamos encontrar informações, podemos usar várias ferramentas com flexibilidade para obtê-las, em vez de deixar o modelo armazenar muitos detalhes desnecessários.


em termos de parâmetros, penso que só precisaremos de 100 milhões de parâmetros para atingir o nosso objetivo. a tecnologia de compactação eficiente pode tornar o modelo muito pequeno. o princípio da compactação é simples: usar um modelo muito grande ou muitos recursos de computação para supervisionar um modelo menor.


a essência desta questão é que os grandes modelos de hoje lidam com conjuntos de dados da internet, e apenas cerca de 0,001% do conteúdo está relacionado à cognição, e os 99,99% restantes são na verdade algumas informações irrelevantes, como copiar texto correto. a maior parte da informação não desempenha um papel substancial na melhoria dos padrões de pensamento.


elad gil:esse processo pode ser explicado pela matemática ou por algum tipo de teoria da informática? a relação entre o tamanho do modelo e o poder cognitivo pode ser quantificada? por exemplo, no futuro, apenas um modelo de mil milhões de parâmetros poderá ser necessário para alcançar uma boa compreensão.


andrej karpatia: pode até custar menos de 1 bilhão, e o modelo pode ter esse tipo de capacidade cognitiva, levando em consideração o custo do modelo, equipamento final, etc. e o que vamos discutir pode não ser um modelo cognitivo único. acho que o modelo deveria ter a capacidade de processar em paralelo, em vez de depender apenas do processamento sequencial. é como uma empresa, muito trabalho pode ser feito em paralelo, mas também é necessária uma estrutura hierárquica para processar melhor as informações. portanto, acho que pode haver um modelo de “empresas para llms” no futuro: diferentes modelos focam em suas respectivas áreas, como um é um modelo de programador e o outro é um modelo de gerente de projeto, e todos lidam com muito trabalho em paralelo, uns aos outros eles também podem colaborar para formar um “cérebro de grupo” composto por llms.


elad gil:este cluster de llms é como um ecossistema, cada parte do qual tem sua experiência e posição únicas.


andrej karpatia: acho que o futuro certamente se desenvolverá nessa direção. o modelo de nuvem é o mais inteligente e pode ser considerado o ceo. existem muitos modelos mais baratos e de código aberto que são empregados neste grupo. as tarefas são automaticamente escaladas e atribuídas a outras partes do grupo.




04.


educação na era da ia


sara guo:você começou a trabalhar em seu próprio projeto educacional depois de sair da openai. por que você escolheu a educação?


andrej karpatia: sempre adorei o setor da educação, gosto de aprender e ensinar e sou muito apaixonado por essa área.


💡

karpatia fundada laboratórios eureka, que é uma plataforma educacional com ia como núcleo, com o objetivo de revolucionar os métodos de aprendizagem por meio da tecnologia de inteligência artificial. primeiro curso do eureka labs llm101n os alunos serão orientados a construir os seus próprios modelos de linguagem em larga escala, com o objetivo de tornar a educação em ia mais interativa e popular. esta plataforma planeja aprimorar a experiência de aprendizagem integrando assistentes de ensino de ia e design de cursos humanos, refletindo sua visão de integração de ia e educação ao longo dos anos.


uma razão importante que me levou a entrar neste campo é que sinto que muitas ia estão a tentar substituir os humanos, fazendo com que muitas pessoas percam os seus empregos, mas estou mais interessado em tecnologias que possam melhorar as capacidades humanas. no geral, estou do lado da humanidade e espero que a ia possa ajudar a humanidade a tornar-se mais poderosa, em vez de marginalizada.


além disso, acho que é uma boa ideia ter um "tutor perfeito" que possa realizar tarefas de tutoria em todas as disciplinas. se todos tiverem um tutor de ia para orientá-los no aprendizado de todas as disciplinas, acredito que todos poderão obter melhores resultados.


elad gil: desde a década de 1980, a literatura afirma claramente que a tutoria individual pode melhorar o desempenho de um indivíduo em 2 desvios padrão. também existem muitos casos em torno de tutores personalizados. como você acha que ia e tutores podem ser combinados?


andrej karpatia: eu me inspiro muito nesses exemplos. agora estou construindo um curso completo com o objetivo de torná-lo a primeira escolha para as pessoas aprenderem ia. anteriormente, ministrei o primeiro curso de aprendizado profundo de stanford. embora o número de alunos fosse de apenas 20 a 30, os resultados foram bons. o desafio agora é como dimensionar este tipo de curso para abranger 8 mil milhões de pessoas em todo o mundo. considerando as diferenças de língua e capacidade, isto é difícil de conseguir com um único professor.


portanto, a chave é como usar a ia para expandir o papel dos bons professores. a principal tarefa dos professores deve ser o design do curso e os materiais de redação, enquanto a ia pode interagir com os alunos no front-end e ensinar o conteúdo. a ia atual não pode criar cursos completos de forma independente, mas é suficiente para ajudar a explicar e transferir conhecimento. dessa forma, os professores podem se concentrar no design back-end, enquanto a ia usa vários idiomas no front-end para interagir com os alunos e ajudá-los a concluir seu aprendizado.


sara guo:a ia pode ser comparada a um assistente de ensino?


andrej karpatia: assistente de ensino é uma das direções que estou considerando. vejo-o como um front-end que interage diretamente com os alunos e os leva a concluir o curso. acho que é uma solução viável na tecnologia atual, e não existe produto semelhante. no mercado, então acho que há muito potencial nesta área e, à medida que a tecnologia avança, podemos fazer vários ajustes nela. sinto que muitas empresas hoje não têm uma compreensão suficientemente intuitiva das capacidades do modelo e, como resultado, os produtos que desenvolvem são demasiado avançados ou não são suficientemente precisos. então acho que esse campo tem um grande potencial.


sara guo: com boas ferramentas, até que ponto os limites das capacidades humanas podem ser alcançados? por exemplo, se compararmos com os jogos olímpicos, devido aos avanços na ciência e tecnologia do treino nos últimos 10 anos, o desempenho dos melhores corredores é melhor do que era em 10 anos.


andrej karpatia: sinto que ainda não atingimos todo o potencial hoje. podemos pensar nesta questão a partir de duas perspectivas. a primeira é a globalização, espero que todos possam receber um elevado nível de educação, e a segunda é o limite das capacidades individuais. ambas as perspectivas são valiosas.


elad gil: normalmente, quando discutimos orientação de aprendizagem individual, mencionaremos personalização e adaptação, ou seja, dar tarefas de desafio de aprendizagem correspondentes de acordo com o nível de cada pessoa. você acha que a ia pode fazer isso hoje?


andrej karpatia: acho que o "fruto mais fácil" no campo da educação em ia de hoje são os aplicativos de tradução. os modelos atuais são muito bons nessas tarefas e as coisas que podem fazer ainda são tarefas básicas.


é difícil conseguir uma personalização que se adapte ao nível de cada pessoa, mas não é impossível. penso que este também deveria ser o foco do desenvolvimento da ia, e obviamente tem potencial para o fazer. mas isto pode envolver novos campos. um modelo mais simples pode ser implementado através do projecto imediato, mas penso que a forma realmente útil é fazer com que o próprio modelo tenha tais capacidades, para que possa funcionar como um professor.


acho que isso afeta algumas áreas que atualmente estão subdesenvolvidas. embora versões simples possam não estar longe, como obter ajuda dando dicas para o modelo, estou falando de soluções que realmente funcionam, e não apenas ficam bem em uma demonstração. estou falando da capacidade de trabalhar com a mesma eficácia de um verdadeiro professor, entendendo o contexto de cada pessoa e proporcionando orientação personalizada, o que requer maior desenvolvimento.


elad gil: podemos conseguir esta adaptação introduzindo outros modelos?


andrej karpatia: acho que isso também é uma característica da ia. acho que muitas funções podem ser implementadas com apenas um prompt. muitas vezes vemos muitas demonstrações, mas será que podemos finalmente entregar um produto real? portanto, pode não ser difícil fazer algumas demonstrações, mas ainda há um longo caminho a percorrer antes que ele possa ser desenvolvido em um produto que possa ser usado em larga escala.


sara guo:há algumas semanas você mencionou que aprendizado e entretenimento são diferentes. o aprendizado deveria ser desafiador e exigir um certo sistema de incentivos, como status social, efeito ídolo, etc. até que ponto você acha que o sistema de incentivos pode mudar a motivação das pessoas para aprender? você está mais preocupado em fornecer recursos para permitir que as pessoas cheguem o mais longe que puderem dentro de suas capacidades? ou você quer mudar o número de pessoas que estão dispostas a aprender e orientar mais pessoas a começarem a aprender?


andrej karpatia:espero tornar o aprendizado um pouco mais fácil, já que algumas pessoas podem não estar naturalmente interessadas em aprender. muitas pessoas estudam por necessidades práticas, como para encontrar um emprego, o que é muito razoável. a educação desempenha um papel importante na nossa sociedade porque não só fornece conhecimento, mas também melhora a situação económica de uma pessoa, razão pela qual as pessoas querem ser motivadas pela educação.


sara guo:como será o nosso futuro numa sociedade pós-agi?


andrej karpatia:na era pós-agi, penso que a educação se tornará mais parecida com entretenimento. a educação bem-sucedida reside não apenas na transferência de conhecimento, mas também na compreensão e aplicação aprofundadas desse conhecimento.


sara guo:quem foi o primeiro público de eureka?


andrej karpatia:o público principal deste primeiro curso são estudantes de graduação, principalmente aqueles que cursam áreas técnicas. se você está cursando um curso de graduação relacionado à tecnologia, você é o público-alvo ideal para este curso.


andrej karpatia:acho que nosso conceito atual de educação está um tanto desatualizado. a antiga forma de ir à escola, formar-se e trabalhar constantemente será destruída pelas mudanças actuais. a tecnologia está a mudar rapidamente e as pessoas precisam de continuar a aprender. então, embora o curso seja para alunos de graduação, na verdade tem um público amplo. por exemplo, acho que pessoas de qualquer idade podem participar. especialmente para aqueles com formação técnica que desejam obter uma compreensão mais profunda de conhecimentos relevantes, haverá algo a ganhar.


pretendo oferecer o curso ainda este ano, o início do próximo ano pode ser um momento adequado, mas antes disso trabalharei muito para garantir que a qualidade do curso esteja de acordo com o padrão esperado.


elad gil:se você tivesse filhos, que conhecimentos e habilidades gostaria que eles aprendessem?


andrej karpatia:a resposta que eu daria é matemática, física, ciência da computação e outras disciplinas. na verdade, essas disciplinas fornecem um treinamento fundamental para o cultivo da capacidade de raciocínio. é claro que esta perspectiva é influenciada pela minha formação, mas acredito que estas áreas são muito úteis em termos de competências de resolução de problemas. mesmo que o futuro se aproxime da era da agi, estas competências continuarão a ser importantes. durante este período crítico em que as pessoas têm muito tempo e atenção, penso que devemos concentrar-nos principalmente em tarefas que são relativamente simples de executar, em vez de tarefas que requerem muita memória. embora também reconheça a importância de aprender outras matérias, acredito que 80% do tempo deveria ser focado nestas áreas centrais porque são mais práticas e têm valor a longo prazo.


composição: fia