openai mais uma vez “faz bolhas” em grandes modelos para prolongar suas vidas

openai mais uma vez dá aos grandes modelos uma “bolha” para prolongar suas vidas

2024-09-14

texto丨ele qianming

editor丨cheng manqi huang junjie

o produto mais importante da openai este ano, o modelo o1, foi lançado conforme programado. o preço das ações da nvidia, maior geradora de lucros em ia, subiu 10% em dois dias.

o1, que consome mais poder computacional para responder perguntas, irá “pensar” por dezenas de segundos ou até mais ao ver uma pergunta antes de dar uma resposta. a openai afirma que pode responder a questões matemáticas das olimpíadas ou concluir tarefas de programação muito melhor do que os grandes modelos já existentes no mercado.

mas o bom humor do ceo da openai, sam altman, foi rapidamente interrompido. em seu tweet anunciando o lançamento completo do o1, o principal comentário foi: “quando a nova função de voz estará disponível??” ele imediatamente respondeu: “você pode reservar algumas semanas para agradecer por essa magia inteligente e depois querer?” um brinquedo novo?”

o que esse usuário deseja depois de altman não é um brinquedo novo, mas a próxima função de voz ponta a ponta gpt-4o que a openai prometeu em maio deste ano. na demonstração ao vivo daquela época, essa nova ia parecia natural, respondia muito rapidamente e sabia quando interromper, tornando difícil para os outros distinguirem a verdade do falso. de acordo com o cronograma oficial, dezenas de milhões de usuários pagantes do chatgpt teriam usado esse recurso dentro de algumas semanas, mas o checkout foi adiado até agora.

no ano passado, os produtos da openai foram "futuros" semelhantes: o gpt-4 está online há mais de um ano e o modelo de próxima geração da openai, gpt-5, ainda não tem sinais de lançamento. o modelo de vídeo sora lançado pela openai no início deste ano não foi lançado em grande escala. até agora, apenas alguns profissionais da indústria selecionados por eles o utilizaram.

os principais atrasos da indústria esgotaram repetidamente a paciência do mercado de capitais com os grandes modelos de ia. alguns gigantes da tecnologia chinesa e grandes empresas de modelos suspenderam o treinamento de modelos básicos em meados deste ano, investindo mais recursos no desenvolvimento de aplicativos ou alugando poder de computação gpu para clientes externos. eles estão preocupados porque não há muito espaço para avanços tecnológicos, então começam a reduzir o investimento e a lutar por retornos.

antes desta semana, o valor de mercado da nvidia havia caído mais de 20% em relação ao máximo de junho, e o valor de mercado da microsoft também havia diminuído 13%, cada uma perdendo centenas de bilhões de dólares. o cfo da microsoft disse que as dezenas de bilhões de dólares investidos na área de grandes modelos terão que esperar 15 anos ou mais para serem recuperados.

a pesquisa da sequoia mostra que o investimento na área de ia excedeu a receita em mais de us$ 120 bilhões no ano passado, e pode expandir para us$ 500 bilhões este ano. mas, com exceção da nvidia, poucas empresas tiveram uma grande proporção de crescimento nas receitas. mais e mais pessoas na indústria estão começando a discutir que, se as capacidades dos grandes modelos pararem por aqui, a bolha da ia estourará novamente?

"bolhas" não são necessariamente uma coisa ruim. antes de uma nova tecnologia mudar o mundo, haverá uma fase em que a visão excederá em muito a realidade. a diferença reside em se e quando a visão pode ser concretizada. se não puder ser concretizado a longo prazo, a bolha rebentará e a empresa irá à falência. um grave rebentamento da bolha pode até destruir um campo ou mesmo múltiplas economias. se a visão for concretizada, não passará de uma nota de rodapé ao progresso tecnológico.

o o1 lançado pela openai reverterá, pelo menos temporariamente, a hesitação de que não há espaço para progresso em modelos grandes e prolongará a vida da "bolha" de modelos grandes.

qualquer nova tecnologia precisa continuar a avançar antes de poder mudar o mundo. a singularidade do o1 não é apenas que o desempenho em programação, matemática, física e outras áreas foi muito melhorado, mas também que ele encontrou um caminho a seguir para um grupo de seguidores do openai e os investidores por trás deles: no passado, a computação o poder foi mais utilizado para "memorizar conhecimento" ——usando uma grande quantidade de dados para treinar o modelo, o1 aloca mais poder computacional para "pensar ao responder perguntas", ou seja, o processo de raciocínio e a capacidade lógica são bastante melhorados.

antes disso, o treinamento de modelos grandes caiu no gargalo das leis de escalabilidade originais. depois que a escala dos parâmetros do modelo foi expandida, a melhoria do desempenho desacelerou gradualmente.

especialmente otimizado para matemática, programação e problemas científicos, o1-mini também mostra um potencial de aplicação considerável. ele pode não apenas ajudar diretamente cientistas e desenvolvedores a melhorar a eficiência do trabalho, mas também indicar o desempenho e a segurança do desenvolvimento em outros campos verticais de alto valor. são melhores abordagens de modelo.

como de costume com vários lançamentos, a openai escolheu cuidadosamente o momento do lançamento do o1. de acordo com relatos da mídia, antes do lançamento do o1, a openai buscava us$ 7 bilhões em novos financiamentos, com uma avaliação de us$ 150 bilhões. os investidores potenciais incluem apple, nvidia, microsoft e o fundo de investimento dos emirados árabes unidos. agora, a corrida ao investimento em recursos tem outra razão para continuar.

do grande modelo de linguagem ao "modelo de inferência", o1 é forte na teoria e fraco na literatura

desta vez, a openai lançou dois modelos para os usuários: o1-preview e o1-mini, e anunciou que mais modelos da série o1 estão a caminho.

a razão pela qual esta série é chamada de o1 em vez de usar gpt é porque há mudanças óbvias nos métodos de treinamento dos dois. na postagem do blog da openai apresentando o1, ele é chamado de modelo de raciocínio (modelo de raciocínio) muitas vezes, em vez do modelo de linguagem grande (modelo de linguagem grande) que era comumente usado ao chamar gpt.

a lógica geral de treinamento dos modelos tradicionais de linguagem grande, como o gpt, é pré-treinamento mais ajuste fino: primeiro use dados massivos para ensinar o modelo grande a prever a próxima palavra no estágio de pré-treinamento e, em seguida, deixe-o aprender a prever o próxima palavra no estágio de ajuste fino o modelo grande aprende conhecimento em um campo específico e permite que os humanos escrevam respostas para ensinar ao modelo grande quais respostas as pessoas desejam, e a máquina melhora com base no feedback.

as novas palavras-chave de o1 são aprendizagem por reforço e cadeia de pensamento (cot).

openai descreve o processo desta forma: “através da aprendizagem por reforço, o1 aprende como aprimorar sua cadeia de pensamento e refinar as estratégias que usa. aprende a reconhecer e corrigir seus próprios erros; melhora muito as capacidades de inferência do modelo ao tentar métodos diferentes quando o método atual não funciona."

alphago, que derrotou o campeão mundial go em 2016, e seu modelo subsequente alphazero, usou aprendizado por reforço para permitir que o modelo jogasse sozinho e aprendesse quais estratégias usar para melhorar a taxa de vitórias em diferentes estados (jogos). o modelo também pode gerar dados por meio de testes contínuos para treinar o modelo.

openai o1 usa um método semelhante: fornece ao modelo grande dados de resolução de problemas passo a passo, permitindo que o modelo aprenda a se autocorrigir e aprenda como responder perguntas em cada etapa para obter a resposta ideal.

"a capacidade do modelo de ia ainda vem dos dados. se houver algo originalmente faltando ou insuficiente nos dados, o modelo não poderá aprender. o1 equivale a realizar um método de síntese de dados profissionais. com esses dados profissionais, o1 pode aprender capacidades profissionais", disse yuan jinhui, fundador da silicon mobile.

o1 ao responder a uma pergunta, ele também a dividirá em uma série de pequenas perguntas e responderá raciocinando passo a passo. esta é a "cadeia de pensamento". de acordo com o display do openai, o processo de resposta das perguntas o1 é o seguinte (na versão utilizada pelo usuário, o openai oculta o conteúdo da cadeia de pensamento):

pergunta (originalmente em inglês):

escreva um script bash que receba uma matriz (representada como uma string no formato '[1,2],[3,4],[5,6]') e imprima a transposta da matriz no mesmo formato.

ideias de resolução de problemas do o1-preview (cadeia de pensamento):

um usuário solicitou escrever um script bash que possa receber uma string representando uma matriz, como '[1,2],[3,4],[5,6]', e gerar sua transposição no mesmo formato.

vamos primeiro entender os formatos de entrada e saída.

entrada: '[1,2],[3,4],[5,6]', sua matriz correspondente é:

1 2

3 4

5 6

portanto, a entrada é uma série de linhas entre colchetes e separadas por vírgulas.

a transposta desta matriz é:

1 3 5

2 4 6

portanto, a saída necessária é '[1,3,5],[2,4,6]'.

missão geral:

escreva um script bash que receba um argumento (uma string representando uma matriz) e produza sua transposição no mesmo formato.

ok, agora vamos considerar como analisar uma string de entrada no bash, construir uma matriz (possivelmente usando um array), transpô-la e então gerar a matriz transposta, mantendo o mesmo formato.

restrições:

- como isso é bash, temos que ter cuidado com a análise de strings.

-o script deve aceitar string de entrada como parâmetro.

método:

-analisar a string de entrada para extrair elementos da matriz.

- construa uma matriz como uma matriz de matrizes.

-transponha a matriz.

- produza a matriz transposta no mesmo formato.

etapas de implementação:

1. capture a string de entrada como parâmetro.

2. remova todos os espaços (se houver).

3. analise a string de entrada e extraia os números em uma matriz.

-como o formato de entrada é '[1,2],[3,4],[5,6]', podemos:

--remova os colchetes externos, se necessário.

--divida a string por ']' para obter cada linha.

--para cada linha, remova '[' e ']' e, em seguida, separe os elementos por ','.

4. construa um array bidimensional (matriz de arrays) no bash.

-como os arrays bash são unidimensionais, precisamos simular um array bidimensional.

5. transponha a matriz.

-ao transpor, precisamos trocar linhas e colunas.

6. produza a matriz transposta no formato desejado.

-reconstrua a string de saída no formato '[1,3,5],[2,4,6]'.

agora, comece a escrever o código passo a passo.

problemas potenciais:

-bash em si não possui arrays multidimensionais nativos, então precisamos simular isso.

-precisamos lidar com números que podem ter vários dígitos.

a seguir, podemos começar a escrever a estrutura deste script bash passo a passo.

【um pouco】

agora vamos testar este script usando o exemplo de entrada '[1,2],[3,4],[5,6]'.

deixe-me tentar simular o que aconteceria.

vou escrever isso como resposta.

nem a aprendizagem por reforço nem o encadeamento de pensamentos foram as primeiras orientações técnicas propostas pela openai.

antes de o1 ficar online, o google deepmind lançou uma versão atualizada do modelo alphageometry treinado com um método semelhante em julho, que conseguiu ganhar a medalha de prata na olimpíada internacional de matemática imo.

mas a openai provou mais uma vez que pode assumir a liderança na criação de modelos com resultados mais surpreendentes baseados na indústria. segundo a openai, seu modelo o1-ioi especialmente treinado para a olimpíada internacional de informática pode ganhar a medalha de ouro.

com novos métodos de treinamento e inferência, o openai o1-preview supera significativamente o gpt-4o na resolução de problemas matemáticos difíceis e no processamento de tarefas de programação. por exemplo, no conjunto de dados matemáticos da competição aime 2024, a pontuação o1-preview é mais de 4 vezes maior que a do gpt-4o no conjunto de dados da competição de programação codeforces, a diferença torna-se 5,6 vezes.

em competições de matemática, competições de programação e testes de conjuntos de dados de perguntas e respostas científicas, o1-preview e o1 excederam significativamente o gpt-4o.

openai disse que as versões atualmente limitadas do openai o1-preview e openai o1-mini são apenas versões iniciais. seu próximo modelo tem desempenho semelhante ao de um estudante de doutorado em questões desafiadoras de testes em física, química, biologia, etc., enquanto o modelo anterior a maioria. estão em nível de graduação ou mestrado.

transformando a tecnologia em realidade, a openai mencionou 212 colaboradores, o que é comparável aos contribuidores da parte textual do gpt-4o (234 pessoas). mas o treinamento o1 requer mais tipos de dados. openai mencionou que os dados usados no pré-treinamento o1 vêm de conjuntos de dados públicos, dados proprietários de parceiros e conjuntos de dados personalizados desenvolvidos internamente, enquanto o gpt-4o usa apenas os dois primeiros tipos de dados quando domina os recursos de texto.

a série o1, que é tendenciosa para "modelos de inferência", não superou totalmente o gpt-4o, e sua capacidade de linguagem é seu relativo ponto fraco.

nos testes da openai, a maioria das pessoas acredita que o1-preview é melhor que o gpt-4o para responder questões que valorizam o raciocínio, como análise de dados, programação e matemática. no entanto, em termos de escrita pessoal, edição de texto, etc., gpt-4o. ainda é melhor.

problemas que não podem ser resolvidos pelo gpt-4o também aparecerão na visualização o1. por exemplo, também fará "absurdo" e pensará que 9.11 é maior que 9.2.

para escrita pessoal, edição de texto, etc., o gpt-4o é melhor.

o maior tempo de resposta (pensamento) trazido pela cadeia de pensamento pode ser uma deficiência da série o1 em uso real. quando solicitado a "listar os nomes de cinco países cuja terceira letra é a", o gpt-4o levou apenas 3 segundos, enquanto o1-mini levou 9 segundos, o1-preview levou 32 segundos e gpt-4o dez vezes. basicamente indisponível para perguntas simples.

por enquanto, o1-preview e mini não possuem as funções de navegar na web, obter informações e processar arquivos e imagens carregados como gpt-4o. atualmente, parece que as pessoas mais rápidas que podem usar o1 para melhorar a produtividade são desenvolvedores de software, mas o openai também limita a maneira como chamam a api: eles só podem ligar 20 vezes por minuto, excluindo funções como chamadas de função, streaming e suporte a mensagens do sistema.

do escalonamento de treinamento ao escalonamento de inferência, a competição pelo poder da computação continuará

na opinião de muitos pesquisadores de grandes modelos, a mudança mais importante do o1 é que ele mostra um novo caminho para melhorar significativamente as capacidades dos grandes modelos.

as leis de escalabilidade originais significam que usar mais dados e poder computacional para treinar um modelo com parâmetros maiores resultará em melhor desempenho.

conforme mostrado na figura abaixo, o1 mostra que se o modelo gastar mais tempo e mais poder computacional respondendo perguntas (computação em tempo de teste), o desempenho continuará a melhorar. o cientista sênior de ia da nvidia, jim fan, disse nas redes sociais que esta pode ser a imagem mais importante na pesquisa de grandes modelos desde que a deepmind propôs as leis de escalonamento chinchill (uma otimização das leis de escalonamento originais) em 2022.

jim fan também propôs uma possibilidade para a evolução futura de grandes modelos: modelos futuros podem separar o raciocínio do conhecimento, ter um pequeno "núcleo de raciocínio" e também usar um grande número de parâmetros para memorizar fatos (conhecimento) para testes, como perguntas triviais e respostas. excelente desempenho.

a openai também mencionou especificamente no artigo de introdução ao o1 que eles continuarão a desenvolver a série de modelos gpt. isso pode indicar que a openai introduzirá os métodos usados em o1 no modelo gpt da próxima geração.

quer o1 se torne o novo método convencional ou o1 seja combinado com a série gpt para desenvolver a próxima geração de modelos grandes, os requisitos de potência de computação deverão aumentar ainda mais.

a openai não divulgou o custo de inferência da série o1, mas pelo tempo que o modelo o1 leva para responder às perguntas e pelas restrições de uso da openai em o1, pode-se inferir que o1 requer recursos de computação de inferência muito maiores do que a série gpt.

os usuários pagos do chatgpt plus que gastam us$ 20 por mês só podem usar o1-preview 30 vezes e o1-mini 50 vezes por semana. o limite atual do gpt-4o é de 4.480 vezes por semana (80 vezes a cada 3 horas), o que é 90 vezes o do o1-mini e 150 vezes o do o1-preview.

o tempo para a visualização o1 responder às perguntas aumentou de segundos para os modelos da série gpt para dezenas de segundos ou até mais. ele também processa significativamente mais texto ao responder perguntas. tomemos como exemplo os problemas de programação listados no artigo ao mostrar o processo de "cadeia de pensamento". quando o1 o resolveu, incluindo a cadeia de pensamento, ele processou 6.632 caracteres, o que foi 4,2 vezes maior que o gpt-4o. tempo de cálculo mais longo e produção mais longa significam custos de energia de computação mais elevados.

o1 o estímulo às perspectivas de ia e ao consumo de energia computacional refletiu-se rapidamente no mercado de capitais. desde que a mídia noticiou no início desta semana que a openai está prestes a lançar um novo modelo, o preço das ações da nvidia se recuperou 10%, e a microsoft também subiu juntas.

para as empresas que não têm certeza sobre a direção da evolução tecnológica ou que abrandaram a sua investigação sobre modelos básicos, há agora novo trabalho a fazer e novas direções a seguir. a elevada probabilidade de libertação de o1 significa que, em termos de "modelos de inferência", o fosso competitivo aumentou mais uma vez, e uma ronda de recuperação e investimento acelerados está prestes a ocorrer.

“é hora de começar a trabalhar, caso contrário não estaremos mais no jogo”, disse um pesquisador chinês de modelos em grande escala.

imagem do título: visual china

em 1957, um objeto feito pelo homem entrou no universo pela primeira vez, orbitando a terra durante três semanas. quando os humanos olham para cima, eles podem ver um pequeno flash de luz cruzando o céu à noite, paralelo às estrelas míticas.

tais feitos atravessam raças e ideologias, provocando alegria em todo o mundo. mas não a alegria da vitória que poderíamos suspeitar ser movida por feitos humanos. de acordo com a observação da filósofa política hannah arendt na altura, o humor das pessoas está mais próximo de um alívio há muito esperado – a ciência finalmente alcançou as expectativas e “a humanidade está finalmente a sair da prisão da terra. foi levado.”

as pessoas sempre ajustam rapidamente suas expectativas em relação ao mundo com base na exploração tecnológica. quando a fantasia de um escritor de ficção científica se torna realidade, muitas vezes é quando a tecnologia finalmente alcança as expectativas das pessoas ou, nas palavras de arendt, “a tecnologia realiza e confirma que os sonhos das pessoas não são nem loucos nem niilistas”.

em momentos como hoje, é melhor sonhar mais.

essa também é a expectativa do “latepost” lançar a coluna tech tuesday. esperamos introduzir regularmente novas pesquisas científicas e progressos tecnológicos, além do mundo dos negócios ao qual "late" presta atenção diariamente.

podem ser sobre o progresso de uma pesquisa de ponta, a observação de uma aplicação tecnológica ou uma homenagem a algumas tecnologias excepcionais ou mesmo a uma época.

esta coluna registrará as diversas mudanças no mundo sob a perspectiva da ciência e da tecnologia. durante esta jornada, espero que os leitores possam se juntar a nós e obter um pouco mais de compreensão do mundo.

· fim ·

notícias

openai mais uma vez dá aos grandes modelos uma “bolha” para prolongar suas vidas

introdução

minhas informações de contato