notícias

o openai "strawberry" vale um trilhão?

2024-09-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

autor | bi andi, editor |

o que ultraman e ma baoguo têm em comum? resposta: todos gostam de realizar ataques furtivos.

a notícia do “strawberry” já circula há vários meses. diz-se que se trata de um projeto misterioso dentro do openai, que parece bem diferente do modelo da geração anterior. mas a openai tem mantido isso em segredo. o momento mais próximo de ser exposto foi uma foto de morangos reais postada pelo ceo sam altman nas redes sociais.

há poucos dias, o the information deu a notícia de que “strawberry” será lançado nas próximas duas semanas.

mesmo com tanta atenção, a openai ainda pegou o mundo de surpresa: na tarde de 12 de setembro, horário local, sem qualquer aviso ou coletiva de imprensa, a openai lançou repentinamente um novo modelo.

porém, o nome do novo modelo não é tão delicioso quanto “morango”, mas muito sério e significativo: o1.

você sabe, o modelo openai já foi iterado na série "gpt" antes, do gpt-1 em 2018 ao gpt-4o em maio deste ano. hoje, a openai está abrindo uma nova linha.

na postagem do blog oficial anunciando o1, a openai disse o seguinte: “como um modelo inicial, ainda não possui muitos dos recursos que tornam o chatgpt útil... mas para tarefas de inferência complexas, esta é uma melhoria significativa e representa capacidades de ia. diante disso, redefinimos o contador para 1 e nomeamos esta série como openai o1.”

o novo modelo está atualmente aberto apenas para assinantes pagantes do chatgpt e alguns programadores. para mostrar que o modelo ainda não está maduro, ele é temporariamente chamado de "o1-preview", e visualização significa visualização. além disso, a openai também lançou uma versão pequena do modelo o1-mini. seja o1-preview ou o1-mini, atualmente há um limite no número de respostas por semana.

o próprio ultraman elogiou o novo modelo nas redes sociais

gary marcus, um estudioso de ia que sempre gosta de jogar água fria no chatgpt, brincou que a mudança da openai é uma “receita familiar”: anunciar a demonstração, abri-la para um número limitado de usuários, arrecadar fundos e fazer de novo.

no momento em que o1 foi lançado, a openai estava passando por uma nova rodada de financiamento. de acordo com as últimas notícias da bloomberg, esta ronda de financiamento será um grande evento com uma escala de dezenas de milhares de milhões de dólares americanos e uma avaliação alvo de 150 mil milhões de dólares.

01

vamos dar uma olhada no modelo em si primeiro.

conforme rumores anteriores, o foco principal do o1 é o “raciocínio”. a chave por trás do “raciocínio” é “pensar”.

para os usuários, a sensação mais intuitiva é que a visualização o1 demorará mais para responder à pergunta.

no modelo de visualização o1, a lista alfabética pergunta ao chatgpt "que dia do mês e dia da semana é hoje?" após o envio da pergunta, o chatgpt exibe suas etapas de pensamento em andamento, uma por uma: responder à pergunta sobre a data, revisar as diretrizes, entender a data atual e, em seguida, dar a resposta, marcada como "pense por 8 segundos".

em contraste, no modelo gpt-4o, o chatgpt dá uma resposta direta em 3 segundos, sem mostrar etapas intermediárias.

"este é um novo grande modelo de oráculo treinado por meio de aprendizado por reforço e projetado para realizar tarefas complexas de raciocínio. o1 pensa antes de responder a perguntas - ele pode gerar uma longa 'cadeia de pensamento' interna antes de responder ao usuário."

desta vez, o modelo o1 foi lançado, os funcionários da openai revelaram poucos detalhes técnicos e o que enfatizaram repetidamente foi a “cadeia de pensamento”.

de acordo com a openai, o1 usa cadeias de pensamento ao tentar resolver problemas, assim como os humanos pensam muito antes de responder a uma pergunta difícil. através da aprendizagem por reforço, o1 aprendeu a refinar sua cadeia de pensamento e otimizar suas estratégias de uso. é capaz de reconhecer e corrigir seus próprios erros e aprender a dividir etapas complexas em etapas mais simples. quando o método atual não funciona, ele tenta um método diferente.

"este processo melhora muito as capacidades de inferência do modelo."

então, quão forte é a habilidade de o1? além dos diversos vídeos de demonstração divulgados pela openai, o mais convincente são os resultados dos testes. a openai afirma que o1 tem um desempenho “comparável ao de especialistas humanos” em uma série de benchmarks com uso intensivo de inferência e supera as técnicas anteriores. por exemplo, na olimpíada internacional de matemática (imo), a pontuação técnica anterior era de 13% e a pontuação de o1 chegava a 83%.

na competição de programação codeforces, o1 obteve excelente pontuação de 89%. com base no o1, a openai também desenvolveu o o1-ioi, que é melhor em programação, e seus resultados ultrapassaram 93% dos competidores de uma só vez.

outro teste que o openai “mostra” especificamente é o gpqa-diamond, que é um teste de referência para especialização em química, física e biologia. a openai convidou especialistas com doutorado para competir e descobriu que “o desempenho do o1 excedeu o desses especialistas humanos”.

a openai também disse que depois de habilitar os recursos de percepção visual, o1 obteve 78,2% no teste mmmu, “tornando-se o primeiro modelo que pode competir com especialistas humanos”. além disso, o1 supera o gpt-4o em 54 das 57 subcategorias mmlu.

em suma, o1 presta mais atenção à capacidade de raciocínio do que os modelos anteriores da openai, e as suas capacidades em matemática e programação foram especialmente melhoradas, para exagerar, é como um médico em boxe e um especialista em pontapés. , também se espera que reduza a ilusão do modelo.

02

no entanto, o1 ainda está em um estágio relativamente inicial, como enfatizou ultraman, “ainda existem falhas e limitações”.

somente na tentativa superficial da lista alfabética ocorreram erros na visualização o1. por exemplo, quando questionado "qual é maior, 9,11 ou 9,9?", gpt-4o respondeu incorretamente, e o1-preview também respondeu incorretamente, dizendo seriamente que "9,11 é realmente maior que 9,9. porque 9,11 (ou seja, 9,11) é maior que 9,9 (9,90)." há um toque de humor na verbosidade, sem falar que demorou 15 segundos para pensar no assunto.

as informações também relataram que alguns usuários que experimentaram o o1-preview disseram que muitas interações “não valiam os 10 a 20 segundos extras de espera” e que preferiam a velocidade de resposta do gpt-4o.

atualmente, o1-preview e o1-mini estão abertos a usuários pagantes, mas o número é limitado: o1-preview tem 30 mensagens por semana e o1-mini tem 50 mensagens por semana.

a partir da próxima semana, ambos os modelos também estarão acessíveis para usuários empresariais e educacionais (edu) do chatgpt. a openai também afirmou que gostaria de fornecer o1-mini gratuitamente a todos os usuários no futuro, mas o horário específico não foi anunciado.

esta é a primeira vez que a openai adiciona um sufixo semelhante a “visualização” ao lançar um modelo. anteriormente, tanto o gpt-4 quanto o gpt-4o lançaram diretamente o modelo completo.

uma característica do o1 que não pode ser ignorada é que ele é caro.

o custo do acesso do desenvolvedor ao o1 é muito alto: em termos de api, o o1-preview cobra us$ 15 por 1 milhão de tokens de entrada ou blocos de texto analisados ​​pelo modelo, três vezes mais que o gpt-4o, e us$ 60 por 1 milhão de tokens de saída usd , quatro vezes maior que o gpt-4o.

a atlantic analisou no relatório que o1 foi especificamente concebido para exigir mais tempo, o que inevitavelmente consumirá mais recursos e aumentará a dificuldade de rentabilidade da aigc.

03

gary marcus, mencionado no início deste artigo, é um estudioso da interseção da neurociência humana e da inteligência artificial, professor honorário da universidade de nova york e fundador e ceo da startup de ia geometric intelligence. é ""o espinho no mundo da ia" criticou repetidamente o openai.

em sua opinião, o lançamento repentino do o1-preview pela openai é mais um método de propaganda.

afinal, a openai está passando por uma importante rodada de financiamento. de acordo com o último relatório da bloomberg, a openai está negociando para levantar us$ 6,5 bilhões de investidores em uma avaliação de us$ 150 bilhões. bancos na forma de crédito rotativo.

“envie uma demonstração, abra-a para usuários limitados, arrecade dinheiro e repita.” é assim que marcus resume os “meios” da openai.

em julho deste ano, the information informou que a openai pode perder até us$ 5 bilhões este ano. entre eles, os custos com funcionários da openai este ano são de cerca de us$ 1,5 bilhão, os custos de treinamento e inferência em ia podem chegar a us$ 7 bilhões e a receita anual deverá ficar entre us$ 3,5 bilhões e us$ 4,5 bilhões.

naquela época, the information previu que, nesse ritmo de queima de dinheiro, a openai precisaria em breve arrecadar fundos. o último financiamento importante para a openai foi no início de 2023, quando a microsoft investiu dezenas de bilhões de dólares.

esta não é a primeira vez que a openai lança “produtos imaturos” em nós importantes.

em outubro do ano passado, houve notícias de que a openai estava tentando vender ações. naquela época, corria o boato de que a possível avaliação era de us$ 86 bilhões. mas no mês seguinte, a openai passou por uma mudança chocante em sua alta administração. altman foi expulso da empresa, mas logo retornou ao cargo de ceo, vencendo a “batalha do palácio”. no entanto, o plano de venda de ações foi brevemente adiado e não houve notícias de que a transação estava “de volta aos trilhos” até o final de novembro. naquela época, pessoas familiarizadas com o assunto disseram que os funcionários estavam preocupados que a emergência pudesse afetar as vendas de ações e afetar a avaliação da empresa.

curiosamente, em 15 de fevereiro deste ano, a openai anunciou repentinamente um novo modelo de geração de vídeo sora, e a demonstração causou choque no mundo exterior. em três dias, o new york times informou que a openai concluiu a venda de ações dos funcionários e a avaliação da empresa ultrapassou us$ 80 bilhões “conforme esperado”.

mais de meio ano se passou e sora não foi aberto ao público, nem mesmo promoveu testes em larga escala. o mundo exterior começou a suspeitar que sora realmente não tinha poder computacional suficiente para suportar sua operação. um relatório divulgado pela organização de pesquisa de mercado factorial funds acredita que serão necessários 720.000 chips nvidia h100 para implantar o sora.

no início de setembro, o "taiwan economic daily" informou que o chip de nível angstrom a16 da tsmc já havia recebido pedidos de grandes clientes, incluindo apple e openai. openai usará chips personalizados para aprimorar os recursos de geração de vídeo do sora. isso também parece confirmar que sora já encontrou um congestionamento de poder de computação antes.

agora que o chatgpt com sabor de morango está aqui, talvez em breve veremos a notícia de que a openai concluiu com sucesso uma nova rodada de financiamento e está avaliada em mais de um trilhão de yuans.