pesado! um grande modelo de raciocínio openai que pode “pensar na lógica de resolução de problemas” está no mercado, e a cognição saltará para o “nível de um estudante de doutorado em ciências”

pesado! o modelo de raciocínio openai em grande escala que pode "pensar na lógica da resolução de problemas" está em cena, e a cognição saltará para o "nível de um estudante de doutorado em ciências"

2024-09-13

por volta da 1h de sexta-feira, horário de pequim, a era da ia inaugurou um novo ponto de partida: grandes modelos capazes de raciocínio geral e complexo finalmente chegaram ao primeiro plano.

fonte da imagem: visual china-vcg31n2008743681

openai anunciou em seu site oficial que,começou a divulgar o modelo de visualização openai o1 para todos os assinantes - o amplamente aguardado modelo grande "strawberry". openai afirmou que para tarefas de raciocínio complexas,novo modelo representa um novo nível de capacidades de inteligência artificial, então vale a pena zerar a contagem para 1 e dar a ela um novo nome diferente da série "gpt-4".

as características de grandes modelos de inferência sãoa ia passará mais tempo pensando antes de responder, assim como os humanos pensam no processo de resolução de problemas. a lógica por trás dos grandes modelos anteriores era prever a sequência de geração de palavras aprendendo padrões em um grande número de conjuntos de dados. a rigor, eles não entenderam realmente a questão.

como a primeira versão do modelo da série o1, a openai lançou apenas a versão prévia o1-preview e a mini versão o1-mini, e foi lançada em etapas para usuários pagantes, usuários gratuitos e desenvolvedores, e o preço para desenvolvedores é bastante caro .

o custo de uso do modelo o1 é pelo menos 3 vezes maior que o do gpt-4o. ele é treinado usando um novo método.

segundo relatos, o novo modelo o1 pode responder a problemas mais complexos de programação, matemática e científicos por meio do novo método de treinamento por trás dele. ele “pensará” antes de dar a resposta e é mais rápido que os humanos. a miniversão menor e mais barata concentra-se em casos de uso de programação.

os usuários pagos do chatgpt plus e team terão acesso imediato a ambos os modelos, selecionando manualmente no menu suspenso do seletor de modelo ai na interface do usuário. ambos os modos estarão disponíveis para usuários chatgpt enterprise e edu na próxima semana, e o acesso ao o1-mini será disponibilizado para todos os usuários gratuitos em um momento desconhecido no futuro. a openai espera selecionar automaticamente o modelo correto com base nas solicitações no futuro.

no entanto, o acesso do desenvolvedor ao o1 é muito caro. na api (application programming interface), o o1-preview cobra us$ 15 por 1 milhão de tokens de entrada, três vezes o custo do gpt-4o, e us$ 60 por 1 milhão de tokens de saída. quatro vezes o custo do gpt-4o. um milhão de tokens é o tamanho do bloco de texto que o modelo analisa, o que equivale a aproximadamente 750.000 palavras.

jerry tworek, chefe de pesquisa da openai, disse à mídia:o1o método de treinamento por trás dele é fundamentalmente diferente dos modelos anteriores.

primeiro, o1 foi “treinado usando um algoritmo de otimização completamente novo e um novo conjunto de dados de treinamento adaptado especificamente para ele”, que continha “dados de inferência” e literatura científica adaptada especificamente para ele.

em segundo lugar, o método anterior de treinamento do modelo gpt consistia em imitar as regras/paradigmas do conjunto de dados, enquanto o1 usa "aprendizado por reforço" para ensinar o modelo a resolver problemas por conta própria por meio de recompensas e punições e, em seguida, por meio da "cadeia de ideias "(cadeia de ideias) pensamentos) para lidar com problemas de consulta do usuário e fornecer uma versão resumida da cadeia de pensamentos, semelhante à maneira como os humanos lidam com os problemas passo a passo.

na imagem à direita você pode clicar na cadeia de ideias para ver como o modelo o1 “pensa”

um diagrama que mostra a cadeia de ideias para um problema matemático complexo

a openai acredita que este novo método de treinamento tornará o modelo o1 mais preciso e reduzirá o problema da “alucinação” de inventar respostas, mas não pode eliminar completamente a ocorrência de “alucinação”. a principal diferença entre o novo modelo e o gpt-4o é que ele pode resolver melhor problemas complexos como programação e matemática, ao mesmo tempo que melhora seu processo de raciocínio, experimentando diferentes estratégias e identificando e corrigindo erros em suas próprias respostas.

a cognição saltará para o “nível de um estudante de doutoramento em ciências”

openai explicou que o gpt-4, lançado em 2023, é semelhante ao nível de inteligência dos alunos do ensino médio, enquanto o gpt-5 completa o crescimento da ia de “alunos do ensino médio ao doutorado”. este modelo o1 é um passo fundamental.

em comparação com os grandes modelos existentes, como o gpt-4o, o openai o1 pode resolver problemas de raciocínio mais difíceis, ao mesmo tempo que melhora as falhas mecânicas existentes nos modelos anteriores.

por exemplo, o novo modelo pode contar quantos “r” existem no morango.

ao mesmo tempo, a ia será mais organizada ao responder questões de programação.antes de começar a escrever código, pense em todo o processo de resposta.e, em seguida, produza o código.

por exemplo, na tarefa de escrever poesia com condições predefinidas (por exemplo, a última palavra da segunda frase precisa terminar com i), o gpt-4o, que "pega a caneta e escreve", dá uma resposta, mas muitas vezes apenas parte das condições é atendida. também não se autocorrige. isso significa que a ia deve encontrar a resposta correta na primeira vez que for gerada, caso contrário cometerá erros. mas no modelo o1, a ia continuará a tentar e errar e a aperfeiçoar as suas respostas, melhorando assim significativamente a precisão e a qualidade dos resultados gerados.

o interessante é que quando você clica no processo de pensamento da ia, a ia também aparecerá dizendo “estou pensando sobre isso, posso fazer isso?”, “ah, não tenho tempo suficiente, eu tem que dar a resposta o mais rápido possível”, etc. a openai confirmou que o que é mostrado aqui não é a cadeia de pensamento original, mas um “resumo gerado pelo modelo”, e a empresa também admitiu francamente que há fatores para manter uma “vantagem competitiva” aqui.

jerry tworek, chefe de pesquisa da openai, revelou que o treinamento por trás do modelo o1 é fundamentalmente diferente dos produtos anteriores.embora os modelos gpt anteriores tenham sido projetados para imitar padrões em seus dados de treinamento, o o1 foi treinado para resolver problemas por conta própria. no processo de aprendizagem por reforço, mecanismos de recompensa e punição são usados para “educar” a ia a usar “cadeias de pensamento” para lidar com problemas, assim como os humanos aprendem a desmantelar e analisar problemas.

de acordo com o teste,o modelo o1 conseguiu pontuar 83% no exame de qualificação para a olimpíada internacional de matemática, enquanto o gpt-4o conseguiu resolver apenas 13% dos problemas corretamente.na competição de capacidade de programação codeforces, o modelo o1 obteve 89%, enquanto o gpt-4o obteve apenas 11%.

openai disse que com base em testes, na próxima versão atualizada,a ia pode funcionar em nível de doutorado em benchmarks desafiadores em física, química e biologia。

desvantagens: incapaz de navegar em páginas da web em tempo real, incapaz de fazer upload de arquivos e fotos, falta de amplo conhecimento mundial ou propenso a alucinações

mas como a versão inicial do modelo o1, a versão de pré-visualização o1 lançada hoje também tem deficiências óbvias. por exemplo, é apenas uma "versão somente texto" que temporariamente não pode navegar pelas informações da web e fazer upload de arquivos e imagens, o que significa que não possui muitas das funções do chatgpt. não é tão poderoso quanto o gpt-4o em muitos aspectos comuns. casos de uso e há restrições de uso, a versão de visualização o1 tem um limite semanal de 30 mensagens e a versão mini tem um limite semanal de 50 mensagens.

outras limitações mencionadas incluem: o modelo o1 não é tão capaz quanto o gpt-4o em muitas áreas e tem um desempenho ruim no conhecimento factual sobre o mundo; a capacidade de raciocínio é mais lenta em alguns casos de uso e pode demorar mais para responder às perguntas; apenas um modelo de texto puro, sem a capacidade de raciocinar sobre documentos específicos ou coletar informações em tempo real da rede.

além disso, deixar o modelo de ia jogar tic-tac-toe sempre foi considerado um problema na indústria. o novo modelo o1 com capacidade de raciocínio ainda cometerá erros neste jogo, ou seja, não conseguirá superar completamente as dificuldades técnicas. .

a openai também admitiu em um artigo técnico que recebeu algum "feedback anedótico" de que a visualização o1 e a mini versão eram mais propensas a produzir "ilusões" do que o gpt-4o e sua mini versão, ou seja, a ia ainda era muito confiante. invente respostas e o1 raramente admitirá que não sabe a resposta a uma pergunta.

techcrunch, uma conhecida mídia de tecnologia, destacou que a openai apontou em uma postagem de blog relacionada ao modelo o1 que decidiu não mostrar aos usuários a “cadeia de pensamento” original deste novo modelo, mas optou por fornecer um resumo do cadeia de pensamento na resposta. o objetivo é manter uma "vantagem competitiva" e compensar possíveis deficiências, "nos esforçamos para ensinar o modelo a reproduzir quaisquer ideias úteis na cadeia de pensamento em suas respostas".

notícias econômicas diárias, informações públicas abrangentes

notícias econômicas diárias

relatório/comentários

notícias

pesado! o modelo de raciocínio openai em grande escala que pode "pensar na lógica da resolução de problemas" está em cena, e a cognição saltará para o "nível de um estudante de doutorado em ciências"

o custo de uso do modelo o1 é pelo menos 3 vezes maior que o do gpt-4o. ele é treinado usando um novo método.

a cognição saltará para o “nível de um estudante de doutoramento em ciências”

desvantagens: incapaz de navegar em páginas da web em tempo real, incapaz de fazer upload de arquivos e fotos, falta de amplo conhecimento mundial ou propenso a alucinações

introdução

minhas informações de contato