openai lança novo modelo o1: será tão "atencioso" quantohumans

openai lança novo modelo o1: será tão “atencioso” quanto os humanos

2024-09-13

autor｜sukhoi

sem qualquer precaução, o tão esperado modelo “strawberry” da openai foi lançado.

fatia de introdução do modelo o1, fonte: openai

esta manhã, horário de pequim, a openai lançou um novo modelo chamado openai o1, que também era o "strawberry" relatado anteriormente, mas inicialmente o1 tinha o codinome "q *". o ceo da openai, sam altman, chamou isso de “o início de um novo paradigma”.

a julgar pelas informações oficiais da openai,resumindo, as características do o1 são: maior, mais forte, mais lento e mais caro.

através da aprendizagem por reforço (aprendizagem por reforço), o openai o1 fez progressos significativos nas capacidades de raciocínio. a equipe de p&d observou que com a extensão do tempo de treinamento (aumento do aprendizado por reforço) e do tempo de reflexão (cálculo durante o teste), o desempenho do modelo o1 melhorou gradativamente. os desafios de dimensionar esta abordagem são distintos das limitações de pré-treinamento de grandes modelos de linguagem (llms).

o desempenho do o1 melhora constantemente com o cálculo do tempo de treinamento e do tempo de teste, fonte: openai

em relação aos rumores no mercado de que “o modelo o1 pode executar de forma independente tarefas de nível de operação do navegador ou do sistema para os usuários”, as informações públicas atuais não mencionam esta função.

oficial da openai disse: "embora este modelo inicial ainda não tenha funções como busca de informações online, upload de arquivos e imagens, ele fez progressos significativos na resolução de problemas complexos de raciocínio, o que representa um novo nível de tecnologia de inteligência artificial. então nós foi decidi dar a esta série um novo ponto de partida e nomeá-la openai o1.”a principal aplicação do o1 ainda está focada na resposta e análise de perguntas por meio da interação de texto, ao invés de controlar diretamente o navegador ou sistema operacional.

ao contrário das versões anteriores,o modelo o1 "pensa profundamente" antes de dar uma resposta como um humano faria,leva cerca de 10 a 20 segundos para gerar uma longa cadeia de ideias internas e ser capaz de experimentar diferentes estratégias e identificar seus próprios erros.

essa poderosa capacidade de raciocínio oferece uma ampla gama de potencial de aplicação em vários setores, especialmente em tarefas científicas, matemáticas e de programação complexas. ao tratar de problemas de física, química e biologia, o desempenho do o1 é até comparável ao de estudantes de doutorado na área. no international mathematical olympiad qualifying examination (aime), a taxa de precisão do o1 foi de 83%, entrando com sucesso na classificação dos 500 melhores alunos dos estados unidos, enquanto a taxa de precisão do modelo gpt-4o foi de apenas 13%.

altman também compartilhou o1 no x, fonte: x

openai fornece alguns casos de uso específicos. por exemplo, pesquisadores médicos podem usar o1 para anotar dados de sequenciamento de células; mais.

a série o1 inclui três modelos, openai o1, openai o1-preview e openai o1-mini. ambos os modelos estão disponíveis para usuários a partir de hoje:

openai o1: modelo de inferência avançado, temporariamente não aberto ao público.

openai o1-prévia: esta versão se concentra mais no processamento de raciocínio aprofundado e pode ser usada 30 vezes por semana.

openai o1-mini: esta versão é mais eficiente e econômica, adequada para tarefas de codificação e pode ser usada 50 vezes por semana.

desenvolvedores e pesquisadores agora podem acessar esses modelos por meio do chatgpt e de interfaces de programação de aplicativos.

quanto ao preço, o the information deu anteriormente a notícia de que os executivos da openai estão discutindo o preço de seus próximos novos modelos grandes "strawberry" e "orion" em us$ 2.000 por mês, gerando muitas reclamações e condenações. mas hoje alguém descobriu que a assinatura do chatgpt pro já está online, custando us$ 200 por mês. a diferença de us$ 2.000 para us$ 200 torna difícil não sentir vontade de “tirar vantagem”. a guerra psicológica sobre o preço foi claramente travada pela openai.

em maio deste ano,altman encontra-se com a presidente do mit, sally kornbluthfoi mencionado em um bate-papo ao lado da lareira,gpt-5 pode separar dados de mecanismos de inferência.

"gpt-5 ou gpt-6 podem se tornar o melhor mecanismo de inferência. atualmente, a única maneira de obter o melhor mecanismo é treinar uma grande quantidade de dados."mas, na verdade, o modelo desperdiça muitos recursos de dados ao processar dados.como gpt-4. também funciona como um banco de dados, exceto que a inferência é lenta, cara e "menos que ideal".esses problemas são essencialmente um desperdício de recursos causado pela forma como o modelo é projetado e treinado.

"inevitavelmente, este é um efeito colateral da única maneira pela qual podemos criar modelos para motores de inferência."é separar a capacidade de raciocínio do modelo da demanda por big data.

mas no lançamento de hoje, o gpt-5 não apareceu e também faltou a ideia de separar dados e motores de inferência.

quanto ao preço, o the information deu anteriormente a notícia de que os executivos da openai planejavam fixar o preço dos novos modelos grandes "strawberry" e "orion" em us$ 2.000 por mês, o que gerou muitas reclamações e condenações. mas hoje alguém descobriu que a assinatura do chatgpt pro já está online, custando us$ 200 por mês.

a diferença de us$ 2.000 para us$ 200 torna difícil para os usuários não sentirem que estão tirando vantagem. a guerra psicológica sobre o preço é claramente travada pela openai.

2. polir a “cadeia de pensamento”

os grandes modelos sempre foram criticados pela sua “incapacidade de contar”.a razão fundamental é que os grandes modelos não têm a capacidade de conduzir o raciocínio estruturado.

o raciocínio é uma das principais habilidades da inteligência humana.grandes modelos são treinados principalmente por meio de dados de texto não estruturados, que geralmente incluem artigos de notícias, livros, textos de páginas da web, etc. o texto está na forma de linguagem natural e não segue regras lógicas ou estruturais estritas; portanto, o que o modelo aprende é principalmente como gerar linguagem com base no contexto, em vez de como raciocinar logicamente ou processar informações seguindo regras fixas.

mas muitas tarefas complexas de raciocínio são estruturadas.

como raciocínio lógico, resolução de problemas matemáticos ou programação. se quisermos sair de um labirinto, precisamos seguir uma série de regras lógicas e espaciais para encontrar a saída. esse tipo de problema exige que o modelo seja capaz de compreender e aplicar um conjunto de etapas ou regras fixas, algo que falta na maioria dos modelos grandes.

portanto, embora modelos como chatgpt e bard possam gerar respostas aparentemente razoáveis com base em dados de treinamento, eles são na verdade mais parecidos com "papagaios estocásticos".muitas vezes, eles não conseguem compreender verdadeiramente a lógica complexa por trás disso ou realizar tarefas de raciocínio avançadas.

lembre-se de que modelos grandes têm um bom desempenho ao processar texto não estruturado em linguagem natural, porque esse é o foco dos dados de treinamento. mas quando se trata de tarefas que exigem raciocínio lógico estruturado, muitas vezes elas têm dificuldade para serem executadas com precisão humana.

para resolver este problema, a openai pensou em usarcadeia de pensamento (cot)venha para “quebrar a situação”.

o encadeamento de pensamentos é uma tecnologia que ajuda os modelos de ia a raciocinar. funciona permitindo que o modelo explique cada etapa do processo de raciocínio, passo a passo, ao responder perguntas complexas, em vez de fornecer a resposta diretamente. portanto, quando o modelo responde a uma pergunta, é como um ser humano ao resolver um problema, primeiro pensando na lógica de cada passo, para depois deduzir gradativamente o resultado final.

no entanto, no processo de treinamento em ia, a rotulagem manual das cadeias de pensamento é demorada e cara. a quantidade de dados necessária sob a orientação da lei de escala é basicamente uma tarefa impossível para os humanos.

neste ponto, a aprendizagem por reforço torna-se uma alternativa mais prática.

a aprendizagem por reforço permite que o modelo aprenda por si mesmo por meio da prática e tentativa e erro. não requer anotação manual de como executar cada etapa. em vez disso, otimiza o método de resolução de problemas por meio de experimentação e feedback contínuos.

especificamente, o modelo ajusta seu comportamento com base nas consequências (boas ou ruins) das ações que realiza ao tentar resolver o problema. desta forma, o modelo pode explorar autonomamente múltiplas soluções possíveis e encontrar o método mais eficaz através de tentativa e erro. por exemplo, em jogos ou ambientes de simulação, a ia pode otimizar continuamente estratégias por meio do jogo autônomo e, eventualmente, aprender como executar tarefas complexas com precisão, sem orientação manual para cada etapa.

por exemplo, alphago, que varreu o mundo go em 2016, combinou métodos de aprendizagem profunda e aprendizagem por reforço, otimizou continuamente seu modelo de tomada de decisão por meio de um grande número de jogos auto-jogos e finalmente conseguiu derrotar o melhor jogador de go do mundo, lee sedol.

o modelo o1 usa o mesmo método do alphago para resolver problemas gradualmente.

neste processo, o1 melhora continuamente o seu processo de pensamento através da aprendizagem por reforço, aprende a identificar e corrigir erros, divide etapas complexas em partes mais simples e tenta novos métodos ao encontrar obstáculos. este método de treinamento melhora significativamente a capacidade de raciocínio do o1 e permite que o1 resolva problemas de forma mais eficaz.

greg brockman, um dos cofundadores da openai, está “muito orgulhoso” disso”,esta é a primeira vez que treinamos um modelo usando aprendizagem por reforço." ele disse.

fatias dos tweets de brockman, fonte: x

de acordo com brockman, o modelo da openai originalmente executava o pensamento do sistema 1 (tomada de decisão rápida e intuitiva), enquanto a tecnologia da cadeia de pensamento iniciou o pensamento do sistema 2 (pensamento cauteloso e analítico).

o pensamento do sistema 1 é adequado para respostas rápidas, enquanto o pensamento do sistema 2 usa a tecnologia de “cadeia de pensamento” para permitir que o modelo raciocine e resolva problemas passo a passo. a prática tem mostrado que através de tentativa e erro contínuos, o desempenho do modelo pode ser bastante melhorado treinando completamente o modelo do início ao fim (como quando aplicado em jogos como go ou dota).

além disso, embora a tecnologia o1 ainda esteja nos estágios iniciais de desenvolvimento, ela teve um bom desempenho em termos de segurança. por exemplo, o modelo melhorado pode ser utilizado para realizar um raciocínio aprofundado sobre a estratégia para melhorar a sua robustez contra ataques e reduzir o risco de fenómenos de alucinação. esta capacidade de raciocínio profundo já começa a mostrar resultados positivos nas avaliações de segurança.

“desenvolvemos um novo modelo baseado no modelo o1, permitimos que ele participasse da competição da olimpíada internacional de informática (ioi) de 2024 e obtivemos 213 pontos em 49% do ranking da openai.”

competiu nas mesmas condições que os competidores humanos, resolvendo seis problemas algorítmicos com 50 oportunidades de submissão cada. a eficácia de sua estratégia de seleção é demonstrada pela triagem de vários candidatos e pela seleção de envios com base em casos de teste públicos, casos de teste gerados por modelo e funções de pontuação, com pontuações médias superiores às de envios aleatórios.

quando o número de envios foi reduzido para 10.000 por pergunta, o modelo teve melhor desempenho e pontuação acima do padrão ouro. finalmente, o modelo demonstrou habilidades de codificação “incríveis” em uma simulação de competição de programação codeforces. o gpt-4o tem uma classificação elo de 808, o que o coloca no 11º percentil dos concorrentes humanos. e nosso novo modelo tem classificação elo de 1.807, superando 93% dos concorrentes.

o ajuste fino melhorou o desempenho do modelo o1 na competição de programação fonte: openai.

2. “tempos difíceis” da openai

antes do lançamento do o1, a openai estava sob uma nuvem de mudanças na gestão sênior da empresa.

em fevereiro deste ano, andrej karpathy, membro fundador da openai e cientista pesquisador, anunciou no x que havia deixado a empresa. capas disse que deixou a openai amigavelmente e “não por causa de qualquer incidente, problema ou drama específico”.

o ex-cientista-chefe e cofundador ilya sutskever anunciou sua renúncia em maio, e a equipe do super alignment também foi dissolvida. a indústria acredita que este é o equilíbrio da openai entre buscar avanços tecnológicos e garantir a segurança da ia.

a partir da direita, ilya sutskvi, greg brockman, sam altman e mira mulati. fonte: new york times

horas após o anúncio de ilya, jan leike, um dos inventores do rlhf e codiretor da equipe super alignment, também seguiu seus passos e saiu, mais uma vez adicionando mais incerteza ao futuro do sexo openai.

em agosto, o cofundador e cientista pesquisador da openai, john schulman, revelou sua saída e se juntou à anthropic para se concentrar em pesquisas aprofundadas sobre o alinhamento de ia. ele explicou que sua saída foi para se concentrar no alinhamento da ia e no trabalho técnico, não porque a openai não apoiasse a pesquisa de alinhamento. schulman agradeceu aos seus colegas da openai e expressou “total confiança” no seu desenvolvimento futuro.

a anthropic foi fundada pelos irmãos dario amodei, vice-presidente de pesquisa da openai, que renunciou em 2020, e daniela amodei, então vice-presidente de segurança e política.

brockman também anunciou um ano sabático no mesmo mês, suas “primeiras férias longas” desde a fundação da openai, nove anos atrás.

em 10 de setembro, alexis conneau, que lidera a pesquisa de interação de áudio dos modelos openai gpt-4o e gpt-5, anunciou sua renúncia e iniciou seu próprio negócio de pesquisa de conneau dedicado a realizar os recursos mostrados no filme "her" esse tipo de natural. experiência de interação por voz, mas o lançamento de produtos relacionados foi repetidamente adiado.

desde a sua criação, a openai tem atraído muita atenção pelo seu duplo estatuto de organização sem fins lucrativos e de comercialização. à medida que o processo de comercialização se acelerava, as tensões internas sobre a sua missão sem fins lucrativos tornaram-se cada vez mais evidentes, o que também contribuiu para o desgaste dos membros da equipa. enquanto isso, um recente processo movido por elon musk também pode estar relacionado ao desgaste.

o pesquisador da openai, daniel kokotajlo, disse em uma entrevista exclusiva à mídia após sua renúncia que durante o incidente de "luta no palácio" ocorrido no ano passado, altman foi brevemente demitido e rapidamente reintegrado. os três membros do conselho focados na segurança da agi foram removidos. “isso permite que altman e brockman consolidem ainda mais o poder, enquanto aqueles que estão principalmente preocupados com a segurança agi são marginalizados. (altman) eles se desviam dos planos da empresa para 2022.”

além disso, a openai enfrenta uma perda esperada de até 5 bilhões de dólares americanos e custos operacionais de até 8,5 bilhões de dólares americanos, a maioria dos quais são custos de aluguel e treinamento de servidores. para fazer face à elevada pressão operacional, a openai procura uma nova ronda de financiamento, com uma avaliação que pode ultrapassar os 100 mil milhões de dólares, e potenciais investidores como microsoft, apple e nvidia manifestaram interesse. os executivos da empresa procuram investimentos a nível global para apoiar as suas crescentes necessidades de capital.

para aliviar a pressão financeira, a openai busca uma nova rodada de financiamento de acordo com reportagem do new york times no dia 11, a openai também esperava arrecadar aproximadamente us$ 1 bilhão na semana passada a uma avaliação de us$ 100 bilhões. no entanto, como o poder computacional necessário para construir sistemas de ia em grande escala levará a despesas maiores, a empresa decidiu recentemente aumentar o seu montante de financiamento para 6,5 mil milhões de dólares.

no entanto, alguns meios de comunicação estrangeiros citaram pessoas familiarizadas com o assunto e análises de dados financeiros internos não divulgados, dizendo que a openai pode enfrentar enormes perdas de até 5 mil milhões de dólares americanos este ano, e os custos operacionais totais deverão atingir 8,5 mil milhões de dólares americanos. entre eles, o custo do aluguel de servidores da microsoft chega a us$ 4 bilhões, e o custo do treinamento de dados é de us$ 3 bilhões. a pressão financeira sobre a empresa é ainda agravada pelos custos de funcionamento mais elevados de modelos mais avançados, como o strawberry e o orion.

(fonte da imagem da capa: openai)

notícias

openai lança novo modelo o1: será tão “atencioso” quanto os humanos

introdução

minhas informações de contato