o1 cadeia de pensamento completa se torna o tabu número um no openai! se você fizer muitas perguntas, aguarde até que sua conta seja banida

o1 cadeia de pensamento completa se torna o tabu número um no openai! se você fizer muitas perguntas, espere que sua conta seja banida.

2024-09-14

avisar! não pergunte no chatgpt o que o modelo o1 mais recente pensa——

experimente algumas vezes e a openai enviará um e-mail para vocêameaçando revogar suas qualificações。

interrompa esta atividade e certifique-se de que o uso do chatgpt esteja em conformidade com nossos termos de uso. as violações desta disposição podem resultar na perda do acesso openai o1.

menos de 24 horas após o lançamento do novo modelo grande o1, muitos usuários relataram ter recebido este e-mail de aviso, causando insatisfação.

algumas pessoas relataram que, desde que as palavras do prompt contenham palavras-chave como “traço de raciocínio” e “mostre sua cadeia de pensamento”, elas receberão um aviso.

mesmo que as palavras-chave sejam completamente evitadas e outros meios sejam usados para induzir o modelo a contornar as restrições, elas serão detectadas.

algumas pessoas alegaram que suas contas foram banidas por uma semana.

todos esses usuários estão tentando enganar o1 e pedir que ele repita o que disseprocesso de pensamento interno completo, isto é, todos os tokens de raciocínio originais.

atualmente, você pode usar o botão de expansão na interface do chatgptpode ser visto, é simplesmente uma revisão do processo de pensamento originalresumo。

na verdade, quando o1 foi lançado, a openai deu motivos para ocultar todo o processo de pensamento do modelo.

para resumir: openai precisa monitorar internamente o processo de pensamento do modelo, portanto, restrições de segurança não podem ser adicionadas a esses tokens originais, o que torna sua visualização inconveniente para os usuários.

no entanto, nem todos concordam com este motivo.

alguém apontou queo1o processo de pensamento é o melhor dado de treinamento para outros modelos, então a openai não quer que esses dados valiosos sejam roubados por outras empresas.

algumas pessoas também pensam que isso mostra que o1 realmente não tem fosso. uma vez exposto, o processo de pensamento pode ser facilmente copiado por outros.

e “esta é a resposta que nos permite confiar cegamente na ia sem qualquer explicação?”

em relação aos princípios técnicos por trás do modelo o1, muito pouco foi revelado desta vez, e a única informação eficaz foi “foi utilizada aprendizagem por reforço”.

resumindo, a openai está se tornando cada vez menos aberta.

o1 é morango, mas não gpt-5

agora é certo que o1 é o que a openai vem promovendo há muito tempo."morango", ou seja, utilizando o método representado pelo “morango”.

mas pode ser considerado o modelo gpt-5 da próxima geração ou é apenas gpt-4.x?

mais e mais pessoas estão começando a suspeitar que se trata apenas de um ajuste de engenharia baseado no gpt-4o.

a conhecida conta de última hora flowers (anteriormente flowers from the future) disse:os funcionários da openai referem-se internamente a o1 como "4o com raciocínio"。

eele afirmou que muitos funcionários da openai gostaram silenciosamente da notícia, a captura de tela acima também é de um funcionário da openai.

mas musk mudou recentemente o twitter para que ninguém, exceto o autor da postagem original, pudesse ver quem gostou do quê, então esta notícia ainda não pode ser confirmada.

no evento “ask me anything” realizado pela conta de desenvolvedor openai, flowers também fez perguntas.

os funcionários da openai respondem a muitas perguntas aqui, mas evite esta que está no topo da lista de curtidas.

até ultraman benman apareceu como o charada novamente, sugerindo que “strawberry” chegou ao fim, e o próximo terá o codinomeórionnovos modelos estão a caminho.

foi relatado anteriormente que "orion" é o novo modelo carro-chefe da próxima geração da openai, treinado por dados sintéticos gerados por "strawberry", também conhecido como o1.

orion é um dos representantes das “constelações de inverno” na boca do ultraman.

voltando ao o1 lançado, outra crítica em torno dele é“não atende aos padrões de pesquisa científica”。

por exemplonenhum trabalho anterior relacionado sobre cálculos de tempo de inferência é citado., e tambémfalta de comparação com modelos de última geração de outras empresas。

em relação ao ponto anterior, algumas pessoas salientaram que a openai já não é um laboratório de investigação e deve ser considerada uma empresa comercial.

às vezes, eles ainda fingem ser um laboratório de pesquisa para recrutar pessoas que queiram fazer pesquisas.

porém, em relação a este último ponto, agora que a api foi lançada, não cabe a você compará-la com outros modelos de ponta. muitos benchmarks de terceiros já produziram resultados.

us$ 1 milhão em poder do pai de kerasprêmio agidurante a competição, as versões o1-preview e o1-mini tiveram um bom desempenho no conjunto de testes públicos.excedeu seu próprio gpt-4o。

mas o1-visualizaçãoapenas um empate com o claude 3.5-sonnet ao lado。

focado em publicidade em o1capacidade de codificaçãosuperior,auxiliar de ferramenta de programação de pares de código abertoa equipe fez testes e a série o1 tambémnenhuma vantagem óbvia。

para toda a tarefa de reescrita de código, o1-preiview marcou 79,7 pontos, claude-3.5-sonnet marcou 75,2 pontos e o1 liderou por 4,5 pontos.

mas para tarefas mais práticas de edição de código, o1-preview fica atrás de claude-3.5-sonnet, com uma diferença de 2,2 pontos.

além disso, a equipe assessora lembra que se quiser usar a série o1 para substituir a programação de claude, o custo será bem maior.

parceria com openai"programador de ia" devina equipe obteve qualificação de acesso o1 antecipadamente.

em seus testes, a versão básica do devin conduzida pela série o1 obteve uma melhoria muito grande em comparação com o gpt-4o.

masainda há uma grande lacuna em comparação com a versão de produção lançada do devin., principalmente devido ao fato de a versão de produção do devin ser treinada em dados proprietários.

além disso, a equipe de devin compartilhou que o1 frequentemente recua e considera diferentes opções antes de chegar à solução correta, e é menos provável que tenha alucinações ou esteja confiantemente errado.

ao usar a visualização o1, deviné mais provável diagnosticar corretamente a causa raiz de um bug do que resolver os sintomas do problema。

com mais ênfase em matemática e raciocínio lógicobanco ao vivona lista, o1-preview está na listaatrás no código de categoria únicano caso, a pontuação total éultrapassar claude-3.5-sonnet e abrir uma lacuna clara。

a equipe do livebench compartilhou que esses são apenas resultados preliminares, porque muitos testes também possuem palavras de prompt integradas, como "por favor, pense passo a passo", o que não é a melhor maneira de usar o1.

referência de avaliação abrangente para grandes modelos em chinêsteste de raciocínio de alto nível para tarefas complexas chinesas do supercluemeio,a capacidade de raciocínio da visualização o1 também está significativamente à frente.。

finalmente, para resumir, há algumas coisas que você precisa prestar atenção ao usar o modelo o1:

o custo é muito alto, 1 milhão de tokens de saída custam 60 dólares americanos e o preço retorna à era gpt-3 da noite para o dia.

os tokens de ressonância ocultos também estão incluídos nos tokens de saída e não podem ser vistos, mas devem ser pagos.

para a maioria das tarefas, é melhor usar o gpt-4o primeiro e depois mudar para o1 quando não for suficiente para economizar custos.

as tarefas de código ainda preferem claude-3.5-sonnet

resumindo, a comunidade de desenvolvedores ainda tem muitas dúvidas em torno do novo modelo o1 da openai.

o1 abriu um novo paradigma para o raciocínio de alto nível em ia, mas ainda não é perfeito e ainda precisa ser explorado como maximizar seu valor.

neste contexto, o evento “perguntas e respostas” da openai recebeu centenas de perguntas em 4 horas.

anexado abaixo está uma seleção e resumo de todo o evento.

os funcionários da openai respondem a todas as suas perguntas

em primeiro lugar, muitas pessoas estão curiosas sobre este novo modelo que foi lançado repentinamente. por que a openai lhe deu um nome como o1?

isso ocorre porque, ao olhar para o openai, o1 representa um novo nível de recursos de ia, então o “contador” é zerado e o representa o openai.

assim como ultraman disse quando o1 foi lançado, o1, que pode realizar raciocínios complexos, é o início de um novo paradigma.

em relação aos dois números de versão, preview e mini, os cientistas da openai também confirmaram algumas das especulações dos internautas——

a visualização é uma versão temporária,a versão oficial será lançada no futuro(na verdade, a versão de visualização é um ponto de verificação inicial de o1);não há garantia de que a versão mini será atualizada em um futuro próximo.。

olhando para esta imagem divulgada anteriormente por kevin lu, membro da openai, fica ainda mais claro.

comparado com a visualização, o mini tem um bom desempenho em certas tarefas, especialmente tarefas relacionadas ao código, e também pode explorar mais cadeias de pensamento, mas tem relativamente menos conhecimento de mundo.

a este respeito, o cientista da openai zhao shengjia explicou que,mini é um modelo altamente especializado que se concentra apenas em um pequeno conjunto de recursos, para que você possa ir mais fundo.

pode ser considerado como revelador de um enigma que ultraman já havia resolvido sobre esse assunto antes.

em relação ao funcionamento do o1, o cientista da openai noam brown também deixou claro que não se trata de um “sistema” composto por modelo + cot como alguns internautas pensam, mas sim umum modelo que foi treinado para ter a capacidade de gerar cadeias de pensamento nativamente。

porém, a cadeia de pensamento durante o processo de raciocínio ficará oculta, e o responsável deixou claro que não há planos de mostrar o token aos usuários.

as poucas novidades que a openai revelou é que os tokens relevantes do cot são resumidos e não há garantia de que correspondam completamente ao processo de raciocínio.

além do modo de raciocínio, você também pode aprender nesta atividade de perguntas e respostas,o1 pode lidar com textos mais longos que o gpt-4o e continuará a fazê-lo no futuro。

em termos de desempenho, nos testes internos da openai,o1 mostra a capacidade de raciocínio filosófico, pode refletir sobre questões filosóficas como "o que é a vida?"

os pesquisadores também usaram o1 para criar um bot github capaz de enviar código aos proprietários para revisão.

é claro que, para algumas tarefas não inferenciais, comona escrita criativa, o desempenho do o1 não é significativamente melhorado em comparação com o gpt-4o e, às vezes, é até ligeiramente inferior.。

além disso, com base em algumas perguntas, a openai disse que está estudando ou tem planos de estudar algumas funções inéditas que preocupam os internautas, mas não há um horário de lançamento claro:

as chamadas de ferramentas ainda não são suportadas, mas as chamadas de função e os intérpretes de código estão planejados para o futuro.

as atualizações futuras da api adicionarão saída estruturada, palavras de prompt do sistema e funções de cache de palavras de prompt.

o ajuste fino também está planejado

os usuários da api poderão definir seus próprios limites de tempo de inferência e consumo de token

o1 tem capacidades multimodais, visando sota em mmmu e outros conjuntos de dados, e será implementado posteriormente.

em termos de desempenho, a openai também está trabalhando para reduzir a latência e o tempo necessário para inferência.

finalmente, há a questão do preço que preocupa as pessoas, especialmente os usuários da api. afinal, considerando que o processo de raciocínio está incluído no token de saída, o preço do o1 ainda é relativamente alto.

openai disse“seguirá a tendência de redução de preços a cada 1-2 anos”, e os preços de api em massa também entrarão em vigor quando os limites de uso se tornarem mais flexíveis.

além disso, os usuários do lado da web/app estão atualmente limitados a visualizar 30 ou menos 50 mensagens por semana.

mas a boa notícia é que esta manhã, porque as pessoas estavam tão entusiasmadas com o o1, muitas pessoas esgotaram rapidamente a sua quota, por issocaso especial openai redefine a cota uma vez。

— sobre —

notícias

o1 cadeia de pensamento completa se torna o tabu número um no openai! se você fizer muitas perguntas, espere que sua conta seja banida.

introdução

minhas informações de contato