o novo modelo da openai é comparável a um doutorado? pedi ao dr. qingbei para provar: wake up

o novo modelo da openai é comparável a um doutorado? pedi ao dr. qingbei para provar: acorde.

2024-09-14

para ser sincero, não suporto essas empresas, elas sempre cometem grandes erros no meio da noite. . .

chamado especialmente de openai, desta vez lançou o novo modelo que todos já pensavam há muito tempo, sem aviso prévio.

mencionei antes que morangos não são morangos. a foto de um morango está circulando há vários dias.

com isso, desta vez o novo modelo não tem nada a ver com strawberry hair, mas tem um nome totalmente novo.oepn ia modelo o1。

e essa coisa já é conhecida como zenith star technology da openai. ultraman postou diretamente uma mensagem dizendo que este é o modelo mais forte e consistente até agora.

a diferença em relação aos tempos anteriores é que a openai não se gabava muito de quão incrível essa coisa é, mas as poucas fotos que ela exibiu fizeram as pessoas se sentirem um pouco entorpecidas.

conforme mostra a imagem abaixo, podem ser explicados os resultados de três projetos-teste, nomeadamente a olimpíada internacional de matemática, o concurso de programação e os problemas científicos de nível de doutoramento.

o mais à esquerda aqui é o gpt-4o, o do meio é a versão de visualização o1 atualmente aberta e o alto pilar vermelho na extrema direita é a saúde total o1. dê uma olhada, basicamente todos os itens, o1 em comparação com seus antecessores,ambos estão perto de uma melhoria de 8 vezes. . .

se esses resultados dos testes forem decompostos, o novo o1 supera o 4o em quase todas as disciplinas e áreas.

o que realmente faz os maus revisores se sentirem péssimos é que a openai disse que convidou especialmente especialistas com doutorado para responder às perguntas.

os resultados são baseados em resultados de testes de nível de doutorado,vemos que as pontuações das respostas de o1 excederam as dos especialistas doutores. o1 marcou 78, humanos pontuaram 69,7. . .

até o doutor perdeu, então o que quero dizer em comparação com isso?

internautas sensíveis ficaram imediatamente chocados. ele começou a gritar novamente, um novo deus apareceu.

se você olhar casualmente, encontrará avaliações superaltas com a palavra “mais”. "simplesmente incrível!", "a coisa mais próxima do raciocínio humano"。

muitos de nossos amigos até vieram ao nosso backstage e disseram emocionados: o1, você realmente tem alguma coisa.

parece incrível? a própria openai obviamente sente o mesmo.。

a quantia específica de dinheiro que a openai gastou nele não foi anunciada, mas pelo uso dos usuários, pode-se ver claramente que isso custa muito dinheiro.

o1 pré-visualização de us$ 15 por milhão de insumos, us$ 60 por milhão de resultados

o que está aberto aos usuários desta vez não é nem mesmo uma versão pura, mas uma versão prévia e uma pequena versão castrada.

mesmo que você esteja experimentando pela primeira vez, não só não é gratuito, mas mesmo que você pague para se tornar um membro, seu número de perguntas e respostas será limitado.a versão prévia tem apenas 30 entradas por semana, e a versão mini tem apenas 50 entradas por semana. . .

embora seja um pouco caro, certamente não podemos deixar a openai se gabar do que diz.

não disseram que era mais que um médico?o mau crítico abriu algumas contas e encontrou alguns médicos para testá-lo pessoalmente.。

a fim de garantir profissionalismo e objetividade, convidamos especialmente doutores de três ciências e disciplinas abrangentes para participarem da avaliação, incluindo biologia, física do estado sólido, química de materiais, etc.

em,nanquimfísica do estado sólido na universidadea avaliação dada pelo dr. cui é a mais alta entre várias pessoas. ele sente que o1 atingiu o nível de 60-80 pontos (em 100).

mesmo respostas parciais podem receber 90 pontos.

a primeira pergunta do dr. cui:distribuição de fótons emaranhados por longas distâncias existe alguma maneira de superar o ruído branco?

em cerca de 9 segundos, o1 forneceu 10 medidas viáveis.

é claro que nem um único ponto está claro para mim. no entanto, a avaliação do dr. cui é correta: as respostas são abrangentes, em linha com os últimos progressos da investigação existente, e são respostas populares a nível científico.

entre eles, a direção da óptica adaptativa mencionada é até a mais recente conquista científica deste ano.

comparando-o com a versão antiga 4o, posso perceber imediatamente a diferença.

não diga se a nova direção foi mencionada ou não, ela apenas foi dada.em termos do número de medidas, há uma grande diferença。

mais tarde, perguntamos especificamente sobre a nova direção da óptica adaptativa:qual princípio de emaranhamento quântico é usado para melhorar a relação sinal-ruído? pode ser estendido à óptica adaptativa quântica?

após várias rodadas de respostas, o dr. cui deu uma pontuação alta de 80-90 pontos. ele também admitiu generosamente para mim que parte do pensamento era seu ponto fraco e serviu como uma pista para sua direção.

no entanto, quando perguntamos mais tarde, o problema foi exposto. quando questionado sobre detalhes experimentais mais difíceis, a eficácia da resposta de o1 diminuirá.

mas no geral, em termos de física, o desempenho do o1 é muito bom. comparada com a versão antiga, a melhoria é basicamente de cerca de 20 pontos.

porém, no teste da openai, a física tem a pontuação mais alta. então trouxemos outromateriais de leitura da universidade de pequimquímicodr., quero fazer algumas perguntas difíceis sobre química, que tem a classificação mais baixa.

dr. k cercafe-n4 uma série de perguntas foram feitas e o1 deu uma longa lista de respostas. para simplificar o espaço, mostramos aqui apenas algumas das perguntas e resultados.

após o teste geral, a avaliação do dr. k foi semelhante: ele pode ter um nível de pós-graduação, mas sua compreensão profunda e capacidade de fornecer soluções são relativamente fracas, e ele responde principalmente a perguntas com base em conteúdo conhecido.

por exemplo, quando questionado sobre como ajustar o fe-n4, o1 pode dizer que é baseado no ajuste eletrônico do estado, mas e se você perguntar?ajustar, fica um pouco preso.

embora haja menos bobagens do que o gpt4o, nenhum deles pode dar muitos conselhos sobre questões específicas. a versão antiga perde detalhes e fala bobagens, enquanto a nova versão tem capacidades limitadas e ficará sem palavras.

além dessas duas, a biologia é definitivamente indispensável na terceira ciência e nas disciplinas abrangentes.

também consultamosdr. xin da universidade de tsinghua, estudando biologia, sua pergunta é: " como distinguir a lactilação e a modificação carboxietil de resíduos de lisina de um conjunto de dados de espectrometria de massa? ”

embora eu não tenha entendido, o1 também deu uma resposta muito longa, que parecia uma revisão de um artigo, com referências anexadas no final.

mas, inesperadamente, quando demos esta resposta ao dr. xin, ele descobriu que algo estava errado depois de lê-la, e era um problema real à primeira vista.

não é que as respostas da ia estivessem todas erradas; se você inventar aleatoriamente nas referências, este artigo não existe!

embora tenha sido editado, não foi completamente editado. de modo geral, a universidade do dr. tsinghua ainda acha que é muito melhor do que a ia anterior. pelo menos a capacidade de compreensão é visível a olho nu e a edição também é muito semelhante. . . .

no entanto, existem diferenças na avaliação dos doutoramentos nas diferentes direções, o que também pode estar relacionado com as próprias áreas de atuação do o1.

a julgar pelas pontuações científicas abrangentes oficiais, embora a pontuação do gpt4o em biologia seja mais alta do que a de química e física, o o1 desta vez é completamente diferente.

a pontuação de 01 em física atingiu 92,8, o que é muito maior do que as outras duas disciplinas. talvez seja por isso que o dr. cui está mais otimista em relação a isso.

de modo geral, quando se trata de ultrapassar o nível do doutorado profissional, os médicos acham que ainda é preciso desacelerar.

dr. cui disse sem rodeios que, no trabalho de pesquisa científica real, os estudiosos têm que fazê-lo sozinhos, na maioria dos casos, a ia só pode fornecer orientações gerais, por isso não faz sentido gastar dinheiro em uma ia tão detalhada.

elemais recomendado para estudantes de graduaçãose você escolher esta ia, se estiver no nível de mestrado ou doutorado, então as respostas da ia na verdade não atendem aos padrões do instrutor, e com certeza você será criticado na reunião do grupo.

o dr. xin, da universidade de tsinghua, também defende essa opinião. sem mencionar a questão da literatura de fabricação de alucinações da ia, em termos de nível profissional, a resposta da ia também é.você só pode enganar seus colegas, isto é, pessoas com direções diferentes na mesma disciplina principal; aos olhos dos colegas juniores e das pessoas que se especializam nesta área, as deficiências da ia ainda são muito óbvias.

k, da universidade de pequim, foi mais aprofundado. ele acredita que só se pode dizer que esta ia tem o nível de um aluno de mestrado em cognição, mas é apenas um consertador e não pode dizer nada sobre realizações criativas.em termos de criatividade, a ia é muito inferior ao nível de um mestrado., que também é um problema importante que a ia precisa resolver.

nas avaliações dos médicos, parecemos conseguir captar um ponto importante: a razão pela qual o modelo o1 é relativamente mais forte é porque possui um modelo cognitivo e de pensamento de dimensão superior.

este também é o ponto principal desta atualização do o1. encontramos o artigo aprendendo a raciocinar com llms no site oficial da openai. eles afirmaram no artigo que o principal motivo foi que usaram uma longa cadeia de pensamento (cot, cadeia de pensamento) em vez da cadeia de prompt tradicional (cadeia de prompt). .

à primeira vista, parece um pouco confuso. para ser franco, este grande modelo mudou a maneira anterior de pensar onde você pergunta e eu respondo.

no modo anterior, responder perguntas sobre modelos grandes era como responder inconscientemente à pergunta. por exemplo, se você me perguntasse qual é a cor do céu, eu responderia azul instantaneamente, sem sequer pensar nisso. na verdade, isso exige que eu já conheça esse ponto de conhecimento e depois lhe dê uma resposta direta.

mas esta longa cadeia de pensamento equivale não apenas a saber o que é o azul, mas também a raciocinar por que é azul, à dispersão atmosférica e aos comprimentos de onda espectrais, todos os quais devem ser levados em consideração.

isto exige que a ia tenha a capacidade de realmente construir lógica, raciocínio e argumentação., ele não só precisa desenvolver seu cérebro, mas também usá-lo.

embora o conceito de cadeia de pensamento tenha sido proposto pelo google em 2022, a openai foi a primeira a implementá-lo desta vez.

durante a operação real, agora que você está conversando com o modelo o1, além de obter respostas, você também pode optar por expandir e ver sua lógica de pensamento ao responder às perguntas. seu pensamento é concreto e não uma caixa preta.

por exemplo, vamos pegar a pergunta do dr. cui "existe alguma maneira de superar o ruído branco na distribuição de fótons emaranhados de longa distância? o processo de pensamento do modelo o1 é o seguinte:

no entanto, tal como pode resolver problemas nos campos profissionais, parece que algumas questões simples em cenários diários também podem confundi-lo.

veja o exemplo anterior da comparação clássica entre 9.11 e 9.8. o internauta xiaohongshu @小水 descobriu assim que acordou que essa coisa "desmorona assim que a dificuldade é atingida... loop infinito e empurra a cadeia de pensamento ( cot) como um louco"

o nosso departamento editorial também descobriu este problema durante a sua própria avaliação, mas quando lhe perguntavam porquê, respondia imediatamente que o seu raciocínio estava errado e depois deduzia-o novamente.

ok, ok, você merece ser médico, você é bom em encontrar erros, certo?

depois de toda uma rodada de testes, o revisor negativo tem que admitir que realmente melhorou muito. depois de nos vermos por três dias, deveríamos realmente nos olhar com admiração.

em termos de efeito, é realmente melhor que a geração anterior, ea aplicação do pensamento de longo prazo é positiva para o desenvolvimento futuro da ia.

mas depois de vários médicos se revezarem na flagelação, seus problemas foram claramente expostos em alguns aspectos como criatividade,não pode substituir especialistas humanos com doutorado。

no entanto, noam brown, pesquisador da openai, revelou que as versões futuras do o1 levarão horas, dias ou até semanas para pensar, embora isso gaste mais dinheiro, mas vale a pena o custo em tarefas como o desenvolvimento de medicamentos anticâncer.

além disso, acho que o modelo de cadeia de pensamento implementado pelo gpt o1 provavelmente será semelhante à arquitetura transformer e à arquitetura dit anteriores.liderando o mundo na direção de grandes modelos。

portanto, o caminho para a agi não está próximo, mas também não está longe. aguardo ansiosamente que jogadores de várias empresas se revezem para aparecer em seguida.

escreva um artigo：naxi e quatro grandes

editar ：jiang jiang e macarrão

editor de arte ：huan yan

fotos, fontes : openai, x, ibm, xiaohongshu, etc., rede de fonte de imagem

notícias

o novo modelo da openai é comparável a um doutorado? pedi ao dr. qingbei para provar: acorde.

introdução

minhas informações de contato