O Q* da OpenAI nunca foi visto antes, mas o Q* de várias empresas iniciantes está aqui

2024-07-31

A que distância estamos da IA que pode “pensar devagar”?

Autora｜Stephanie Palazzolo

Compilação |

Editor｜Jingyu

No ano passado, antes e depois da demissão temporária de Sam Altman, os pesquisadores da OpenAI enviaram uma carta conjunta ao conselho de administração, apontando que o misterioso projeto de codinome Q pode ameaçar toda a humanidade. A OpenAI reconheceu Q* em uma carta interna de acompanhamento aos funcionários e descreveu o projeto como um “sistema autônomo sobre-humano”.

Embora Q* ainda não tenha sido visto, sempre há rumores sobre ele no mundo.

Lu Yifeng, engenheiro sênior do Google DeepMind, certa vez fez uma conjectura ao Geek Park de uma perspectiva profissional: o modelo precisa perceber sobre quais problemas não tem certeza e o que deve fazer a seguir. Neste momento, o modelo pode precisar navegar na Internet, ler livros, fazer experimentos, pensar em algumas ideias inexplicáveis e discutir com outras pessoas, como humanos.

Este ano, quando faço perguntas nos aplicativos assistentes de IA dos principais fabricantes de modelos, posso sentir que as respostas são mais confiáveis do que no ano passado. Muitos fabricantes também disseram que estão trabalhando duro para fazer os modelos pensarem mais e melhorarem ainda mais. suas capacidades de raciocínio. Como está o progresso até agora?

Em relação às questões acima, a repórter do The Information Stephanie Palazzolo, no artigo "Como os rivais menores da OpenAI estão desenvolvendo sua própria IA que 'razões'", discutiu os modelos das empresas iniciantes existentes para melhorar as capacidades de raciocínio do modelo, incluindo a empresa chinesa Q *. Organizado pelo Geek Park, é o seguinte:

Concorrentes menores do OpenAI

Desenvolva sua própria IA de “raciocínio”

Excluindo as bolhas, a utilidade desta onda de IA é um tema que tem sido repetidamente examinado em destaque este ano.

O princípio do modelo grande é gerar unidades de palavras uma por uma com base na previsão de probabilidade, mas repetir as palavras com base no corpus alimentado durante o treinamento e inventar alucinações ao encontrar perguntas que nunca foram vistas antes obviamente não é o que todos espera. Melhorar ainda mais as capacidades de raciocínio do modelo tornou-se fundamental.

A este respeito, ainda não vimos progresso da OpenAI e do Google, mas algumas startups e indivíduos dizem que criaram alguns métodos "baratos" (hacks baratos) para alcançar algumas formas de capacidades de raciocínio de IA.

Esses atalhos incluem dividir um problema complexo em etapas mais simples e fazer ao modelo dezenas de perguntas adicionais para ajudá-lo a analisar essas etapas.

Por exemplo, quando solicitado a redigir uma postagem de blog sobre um novo produto, o aplicativo de IA aciona automaticamente consultas adicionais, como pedir ao modelo grande que avalie suas respostas e áreas de melhoria. É claro que na interface do usuário você não pode ver essas ações executadas pelo modelo em segundo plano.

Isto é semelhante ao método socrático de ensinar os alunos a pensar criticamente sobre as suas crenças ou argumentos. Este último adopta um método de ensino de perguntas e respostas. Ao comunicar com os alunos, Sócrates não dará respostas directamente. Em vez disso, orientará os alunos a descobrirem os problemas por si próprios e a revelarem as contradições e deficiências nas suas opiniões, fazendo perguntas constantemente. e corrija-o gradualmente para tirar a conclusão correta.

Com este link, o aplicativo de IA pode pedir ao modelo grande para reescrever a postagem do blog acima, levando em consideração o feedback que ele mesmo deu ao escrever. Este processo é frequentemente chamado de reflexão, e um empreendedor de aplicações de IA disse que muitas vezes leva a melhores resultados.

Além da abordagem reflexiva, os desenvolvedores também podem seguir o Google e tentar Uma técnica chamada amostragem. Durante a amostragem, os desenvolvedores melhoram a capacidade de modelos grandes de produzir respostas criativas e aleatórias, fazendo a mesma pergunta dezenas ou até 100 vezes e selecionando a melhor resposta.

Por exemplo, um aplicativo assistente de programação pode pedir a um modelo grande que forneça 100 respostas diferentes para a mesma pergunta e, em seguida, o aplicativo executa todos esses trechos de código. O aplicativo assistente de programação final selecionará o código que produz a resposta correta e selecionará automaticamente o código mais conciso.

Meta destacou algumas técnicas semelhantes em seu recente artigo no Llama 3.

Mas essa solução alternativa — chamar um modelo de linguagem grande 100 vezes ou solicitar que ele produza uma quantidade tão grande de texto e código — é extremamente lenta e cara. Provavelmente é por isso que alguns desenvolvedores criticaram o assistente de programação feito pela Cognition, uma startup que utiliza essas tecnologias, por seu desempenho lento.

Os desenvolvedores também viram esse problema e estão tentando resolvê-lo.o caminho éSelecione exemplos do modelo que mostrem boa capacidade de raciocínio para um problema específico e “alimente-os” de volta ao modelodados de treinamentoConcentre-se em resolver este problema. Como disse um empresário, esta abordagem é semelhante à aprendizagem da tabuada na escola primária. Inicialmente, os alunos podem precisar calcular manualmente cada problema de multiplicação. Mas com o tempo, e eles memorizando essas tabuadas, as respostas quase passam a fazer parte da intuição do aluno.

Para desenvolver esse tipo de IA, os desenvolvedores precisam de controle sobre modelos grandes. Mas é difícil obter uma sensação de controle dos modelos de código fechado do OpenAI ou Anthropic, então é mais provável que eles usem um modelo de peso aberto como o Llama 3 (peso aberto é um termo no mundo do código aberto, significando código com alto grau de abertura).

Os dois métodos acima podem ser as tecnologias utilizadas pela OpenAI por trás de seu avanço no raciocínio. Claro, a OpenAI ainda não lançou o Q*, também conhecido como projeto "Strawberry".

Q* da China

Os desenvolvedores e pesquisadores chineses também estão gradualmente dominando essas tecnologias.

Pesquisadores da Skywork AI da China e da Universidade Tecnológica de Nanyang publicaram um artigo sobre esta questão em junho deste ano. Neste artigo, eles também nomearam a tecnologia Q* em homenagem a uma versão do OpenAI que nunca tinham visto antes.

A tecnologia Q* da China permite que grandes modelos resolvam problemas em múltiplas etapas, como quebra-cabeças lógicos complexos.

o caminho éAo "pesquisar" em cada etapa da resposta o melhor próximo passo que o modelo grande deve tentar, em vez de seguir as etapas para chegar a uma conclusão (esse método também é conhecido como pesquisa em árvore de Monte Carlo e foi usado anteriormente no Google AlphaGo) . Isto é conseguido através de uma equação especial chamada modelo de valor Q, que ajuda o modelo grande a estimar a recompensa futura de cada passo seguinte possível – ou a probabilidade de a resposta final estar correta.

Os pesquisadores dizem que planejam lançar publicamente a tecnologia neste outono.

Alex Graveley, CEO da Minion AI, uma startup de agente inteligente e ex-arquiteto-chefe do GitHub Copilot, disse que ainda estão tentando Ensine o modelo de linguagem a voltar um passo quando perceber que algo deu errado.Ele afirma que essa consciência pode ocorrer quando um modelo grande produz uma resposta incorreta ou é solicitado a refletir sobre suas etapas intermediárias (semelhante ao exemplo na postagem do blog acima)., percebendo que um erro havia sido cometido.

Há mais tentativas na indústria, incluindo o artigo “Quiet-STaR” publicado pela Universidade de Stanford e pela Notbad AI em março. Assim como os humanos fazem uma pausa para pensar sobre seus pensamentos antes de falar ou escrever, este artigo explica como ensinar grandes modelos de linguagem para gerar informações sobre as etapas internas de "pensamento" que realizam em problemas de raciocínio complexos para ajudá-los a tomar melhores decisões.

A tecnologia Q*/Strawberry da OpenAI pode ter uma vantagem inicial, mas todos os outros parecem estar correndo para alcançá-la.

*Fonte da imagem principal: GulfNews

Geek perguntou

Você acha que estamos distantes

Até que ponto a IA pode fazer “pensamento lento”?

Medição real da gravação de chamadas beta do iOS 18.1, o telefone Android ainda pode receber avisos de gravação.

Curta e sigaConta de vídeo do Geek Park，

notícias

O Q* da OpenAI nunca foi visto antes, mas o Q* de várias empresas iniciantes está aqui

Introdução

minhas informações de contato