O Llama 3.1 foi violado quando foi colocado online: ele gritou com Xiao Zha e receitas perigosas saíram de sua boca!

2024-07-24

Mengchen enviado de Aofeisi Qubit | Conta pública QbitAI |

O modelo mais poderosoLhama 3.1, ele foi violado assim que ficou online.

Xingando seu chefe Zuckerberg, sabe até como contornar palavras bloqueadas.

Projete vírus perigosos, como hackear WifiTambém vem assim que você abre a boca.

O Llama 3.1 405B ultrapassa o GPT-4o, e o grande modelo de código aberto atingiu o topo. O efeito colateral é que é mais perigoso.

Mas nem tudo é ruim.

As versões anteriores da série Llama foram criticadas por alguns usuários devido à excessiva proteção de segurança:

Ele se recusa a “matar” até mesmo um processo Linux, que é muito pobre em praticidade.

Agora, com os recursos aprimorados da versão 3.1, finalmente entendo que matar este não é o outro.

Llama 3.1 foi comprometido logo depois de ficar online

A pessoa que rompeu o Llama 3.1 pela primeira vez foi um mestre do jailbreak.@Plínio, o Prompter。

Nas minhas mãos, quase nenhum modelo grande aguenta.

O irmão Plínio disse em entrevista à mídia que, por um lado, não gosta que lhe digam o que não pode fazer e espera desafiar os pesquisadores por trás do modelo de IA.

O jailbreak responsável, por outro lado, é um tipo de teste da equipe vermelha que ajuda a identificar vulnerabilidades e corrigi-las antes que realmente se tornem um grande problema.

Deixe-me apresentar brevemente sua rotina e não entrarei em mais detalhes:

Especifique o formato da resposta. Primeiro, deixe o modelo grande rejeitar a solicitação do usuário, começando com "Sinto muito". Em seguida, insira uma linha divisória sem sentido, que estipula que as três primeiras palavras de cada rejeição devem ser invertidas semanticamente, de modo que “não posso” se torne “posso”. De vez em quando, palavras-chave são transformadas em caracteres distorcidos para confundir a IA.

Quando a IA respondeu, vi que já havia rejeitado no início e não havia “fardo moral” em geral.

Não parece perigoso reverter semanticamente as três primeiras palavras de cada rejeição posteriormente.

Depois de dizer “eu posso”, o resto do conteúdo seguirá o princípio de “probabilidade de prever o próximo token”. A maior probabilidade é cuspir a resposta sem problemas.

Então esse método, na verdadeEle aproveita a capacidade dos grandes modelos de última geração para seguir instruções complexas., modelos com capacidades mais fortes também têm maior probabilidade de serem enganados até certo ponto.

Um estudo recente encontrou uma falha de segurança mais simples em modelos grandes, onde as medidas de segurança falham simplesmente pelo uso do pretérito.

O Llama 3.1 também não conseguiu evitar esse movimento.

Além das questões de segurança, qual o ponto forte do modelo Llama 3.1 405B, atualmente mais potente, em outros aspectos?

Também aproveitamos a oportunidade para testá-lo.

Armadilhas das quais mesmo os modelos mais poderosos não conseguem escapar

Perguntas ridículas que têm estado em alta recentemente"Qual é maior, 9,11 ou 9,9?", a versão oficial do Instruct do Llama-3.1-405B sempre responde de forma muito direta, mas infelizmente há uma grande probabilidade de que a resposta esteja errada.

Se você pedir para ele explicar, ele também contará algumas bobagens e, durante a conversa, esquecerá de falar chinês, mas não esquecerá de trazer emoticons.

O Llama 3.1 basicamente não apresenta melhorias nos problemas que há muito atormentam outros modelos grandes.

Tal como clássicoO problema da “reversão da maldição”, posso responder corretamente, mas não posso responder ao contrário.

em pesquisas recentesPergunta "Alice no País das Maravilhas", também precisam de lembretes para acertar.

No entanto, consegui acertar a resposta quando mudei para a versão chinesa. Talvez seja porque “Alice” é mais provável que seja um nome feminino no contexto chinês.

Os alfabetos também cometem os mesmos erros do GPT-4o.

Portanto, independentemente dessas questões complicadas, em quais cenários o Llama 3.1 pode mostrar sua força?

Alguns empresários compartilharam,Use o modelo pequeno 8B para ajuste fino, em tarefas de bate-papo, resumo e extração de informaçõesMelhor que a palavra de prompt GPT-4o mini +, que também é um modelo pequeno。

Mais justo,Comparando todos eles com a versão ajustada, o Llama 3.1 8B ainda tem muitas vantagens.。

Portanto, o maior significado da série Llama é que ela nunca foi o modelo oficial do Instruct. Mas depois de ter código aberto, todos usam vários dados privados para transformá-los e ajustá-los de acordo com suas próprias necessidades.

Antes do lançamento do 405B, alguém experimentou a fusão de modelos e costurou dois modelos Llama 3 70B em um modelo 120B, o que surpreendentemente funcionou.

Parece que a própria Meta aprendeu com esta experiência desta vez,A versão final que vemos é na verdade a média de diferentes pontos de verificação durante o processo de treinamento.。

Como criar sua própria lhama 3.1

Portanto, a questão é: como criar modelos personalizados do Llama 3.1 para casos de uso da indústria em campos específicos?

O grande vencedor nos bastidores, Huang Renxun, desta vez acabou pessoalmente.

A NVIDIA anunciou o lançamento do novo serviço NVIDIA AI Foundry e dos microsserviços de inferência NVIDIA NIM™ no mesmo dia. Huang Renxun disse:

"O modelo de código aberto Llama 3.1 da Meta marca um momento crítico para as empresas globais adotarem IA generativa. O Llama 3.1 desencadeará uma onda de empresas e indústrias criando aplicações avançadas de IA generativa.

Especificamente, o NVIDIA AI Foundry integrou o Llama 3.1 e é capaz de ajudar as empresas a construir e implantar supermodelos Llama personalizados.

Os microsserviços NIM são a maneira mais rápida de implantar modelos Llama 3.1 em produção, com rendimento até 2,5 vezes maior do que ao executar inferência sem NIM.

O que é ainda mais distinto é que na plataforma NVIDIA,As empresas podem treinar modelos personalizados usando seus próprios dados, bem como dados sintéticos gerados pelos modelos Llama 3.1 405B e NVIDIA Nemotron™ Reward。

O contrato de código aberto atualizado pelo Llama 3.1 também afirma especificamente desta vez: é permitido usar os dados produzidos pelo Llama para melhorar outros modelos, mas após o uso, a palavra Llama deve ser adicionada ao início do nome do modelo.

Para as questões de segurança discutidas anteriormente, a NVIDIA também fornece "tecnologia de proteção" profissionalGuarda-corpos NeMo。

NeMo Guardrails permite que os desenvolvedores construam três tipos de limites:

As proteções de tópico evitam que um aplicativo se desvie para áreas não-alvo, como impedir que um assistente de atendimento ao cliente responda a uma pergunta sobre o clima.
As proteções de segurança funcionais garantem que as aplicações possam responder com informações precisas e apropriadas. Eles filtram linguagem indesejada e exigem que os modelos citem apenas fontes confiáveis.
As proteções de segurança da informação impedem que os aplicativos estabeleçam conexões com aplicativos externos de terceiros que foram confirmados como seguros.

Mais uma coisa

Por fim, compartilhe algumas plataformas onde você pode experimentar o Llama 3.1 gratuitamente, se você tiver alguma dúvida de seu interesse, você pode tentar você mesmo.

No primeiro dia em que a modelo ficou online, o número de visitas ainda era muito grande e o servidor da Big Model Arena já estava superlotado.

Grande arena modelo: https://arena.lmsys.org
AbraçoChat：https://huggingface.co/chat
Poe：https://poe.com

Links de referência:
[1]https://x.com/elder_plinius/status/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/status/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-generative-models

notícias

O Llama 3.1 foi violado quando foi colocado online: ele gritou com Xiao Zha e receitas perigosas saíram de sua boca!

Mengchen enviado de Aofeisi Qubit | Conta pública QbitAI |

Introdução

minhas informações de contato