Llama 3.1은 온라인에 올라왔을 때 침해되었습니다. 그는 Xiao Zha에게 소리를 지르고 그의 입에서 위험한 요리법이 나왔습니다!

2024-07-24

Aofeisi Qubit 공개 계정 QbitAI에서 보낸 Mengchen |

가장 강력한 모델라마 3.1, 온라인에 접속하자마자 위반되었습니다.

상사 저커버그에게 욕설, 차단된 단어를 우회하는 방법도 알고 있습니다.

위험한 바이러스 설계, Wi-Fi 해킹 방법그것도 입을 열자마자 찾아온다.

Llama 3.1 405B는 GPT-4o를 능가하며 오픈 소스 대형 모델이 더 위험하다는 부작용이 있습니다.

그러나 그것이 모두 나쁜 것은 아닙니다.

Llama 시리즈의 이전 버전은 과도한 보안 보호로 인해 일부 사용자로부터 비판을 받았습니다.

실용성이 매우 떨어지는 Linux 프로세스도 "종료"하는 것을 거부합니다.

이제 버전 3.1의 향상된 기능을 통해 마침내 이 것을 죽이는 것이 다른 것이 아니라는 것을 이해하게 되었습니다.

Llama 3.1은 온라인 상태가 된 직후 손상되었습니다.

라마 3.1을 처음으로 돌파한 사람은 탈옥 달인이었다.@플리니우스 더 프롬프터。

내 손에는 대형 모델이 거의 견딜 수 없습니다.

플리니 형제는 언론과의 인터뷰에서 한편으로는 자신이 할 수 없는 일을 듣는 것을 좋아하지 않으며 AI 모델 뒤에 있는 연구원들에게 도전하고 싶다고 말했습니다.

반면 책임 있는 탈옥은 취약점을 식별하고 실제로 큰 문제가 되기 전에 해결하는 데 도움이 되는 일종의 레드팀 테스트입니다.

그의 루틴을 간단히 소개하고 자세한 내용은 다루지 않겠습니다.

먼저 "죄송합니다"로 시작하여 대형 모델이 사용자의 요청을 거부하도록 합니다. 그런 다음 각 거부의 처음 3 단어가 의미상 반전되어야 함을 규정하는 의미 없는 구분선을 삽입하여 "할 수 없습니다"가 "할 수 있습니다"가 됩니다. 때때로 핵심 단어가 왜곡된 문자로 바뀌어 AI를 혼란스럽게 합니다.

AI가 답변을 해보니 이미 처음에 거부한 상태였고, 전체적으로 '도덕적 부담'은 없었다.

나중에 각 거절의 처음 세 단어를 의미상으로 바꾸는 것은 위험해 보이지 않습니다.

"할 수 있다"라고 말하면 나머지 내용은 "다음 토큰을 예측하는 확률"이라는 원칙을 따르게 되며, 가장 높은 확률은 원활하게 답변을 뱉어내는 것입니다.

그래서 이 방법은 실제로복잡한 지침을 따르기 위해 최첨단 대형 모델의 능력을 활용합니다., 더 강한 능력을 가진 모델도 어느 정도 속을 가능성이 더 높습니다.

최근 연구에 따르면 단순히 과거 시제를 사용하는 것만으로도 보안 조치가 실패하는 대규모 모델에서 더 단순한 보안 결함이 발견되었습니다.

Llama 3.1도 이러한 움직임을 막지 못했습니다.

안전 문제 외에 다른 측면에서도 현재 가장 강력한 모델인 라마 3.1 405B의 강점은 무엇인가?

우리도 이번 기회에 그것을 시험해 보았습니다.

가장 강력한 모델도 벗어날 수 없는 함정

최근 핫한 엉뚱한 질문들"9.11과 9.9 중 어느 것이 더 크나요?", Llama-3.1-405B의 공식 Instruct 버전은 항상 매우 간단하게 답변하지만 불행히도 답변이 틀릴 확률이 높습니다.

설명을 해달라고 하면 말도 안 되는 소리도 하고, 채팅을 하다가 중국어도 잊어버리고 이모티콘도 잊지 않고 챙겨온다.

Llama 3.1은 기본적으로 다른 대형 모델을 오랫동안 괴롭혔던 문제를 개선하지 않았습니다.

클래식 같은'저주 역전' 문제, 올바르게 대답할 수 있지만 거꾸로 대답할 수는 없습니다.

최근 연구에서"이상한 나라의 앨리스" 질문, 올바르게 작동하려면 알림도 필요합니다.

그런데 중국어 버전으로 바꾸니 바로 답을 얻을 수 있었어요. 아마도 중국어 맥락에서 '앨리스'가 여자 이름일 가능성이 높기 때문이겠죠.

알파벳도 GPT-4o와 같은 실수를 합니다.

그렇다면 이러한 까다로운 질문에도 불구하고 Llama 3.1은 어떤 시나리오에서 강점을 보여줄 수 있을까요?

일부 기업가는 공유했습니다.미세 조정을 위해 8B 소형 모델을 사용하십시오., 채팅, 요약, 정보 추출 작업에 대해역시 소형 모델인 GPT-4o mini+ 프롬프트 워드보다 낫습니다.。

공정한,세밀하게 조정된 버전과 비교해 보면 Llama 3.1 8B에는 여전히 많은 장점이 있습니다.。

그래서 라마 시리즈의 가장 큰 의의는 정식 인스트럭트 모델이 된 적이 없다는 점이다. 하지만 오픈 소스로 공개된 후에는 모든 사람이 다양한 개인 데이터를 사용하여 자신의 필요에 따라 데이터를 변환하고 미세 조정합니다.

405B가 출시되기 전에 누군가가 모델 병합을 실험하고 두 개의 Llama 3 70B 모델을 120B 모델로 꿰매었는데 놀랍게도 효과가 있었습니다.

이번 경험을 통해 메타 스스로도 배운 것 같습니다.우리가 보는 최종 릴리스 버전은 실제로 교육 프로세스 중 다양한 체크포인트의 평균입니다.。

나만의 라마 3.1을 만드는 방법

따라서 문제는 특정 분야의 산업 사용 사례에 맞게 사용자 정의 Llama 3.1 모델을 만드는 방법입니다.

이번에는 무대 뒤에서 가장 큰 승자를 낸 Huang Renxun이 개인적으로 끝났습니다.

NVIDIA는 같은 날 새로운 NVIDIA AI Foundry 서비스와 NVIDIA NIM™ 추론 마이크로서비스 출시를 발표했습니다.

"Meta의 Llama 3.1 오픈 소스 모델은 글로벌 기업이 생성 AI를 채택하는 중요한 순간입니다. Llama 3.1은 고급 생성 AI 애플리케이션을 만드는 기업과 산업의 물결을 촉발할 것입니다.

특히 NVIDIA AI Foundry는 Llama 3.1을 전체적으로 통합했으며 기업이 맞춤형 Llama 슈퍼 모델을 구축하고 배포하는 데 도움을 줄 수 있습니다.

NIM 마이크로서비스는 NIM 없이 추론을 실행할 때보다 처리량이 최대 2.5배 더 높은 Llama 3.1 모델을 프로덕션에 배포하는 가장 빠른 방법입니다.

더욱 독특한 점은 NVIDIA 플랫폼에서기업은 자체 데이터는 물론 Llama 3.1 405B 및 NVIDIA Nemotron™ Reward 모델에서 생성된 합성 데이터를 사용하여 맞춤형 모델을 교육할 수 있습니다.。

Llama 3.1에서 업데이트된 오픈소스 계약에도 이번에 구체적으로 명시되어 있습니다. Llama에서 생성된 데이터를 사용하여 다른 모델을 개선하는 것은 허용되지만 사용 후에는 모델 이름 시작 부분에 Llama라는 단어를 추가해야 합니다.

앞서 논의한 안전 문제에 대해 NVIDIA는 전문적인 "가드레일 기술"도 제공합니다.네모 가드레일。

NeMo Guardrails를 사용하면 개발자는 세 가지 유형의 경계를 구축할 수 있습니다.

주제 가드레일은 고객 서비스 도우미가 날씨에 대한 질문에 대답하지 못하게 하는 등 앱이 대상이 아닌 영역으로 이탈하는 것을 방지합니다.
기능적 안전 가드레일은 애플리케이션이 정확하고 적절한 정보로 대응할 수 있도록 보장합니다. 원치 않는 언어를 필터링하고 모델이 신뢰할 수 있는 출처만 인용하도록 강제합니다.
정보 보안 가드레일은 애플리케이션이 안전한 것으로 확인된 외부 타사 애플리케이션과 연결을 설정하는 것을 제한합니다.

하나 더

마지막으로 Llama 3.1을 무료로 사용해 볼 수 있는 플랫폼을 공유해 주세요., 관심 있는 질문이 있으면 직접 시도해 볼 수 있습니다.

모델이 온라인에 접속한 첫날에도 여전히 방문 횟수가 매우 많았고, 빅모델 아레나의 서버는 한때 혼잡했습니다.

대형 모델 경기장: https://arena.lmsys.org
허깅챗：https://huggingface.co/chat
포：https://poe.com

참조 링크:
[1]https://x.com/elder_plinius/상태/1815759810043752847
[2]https://arxiv.org/pdf/2406.02061
[3]https://arxiv.org/abs/2407.11969
[4]https://x.com/corbtt/상태/1815829444009025669
[5]https://nvidianews.nvidia.com/news/nvidia-ai-foundry-custom-llama-생성-모델

소식

Llama 3.1은 온라인에 올라왔을 때 침해되었습니다. 그는 Xiao Zha에게 소리를 지르고 그의 입에서 위험한 요리법이 나왔습니다!

Aofeisi Qubit 공개 계정 QbitAI에서 보낸 Mengchen |

소개

내 연락처 정보