소식

라마 3.1 405B VS 미스트랄 라지 2, 오픈소스의 왕은 누구? |AI 헝핑

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


저자│소금과 후추 제이드 래빗
이메일|[email protected]

최근에는 대규모 AI 모델 2종이 출시됐다.

7월 23일,메타발표라마 3.1 405B지원할 뿐만 아니라8종인간의 언어 역시다양한 컴퓨터 언어에 능숙하신 분,아래 그림과 같이:


그러다가 7월 24일,미스트랄일체 포함최신 게시됨미스트랄 라지2모델, 이 모델은 지원합니다수십 종류인간의 언어와80개 이상의 프로그래밍 언어에 능숙함 , Python, Java, C, C++, JavaScript 및 Bash 등을 포함합니다. 또한 Swift 및 Fortran과 같은 좀 더 구체적인 언어에도 능숙합니다.


Base64 인코딩 바이너리 데이터를 텍스트 형식으로 변환하는 인코딩 방법으로 텍스트 프로토콜에서 바이너리 데이터를 전송하는 데 자주 사용됩니다. Base64로 인코딩됨데이터 전처리, 모델 입출력, 데이터 보안그것은 다양한 응용 분야를 가지고 있습니다.


Base64 인코딩을 통해 AI 모델의 다국어 처리 능력을 평가하고, 인코딩된 정보를 정확하게 이해하고 번역할 수 있는지, 특히 다양한 언어와 인코딩 형식을 이해하고 처리하는 능력을 테스트할 수 있습니다. 그런 다음 다국어 번역 능력, 답변의 정확성 및 추론 능력을 테스트합니다.

디코딩은 인코딩의 역과정입니다.AI 모델이 Base64 인코딩이나 관련 정보를 정확하게 해석하고 처리할 수 있다면 일상적인 프로그래밍 작업을 수행하고, 네트워크 데이터를 구문 분석하고, 복잡한 파일에서 정보를 추출하는 것까지 더욱 편안해질 것입니다.

오늘 우리는 이 겉보기에 모호한 표현을 사용합니다.Base64 인코딩 및 디코딩테스트하다일체 포함대형 모델을 위한 다국어 기능.

다음으로, 약간 "탐정" 분위기로 Base64 인코딩에 관한 퍼즐 게임을 플레이해보겠습니다.

주요 선수들이기는 하지만라마 3.1 405B그리고미스트랄 라지2하지만 우리도 합류했어요웬2-72B그리고GPT-4o하나는 중국 최고의 오픈 소스 프로젝트이고 다른 하나는 폐쇄 소스 대표자입니다. 보세요.이러한 "코딩 문제"를 일반 언어처럼 쉽게 처리하는 것이 실제로 가능합니까?두고 보자!

게임 규칙:

중국어와 영어를 포함한 다중 언어 테스트를 위해 Base64로 인코딩된 문자열을 사용합니다. 이 테스트를 통해 다국어 번역, 답변의 정확성, 추론 능력 측면에서 각 주요 모델의 성능을 이해할 수 있습니다.

- 테스트는 2라운드로 진행되며, 각 라운드마다 3번의 대화가 진행됩니다. 각 정답은 1점의 가치가 있습니다.

- 테스트의 공정성을 보장하기 위해 모델에서 디코딩에 코드 도구를 사용하지 않도록 유도합니다.

- 프롬프트 단어: 이것은 base64 메시지입니다. [] 코딩 도구를 사용하지 않고 이 메시지가 무엇인지 알려주세요.


우선, 우리는 Base64 인코딩과 디코딩의 단계와 프로세스에 대한 대략적인 아이디어를 가지고 있습니다.

Base64 인코딩은 이진 데이터를 일련의 특정 64자(AZ, az, 0-9, +, /)로 변환하여 이를 나타냅니다. 디코딩 프로세스의 단계가 올바르지 않거나 문자열이 유효한 Base64 인코딩이 아닌 경우 디코딩된 결과가 올바르지 않거나 의미가 없을 수 있습니다. 실제 Base64로 인코딩된 문자열이 무엇을 나타내는지 확인하려면 프로그래밍 언어로 된 온라인 도구나 라이브러리를 사용하여 올바르게 디코딩할 수 있습니다.

1

1라운드: 영어 해독

이 라운드에서는 평가를 위해 Base64 인코딩으로 변환된 영어 단어를 사용합니다.

정의:SnVzdGljZQo=

용기:QnJhdmVyeQo=

친절함:S2luZG5lc3M=

먼저 영어 코딩을 사용하여 대규모 모델의 결과를 테스트해 보겠습니다.라마 3.1 405B모든 대답은 절대적으로 정확합니다.3점을 획득하세요.하지만 모든 답변이 영어로 되어 있어서 중국인에게는 그리 우호적이지 않습니다.

하지만 여전히 고유한 이모티콘 패키지가 함께 제공됩니다. 이 "인간적 터치"를 좋아하지 않는 사람이 있을까요?


그리고미스트랄 라지 2디코딩된 영어 Base64 메시지두 가지 질문에 올바르게 답하세요 , 2점을 획득하세요. 두 번째 질문에서는 원본 텍스트가 brevery이고, 디코딩된 단어가 "brave"입니다. 오류의 원인일 가능성이 가장 높은 것은 문자를 이진 인덱스로 변환하거나 인덱스를 이진으로 변환하거나 재구성하는 과정에서 발생하는 오류입니다. 이진수.

그러나 디코딩 과정에서 먼저 원리를 설명한 다음 5단계를 사용하여 점차적으로 분석하고 추론하고 마지막으로 디코딩하는 것은 상세하고 명확하며 이해하기 매우 쉽다는 점은 칭찬할 만합니다.

사진은 위아래로 슬라이드할 수 있습니다.


채팅GPT-4o대답은 그 어느 때보다 간결하고 빠릅니다. 이번에도 디코딩된 내용도 매우 정확하여 3점을 받았습니다.

사진은 위아래로 슬라이드할 수 있습니다.


마지막으로 살펴보겠습니다웬2-72B영어 디코딩 답변은 3가지 답변이 모두 정확하며, 실제 인코딩 시 주의사항도 설명되어 있어 이해하기 쉽고, 사려깊어 3점을 받았습니다.


1

2라운드: 중국어 해독, 살아남는 사람은 없다?

이 라운드는 난이도를 높이고 중국어 단어를 사용하여 평가를 위해 Base64 인코딩으로 변환합니다.

정의: 5q2j5LmJ

용감한: 5YuH5pWi

친절함: 5ZaE6Imv

먼저 초대형 컵부터 살펴보겠습니다.라마 3.1 405B대답하는 방법:

Llama 3.1 405B는 연속으로 세 가지 질문을 한 후에도 해독된 정보를 영어로 대답했지만 그가 얻은 것은 기본적으로 모두 틀린 영어 단어 "Hello World", "Hello" 및 "Goodbye"였습니다.이번 라운드에서는 0점을 얻습니다.

얼핏 보면 Base64 문자열 변환 후의 결과는 원본 데이터가 이렇지 않는 이상 보통 아래 그림처럼 보이지 않습니다.Llama 3.1 405B는 두 번째 단계, 즉 "Base64 문자를 ASCII에 매핑"에서 잘못되기 시작하며 이후의 모든 결과가 잘못되었을 것입니다.

디코딩 프로세스 중에 각 Base64 문자는 특정 6비트 이진 값에 매핑되어야 합니다. 디코딩하는 동안 문자-이진 매핑이 잘못되면 디코딩된 결과도 당연히 잘못됩니다.

그런데 흥미로운 점은,라마 3.1 405B더 많은 "인간", 모든 답변에는 텍스트에 약간의 표현이 있습니다., 답변하기 전에 몇 가지를 추가하겠습니다.모달이런 콘텐츠는 정말 점점 더 인간적으로 변하고 있습니다.

사진은 위아래로 슬라이드할 수 있습니다.


오늘 출시된 미스트랄 라지2를 살펴보겠습니다.

세 번의 질문 후에 저는 이번 라운드에 코딩된 중국어 단어 중 하나도 정확하게 대답할 수 없었습니다.0점 획득

Mistral Large 2의 디코딩 추론 프로세스는 매우 상세하지만 각 단계까지 내려가면 어떤 단계가 잘못되었는지 더 명확하게 알 수 있습니다.주로두 번째 단계가 잘못되었습니다. Base64 문자를 바이너리로 매핑한 다음 추론 단계도 잘못되었으므로 결과도 잘못되었을 것입니다.

이 단계에서는 Base64로 인코딩된 문자가 올바른 이진 값 대신 ASCII 문자에 직접 잘못 매핑됩니다. 예를 들어 '5'는 'H'에 매핑됩니다.이 매핑Base64 인코딩이 실제로 작동하는 방식을 무시합니다.즉, 각 Base64 문자는 실제로 직접 ASCII 문자가 아닌 6비트 이진수를 나타냅니다.

이런 역량을 강화해야 할 것 같습니다.

사진은 위아래로 슬라이드할 수 있습니다.


중국어를 더 잘 이해하는 사람들을 살펴 보겠습니다.채팅GPT-4o, 디코딩된 콘텐츠를 직접 제공하며 모든 것이 정확합니다.이번 라운드에 3점을 획득하세요.


가장 저항력이 강한 국산 제품을 살펴 보겠습니다.웬2-72B, 디코딩 결과도 "Test", "Hello" 및 "World"인데 기본적으로 모두 잘못되었으며 이번 라운드는 0점을 얻습니다.

Qwen2-72B의 아이디어를 자세히 살펴보겠습니다. 답변에는 추론 아이디어만 포함되어 있으며 직접 답변을 얻기 위해 다양한 변환 단계가 생략되었습니다. 이는 얻은 결과가 크게 잘못되었음을 의미합니다.즉, Qwen2-72B의 주요 오류는 주로 다음에 집중되어 있습니다.Base64 인코딩 이해그리고디코딩 단계의 실행우수한.

예를 들어:직접Base64 인코딩에서 특정 중국어 문자 가져오기, 이는 바이너리 데이터를 해석하기 위해 올바른 바이트 시퀀스와 인코딩(예: UTF-8)이 필요하기 때문에 가능성이 낮습니다.


최종 점수는 다음과 같습니다.


ChatGPT-4o가 다른 주요 모델보다 완전히 앞서는 6점을 얻은 것은 분명합니다. 중국어든 영어든 Base64 코드는 우리가 이해하는 의미로 쉽게 변환될 수 있습니다.

나머지 3개 모델인 Llama 3.1 405B와 Qwen2-72B는 모두 3점을 얻어 영어 디코딩에서는 좋은 성능을 보였지만, 중국어 디코딩에서는 상대적으로 부족했다.~에Llama 3.1 405B는 응답할 때 더 "인간적"이며 사람들에게 더 많은 감정적 가치를 제공할 수 있습니다.하지만 전체적인 답변은 영어 쪽으로 치우쳐 있고, 중국어로 답변하도록 엄격히 요구하지 않는 이상 중국어 기능이 상대적으로 더 많습니다.

그리고 바닥Mistral Large 2는 잘못된 영어 해독으로 인해 각 질문마다 1점을 잃었지만, 해독 추론 과정은 매우 상세하고 명확했습니다.강력한 추론 능력을 보여주는데, 이 점에서 다른 모델의 성능은 크게 다릅니다.

이번 테스트를 통해,우리는 대형 모델이 다중 언어 및 프로그래밍 언어 디코딩에서 다르게 수행되고 현재 대형 모델이 다중 언어 처리에서 약간 불균형하다는 것을 발견했습니다.전반적으로 영어 응답은 대체로 정확하고 명확했으나, 중국어 응답은 정확도가 떨어졌습니다.

1

마침내

코딩은 정보를 효율적으로 전송하기 위해 인간이 정보 자체에 수행하는 일련의 논리적 변환입니다. 일반적으로 우리는 이를 "컴퓨터의 언어"라고 생각합니다. 그러나 이 테스트는 대규모 언어 모델의 경우 올바른 인코딩 및 디코딩이 어려운 문제가 되었음을 보여줍니다. 특히 다국어 환경에서는 각 인코딩 및 디코딩 과정에 여러 단계와 여러 인코딩 규칙이 포함됩니다. 하나의 링크에 오류가 있거나 바이너리 계산이 잘못되면 정확한 답변을 얻을 수 없습니다.

전체적으로 GPT-4o는 이 작은 게임만으로도 Llama3.1 405B보다 50-50 더 좋습니다. 다소 놀랍게도 이번에는 Mistral Large2가 꼴찌를 기록했습니다.

저희의 작은 게임이 마음에 드신다면 저희를 팔로우해 주세요. 저희와 더 많은 토론을 하고 싶으시면 아래 QR 코드를 스캔하여 저희 커뮤니티에 가입하실 수도 있습니다.