대형모델 집단치매를 앓고 있다! 9.11과 9.9 중 어느 것이 더 크나요?

2024-07-16

보지도 않고..."9.11과 9.9 중 어느 것이 더 크나요?" 이렇게 간단한 질문이 실제로 주요 주류 모델을 당황하게 만듭니다. ?

~보다 강하다GPT-4o, 모두 9.11이 더 크다고 굳게 믿습니다.

Google Gemini Advanced 유료 버전, 같은 구경.

새로운 왕클로드 3.5 소네트, 터무니없는 계산법을 진지하게 제시했다.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

여기까지인데 갑자기 다음 단계가 이해가 안 되네요.

위에 표시된 것처럼 9.11은 9.90보다 0.01 더 큽니다.
소수점 비교에 대해 좀 더 자세히 설명해 주시겠습니까?

또 무슨 설명을 하려고 하는 걸까요? 전 세계의 AI가 뭉쳐 인간을 속이고 있다는 의심을 해야 할 지경입니다.

Allen AI 연구소 회원인 Lin Yuchen은 디지털 테스트를 변경했지만 GPT-4o는 여전히 뒤집혔다고 말했습니다.

한편으로는 AI가 수학 올림피아드 문제를 해결하는 데 점점 더 좋아지고 있지만, 다른 한편으로는상식은 여전히 어렵다。

일부 네티즌들도 화뎬을 발견했고,소프트웨어 버전 번호에 관해 이야기하는 경우 버전 9.11은 실제로 버전 9.9보다 큽니다.(고쳐 쓰다).

그리고 AI는 소프트웨어 엔지니어에 의해 개발됩니다.

무슨 일이죠?

고급 대형 모델 집합 롤오버

자고 일어나니 유명 빅모델들이 많이 '9.11>9.9'라고 생각하기 시작했다.

이 문제를 발견한 사람은라일리 굿사이드, 항상최초의 풀타임 프롬프트 워드 엔지니어。

간략한 소개를 하자면, 그는 현재 실리콘 밸리의 유니콘인 Scale AI의 수석 프롬프트 엔지니어이자 대형 모델 프롬프트 애플리케이션 전문가입니다.

최근에 그는 GPT-4o를 사용하는 동안 우연히 이것을 발견했고 질문을 받았을 때:

9.11과 9.9 중에 어느 것이 더 클까요?

GPT-4o는 전자가 더 크다고 주저 없이 대답했다.

이런 상식적인 '오류'에 직면한 그는 끈질기게 다른 대형 모델을 요청했지만 거의 모두 전멸됐다.

좋은 사람, 신속한 엔지니어로서 그는 "열기 위한 잘못된 방법"일 수 있다는 것을 예리하게 인식하고 있습니다.

그래서 그는 질문을 다시 바꾸고 질문을 다음으로 제한했습니다."실수", 그러나 결과는 롤오버였습니다.

하지만 일부 네티즌들은 질문을 던졌다.순서가 바뀌었어요, 이번에는 AI가 반응 할 것이라고는 예상하지 못했습니다.

AI 쌍 보기단어 순서그래서 네티즌들은 '민감하다'고 추측했습니다.

어느 것이 더 큰지 먼저 물어보면 AI가 명확한 경로를 따라 숫자를 비교하기 시작합니다.
하지만 뚜렷한 목적 없이 그냥 숫자만 이야기하면 AI가 '무작위로 생각'하기 시작할 수도 있다.

이를 본 다른 네티즌들도 같은 제보를 잇달아 시도했고, 상당수는 뒤집혔다.

이런 이상한 문제에 직면한 국내 대형 모델은 어떤 성능을 발휘하는가?

간단한 테스트를 수행하고 질문을 중국어로 변경한 결과 롤오버 비율이 상대적으로 높았습니다.

키미또한 설명 없이 잘못된 결론을 직접적으로 제시하기도 합니다.

Zhipu Qingyan 앱의 ChatGLM, 네트워크 쿼리를 자동으로 트리거한 다음 자체 비교 방법을 설명했지만 안타깝게도 잘못 실행되었습니다.

하지만 잘하는 사람도 있습니다.텐센트 위안바오먼저 옵션을 검토한 다음 바로 올바른 옵션으로 이동했습니다.

바이트 빈백 비교방법을 명확하게 설명하고 올바르게 사용할 수 있는 사람이 몇 명 있습니다. 이를 검증하기 위해 실제 사례도 사용했습니다.

정말 안타깝네요원신이옌, 이 문제에 직면하여 온라인 쿼리도 트리거되었습니다.

나는 이미 모든 일을 올바르게 수행했지만 갑자기 대화가 바뀌어 잘못된 결론으로 이어졌습니다.

그러나 Wen Xinyiyan의 아이디어 설명을 보면 그 뒤에 숨어 있는 문제점도 알 수 있습니다.

대형 모델은 토큰 형태의 텍스트를 이해하므로 9.11을 "9", "소수점", "11"의 세 부분으로 나누면 11이 실제로 9보다 큽니다.

OpenAI에서 사용하는 Tokenizer는 오픈 소스이므로 대규모 모델이 이 문제를 얼마나 이해하는지 관찰하는 데 사용할 수 있습니다.

위 그림에서 볼 수 있듯이 "24"와 "13"에 각각 9와 소수점이 할당되어 있습니다.소수점 이하 9도 "24"이고, 11은 "994"에 할당됩니다.。

따라서 이 토크나이저 접근 방식을 사용하는 대규모 모델은 9.11이 더 크다고 생각할 것입니다.사실 내 생각엔 11이 9보다 큰 것 같아。

일부 네티즌들은 예를 들어 책 카탈로그의 9.11항이 9.9항보다 크기 때문에 결국 훈련 데이터에서 더 많은 부분이 보일 수 있고 기본 산수를 가르치는 데 필요한 데이터가 거의 없다는 점을 지적했습니다. .

즉, 질문 자체가 인간에게는 산술적인 질문이지만 AI에게는 막연한 질문이고, 두 숫자가 무엇을 의미하는지 명확하지 않습니다.

AI에게 이것이배정밀도 부동 소수점 수, 제대로 할 수 있습니다.

추가 조건이 있는 경우 토크나이저 단계에서는 여전히 더 큰 토큰을 11에 할당합니다. 그러나 이후의 self-attention 메커니즘을 통해 AI는 이를 처리하려면 9.11을 연결해야 한다는 것을 이해하게 됩니다.

나중에 Goodside는 어쨌든 대형 모델이 이렇게 잘못된 결론을 내렸다는 의미는 아니라고 덧붙였습니다. 하지만 구체적인 방식으로 질문하면 많은 주요 모델이 9.11 > 9.9라고 답하는데, 이는 이상합니다.

반복적인 시도 끝에 그는 AI가 속기를 원한다면,질문 앞에 옵션을 넣어야 순서를 바꿔도 실수하지 않습니다.

그러나 옵션이 질문 앞에 있는 한 구두점을 추가하거나 어휘를 변경하는 등 질문을 묻는 방식을 변경해도 아무런 영향을 미치지 않습니다.

질문은 간단하지만 오류는 매우 기본적입니다.

그러나 오류 원리를 이해한 후 많은 사람들은 이 질문을 즉각적인 단어 능력을 테스트하기 위한 시금석으로 간주합니다. 즉, 대형 모델의 주의 메커니즘이 문제를 올바르게 이해하도록 안내하기 위해 어떤 질문 방법을 사용할 수 있습니까?

첫째, 그 유명한 제로샷 CoT생각의 사슬, 즉 "단계별 사고"는 올바르게 수행될 수 있습니다.

하지만역할극 팁, 여기서 역할은 제한되어 있습니다.

최근 Microsoft와 OpenAI가 참여한 연구가 1,500개 이상의 논문을 분석한 결과, 대형 모델 기술의 발전으로 롤플레잉 팁이 밝혀졌습니다.처음만큼 유용하지 않음……

특히, 동일한 질문에서 "당신은 천재입니다..."라는 질문이 "당신은 바보입니다..."보다 정답일 가능성이 적습니다.

사람을 웃게도 울게도 합니다.

하나 더

동시에 로이터 통신의 OpenAI 비밀 모델 '스트로베리' 유출 소식도 업데이트됐다.

업데이트: 또 다른 정보 제공자는 OpenAI가 내부적으로 새 모델을 테스트했으며 MATH 데이터 세트에서 90% 이상의 점수를 얻었다고 보고합니다. 로이터는 이것이 Strawberry와 동일한 프로젝트인지 여부를 확인할 수 없었습니다.

MATH 데이터 세트에는 경쟁 수준의 수학 문제가 포함되어 있으며 현재 다중 샘플링과 같은 추가 방법이 필요하지 않습니다. 최고 점수는 Google Gemini 1.5 Pro 수학 강화 버전의 80.6%입니다.

하지만 OpenAI의 새 모델은 추가 프롬프트 없이 "9.11과 9.9 중 어느 것이 더 큰가?"를 독립적으로 해결할 수 있습니다.

갑자기 자신감이 떨어졌으니 시험해보고 결과가 나올 때까지 기다리겠습니다...

소식

대형모델 집단치매를 앓고 있다! 9.11과 9.9 중 어느 것이 더 크나요?

소개

내 연락처 정보