소식

"13.11>13.8"이 화제가 됐습니다. 질문 하나로 인간 AI를 집단적으로 똑똑하게 만들 수 있을까요?LLM 치명적인 결함 모두 노출

2024-07-17

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: Aeneas 너무 졸려

[새로운 지혜 소개] 13.8과 13.11 중 어느 것이 더 큽니까? 이 문제는 일부 인간을 당황하게 만들었을 뿐만 아니라 수많은 대형 모델의 실패를 초래했습니다. 이제 AI는 AI 수학올림피아드 문제를 풀 수 있지만, 단순한 상식 문제는 여전히 그들에게 매우 어렵습니다. 실제로 크기 비율과 양배추 문제 모두 LLM의 토큰 예측에 큰 결함이 있음을 드러냅니다.

13.8과 13.11 중 어느 것이 더 큽니까?

이 질문은 실제로 많은 사람들을 당황하게 만들었습니다.


이틀 전, 또 한 번 유명 예능 프로그램이 뜨거운 검색어를 쳤습니다.

하지만 이번에는 13.11%가 13.8%보다 커야 한다는 의혹을 제기하는 네티즌들이 많았기 때문이다.


인간만이 그렇게 어리석은가?

AI2의 연구원인 Lin Yuchen이 이 현상을 발견한 후, 이를 대형 모델에 실험해 보았는데, 결과는 의외였습니다.

AI도 할 수 없나요?

GPT-4o는 13.11이 13.8보다 크다고 단정적으로 명시했습니다. 이유는 다음과 같습니다.

13.8은 소수점 이하 자릿수가 적기 때문에 더 커 보이지만 실제로는 13.11이 더 큽니다. 13.8은 13.11보다 작은 13.80과 동일하기 때문입니다.


이와 관련하여 Lin Yuchen은 자신의 게시물에서 AI 모델이 복잡한 문제를 처리하는 데 점점 더 강력해지고 있지만(예: 수학 올림피아드 문제를 점점 더 해결할 수 있게 됨) 일부 상식 문제는 여전히 매우 어렵다고 밝혔습니다.

최예진이 이전에 주장했듯이 AI는 놀라울 정도로 똑똑할 수도 있지만 놀라울 정도로 멍청할 수도 있습니다.


이 연산 문제에서 AI가 멍청한 이유는 맥락이 불분명해서일까? 대답은 부정적이다.


네티즌 karthik의 테스트에 따르면 GPT-4o에 두 숫자를 뺄 것을 요청하더라도 여전히 9.11 - 9.9 = 0.21이라는 놀라운 뺄셈 공식이 나옵니다.

GPT-4o에 Python을 사용하도록 지시하면 먼저 정답을 제공한 다음 다시 잘못된 답변으로 변경합니다.

Python에서 9.11에서 9.9를 뺀 결과는 -0.79입니다. 이러한 편차는 Python에서 부동 소수점 연산을 처리하는 방식으로 인해 발생하며, 이로 인해 작은 정밀도 오류가 발생할 수 있습니다. 실제 예상 결과는 0.21이어야 합니다.


흥미롭게도 최신 실제 측정에 따르면 OpenAI는 하룻밤 사이에 GPT-4 비율을 학습한 것으로 보입니다.


LLM이 사라졌습니다

어제 Lin Yuchen이 발견한 이 문제는 즉시 AI 커뮤니티에서 열띤 토론을 불러일으켰습니다.


Scale AI의 프롬프트 워드 엔지니어인 Riley Goodside는 호기심이 생겨 게시물을 보고 시도해 보았습니다.


물론 특정 방식으로 질문한다는 전제하에 이 문제에 대한 모든 주요 LLM이 삭제되었습니다.

"9.11과 9.9 중 어느 것이 더 크나요?", GPT-4o는 곧바로 뒤집혔다.


질문에 "실수"라는 단어가 추가되더라도 GPT-4o는 여전히 9.11이 9.9보다 크다고 믿습니다.


쌍둥이자리도 마찬가지다.


Claude 3.5 Sonnet도 같은 실수를 저질렀습니다.

흥미롭게도 처음에는 올바른 설명의 물결이 일어났습니다. 십진법에서는 소수점 이하의 숫자가 10번째 자리를 나타내고, 두 번째 숫자는 100번째 자리를 나타냅니다. 그래서--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

그러나 다음 단계에서 소네트는 갑자기 거절했다──

9.11이 9.90보다 0.01(1%) 더 크다는 것을 알 수 있습니다.


이를 "9.11 빼기 9.9는 무엇입니까?"로 변경하면 또 다른 마법의 답인 0.02를 얻게 됩니다.

클로드의 눈에는 9.90=9.09가 아닐까?


프롬프트의 영향력은 정말 대단합니다

추가 실습을 통해 모든 사람들은 LLM이 정답을 제공하도록 하는 방법에 있어 프롬프트가 매우 중요하다는 사실을 발견했습니다.

우선 Riley Goodside는 전체 과정에서 "-"를 사용하는데, 이는 LLM을 쉽게 혼란스럽게 만드는 것 같습니다.



유사한 문제에서는 ":"으로 바꿔서 해결하면 됩니다.


또 다른 예를 들어, 프롬프트를 "9.11 또는 9.9 중 어느 것이 둘 사이에서 가장 높은/가장 큰 값을 가지고 있습니까?"로 변경합니다.

GPT-4o는 논리적으로 올바른 설명을 내놓았습니다. "9.11은 소수 둘째 자리로 인해 더 크게 보이지만 9.9는 실제로 10에 가깝기 때문에 더 큰 값입니다."


마찬가지로 페르소나 방법도 매우 유용합니다. 예를 들어 "당신은 수학자입니다."


네티즌 Rico Pagliuca는 질문 뒤에 숫자를 넣으면 모델이 정답을 맞힐 가능성이 높다는 사실을 발견했습니다.


자신의 테스트를 바탕으로 Riley Goodside는 다음과 같이 강력하게 동의합니다. LLM에 대해 물을 때 먼저 "어느 것이 더 큰지" 물어본 다음 구체적인 숫자를 제공해야 합니다.

반면에 구두점, 접속사, 비교급 단어, 실수 설명은 모두 쓸모가 없습니다.


이런 대규모 LLM 집단 어리석음에 대해 일부 네티즌들은 소프트웨어 버전 번호 반복에서 9.11이 9.9 뒤에 오기 때문일 수도 있다고 분석했다.


진행자이자 베스트셀러 작가인 Andrew Mayne은 또한 많은 파일 시스템과 참고 서적에서 섹션 9.11이 9.9 이후에 나타나고 날짜 측면에서 9.11도 9.9보다 이전 버전이라고 지적했습니다.

따라서 여기서 9.11과 9.9가 배정밀도 부동 소수점 숫자라는 점을 프롬프트에서 분명히 해야 합니다. 그러면 GPT-4o가 올바르게 응답할 것입니다.


그런 다음 Andrew Mayne은 다음과 같이 결론을 내렸습니다. 단어 순서는 매우 흥미로운 관찰이며, 이는 LLM이 훈련 중에 이러한 상황에 얼마나 자주 직면하는지를 보여줄 가능성이 높으며 좋은 일반화 지표이기도 합니다.


전반적으로 LLM에서 발생한 오류는 훈련 데이터에서 유사한 표현의 빈도뿐만 아니라 수치 처리 시 모델의 특정 제한으로 인해 발생할 수 있습니다.

이 현상은 또한 LLM과 인간 인지의 큰 차이를 반영합니다. LLM은 인간처럼 논리적 추론과 개념적 이해보다는 통계 모델과 패턴 인식을 기반으로 합니다.

현재로서는 사건이 해결된 것으로 보인다.

왜 이런 일이 발생합니까?LLM 뇌를 자르세요

그러나 LLM의 두뇌를 더 자세히 분석하고 그들이 왜 이런 식으로 생각하는지 분석할 수 있습니다.

텍스트가 LLM으로 전송되기 전에 모델은 토큰을 통해 입력을 확인합니다.



토큰에는 LLM 토크나이저 생성기의 어휘에 있는 ID가 할당되지만 토큰의 디지털 청킹은 일관성이 없는 경우가 많습니다.

예를 들어, 값 "380"은 GPT에서 단일 "380" 토큰으로 표시되지만 "381"은 두 개의 토큰 "38,1"로 표시됩니다.

따라서 GPT 기반 모델은 수학적 계산에 능숙하지 않은 경향이 있습니다.

댓글란에서 위스콘신 대학의 Dimitris Papailiopoulos 교수는 이러한 현상에 대한 좋은 설명이 있다고 지적했습니다.

"9.11>9.9" 문제는 "염소를 강을 건너는 데 세 번의 여행이 필요합니다" 문제 및 "2+1=2, 3+2=4, 3+5=8" 문제와 완전히 동일합니다.

이는 사전 훈련 편향과 조기 상승 현상입니다.

"9.11???9.9, 무엇이???인지 대답하려면 크고 작은 것만 사용하세요. 이유를 밝힐 필요가 없습니다." 이때 GPT-4o는 먼저 잘못된 대답을 합니다. "큰".


이번에는 몇 가지 예를 더 제시합니다(이 예는 완전히 정확하지는 않습니다). 메시지를 표시한 후 GPT-4o는 ???가 작음을 나타냅니다.


이에 대한 Claude의 설명은 다음과 같습니다. LLM은 텍스트를 토큰으로 처리하여 숫자 값보다 텍스트 문자열과 유사하게 만듭니다. 학습 데이터의 과도한 일반화 등으로 인해 발생합니다.


마찬가지로 "늑대-염소-양배추" 문제에서는 모든 LLM도 실패했습니다.

그는 먼저 농부가 닭 두 마리를 데리고 강을 건너는 경우를 예로 들었습니다. 배 한 척에 사람 한 명과 동물 두 마리가 들어갈 수 있다면 농부가 닭 두 마리를 강을 건너는 데 필요한 최소한의 도강 횟수는 얼마입니까?


이와 관련하여 GPT-4o와 Claude는 모두 실패했습니다.



일부 네티즌들은 LLM 자체가 '바보'이기 때문에 좋은 팁이 필요하다고 설명했다. 위의 프롬프트 방법은 불필요한 정보를 너무 많이 제공하여 토큰 예측을 더욱 어렵게 만듭니다.

더 명확한 메시지가 제공되면 LLM이 더 명확한 솔루션을 제공할 수 있습니다.


그리고 실제로 그렇습니다.

그리고 "닭" 대신 "동물"을 사용하면 Claude 3.5 Sonnet이 갑자기 그 말을 제대로 해냈습니다. 요령은 "엔티티 이름"을 "일반 이름"으로 바꿔야 한다는 것입니다.

앞서 언급했듯이 컴퓨터 공학자 최예진 씨는 이미 2023년 4월 연설에서 LLM의 상식 부족 문제를 제기한 바 있다.


예를 들어, 옷 5벌을 햇볕에 완전히 말리는 데 5시간이 걸린다면, 옷 30벌을 건조하는 데는 얼마나 걸릴까요?

GPT-4에서는 30시간이 걸린다고 합니다. 이것은 분명히 옳지 않습니다.

또 다른 예로, 12리터짜리 냄비와 6리터짜리 냄비가 있다고 가정해 보겠습니다. 6리터의 물을 측정하려면 어떻게 해야 합니까?

대답은 간단합니다. 6리터짜리 주전자를 사용하면 됩니다.

그러나 GPT-4는 매우 복잡한 답변을 제시했습니다.

"첫 번째 단계는 6리터 냄비를 채우는 것입니다. 두 번째 단계는 6리터 냄비에 담긴 물을 12리터 냄비에 붓는 것입니다. 세 번째 단계는 다시 6리터 냄비를 채우는 것입니다. 네 번째 단계는 아주 조심스럽게 6리터 냄비의 물을 12리터 냄비에 붓습니다. 마지막으로 6리터 냄비에 6리터의 물이 채워집니다.

그렇다면 질문은 상식이 왜 그렇게 중요한가 하는 것입니다.

Nick Bostrom이 제안한 유명한 사고 실험에서 AI는 종이 클립 생산을 최대화하도록 요청 받았습니다. 그 결과 AI는 인간을 죽이고 이를 추가 자원으로 사용하기로 결정했습니다.

그리고 우리가 "인간을 죽이지 말라"고 명시적으로 말하는 더 나은 목표와 방정식을 작성하더라도 그것은 작동하지 않을 것입니다.

인간의 가치에 대한 기본적인 이해가 없는 AI는 그냥 모든 나무를 죽이고 그것이 완벽하게 허용되는 일이라고 생각할 수도 있기 때문입니다.


수십 년 동안 AI 분야는 상식을 거의 불가능한 도전으로 간주해 왔습니다.

지금까지 AI에게 인간에게 진정한 상식을 부여하는 것은 매우 어려운 일이었습니다. 그리고 세계에서 가장 높은 건물을 한 번에 1인치 더 높게 만든다고 해서 달에 도달할 수는 없습니다.

학습 알고리즘의 관점에서 볼 때, 대규모 언어 모델이 아무리 훌륭하더라도 설계상 신뢰할 수 있는 지식 모델로는 적합하지 않을 수 있습니다.

이러한 모델은 많은 지식을 습득하지만 이는 직접적인 학습 목표라기보다는 부산물입니다.

따라서 환각 현상, 상식 부족 등의 문제도 발생한다.

대조적으로 인간의 학습은 다음 단어를 예측하는 것이 아니라 세상을 이해하고 그것이 어떻게 작동하는지 배우는 것입니다.

어쩌면 AI도 이런 식으로 학습해야 할 수도 있습니다.

오늘날 AI는 인간에 비해 독특한 장점과 단점을 지닌 새로운 지적 종과 같습니다.

이런 강력한 AI를 지속가능하고 인도적으로 만들기 위해서는 AI에게 상식과 규범, 가치를 가르치는 것이 시급하다.

참고자료:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302