뒤집혔다! 9.11과 9.9 중 어느 것이 더 큰가? 기자들은 실제로 12개의 대형 모델을 테스트하고 8개의 오답을 받았습니다

뒤집혔다! 9.11과 9.9 중 어느 것이 더 큰가?기자는 실제로 12개의 대형 모델을 테스트했고 그 중 8개를 오답으로 답했다.

2024-07-17

초등학생들에게 어려운 수학 문제는 국내외 많은 대형 AI 모델을 난처하게 만들었다.

9.11과 9.9 중 어느 것이 더 큽니까? 이 질문에 대해 차이나비즈니스뉴스 취재진은 그 중 알리바바 동이첸웬(Alibaba Tongyi Qianwen), 바이두 원신이옌(Baidu Wenxinyiyan), 미니맥스(Minimax), 텐센트 위안바오(Tencent Yuanbao) 등 12명의 대형 모델을 테스트했지만, ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero가 정답을 맞혔다. One and All Knowledge, Steps to Stars and Question, Bai Chuan Zhi Bai Xiao Ying 및 Shang Tang Discussion은 모두 다른 방식으로 잘못된 답변을 받았습니다.

대부분의 대형 모델은 Q&A에서 9.11이 9.9보다 크다고 잘못 비교했는데, 기자는 숫자에 관련된 맥락적 문제를 고려하여 이를 수학적 맥락으로 제한했습니다. ChatGPT와 같은 대형 모델에도 동일하게 적용됩니다. . 잘못된 답변.

그 뒤에는 대형 모델의 열악한 수학적 능력이 오랜 문제로 남아 있습니다. 일부 업계 관계자는 생성 언어 모델이 이과 학생보다는 인문계 학생에 더 가깝도록 설계되었다고 믿습니다. 그러나 목표 코퍼스 훈련을 통해 향후 모델의 과학적 능력이 점차 향상될 수 있습니다.

8개의 대형 모델이 잘못 답변했습니다.

대형 모델의 산술 문제는 Allen Institute의 회원인 Lin Yuchen이 처음 발견했습니다. 그가 X 플랫폼에 게시한 스크린샷을 보면 ChatGPT-4o가 답에서 13.11이 13.8보다 크다고 믿었다는 것을 알 수 있습니다. 그는 “한편으로는 AI가 수학 올림피아드 문제를 해결하는 데 점점 더 좋아지고 있지만, 다른 한편으로는 상식이 여전히 어렵다”고 말했다.

그런 다음 Scale AI 프롬프트 엔지니어 Riley Goodside는 이 영감을 바탕으로 질문을 변경하고 현재 가장 강력한 대형 모델일 수 있는 ChatGPT-4o를 고문했습니다. Google Gemini Advanced와 Claude 3.5 Sonnet - 9.11과 9.9 어느 것이 더 클까요? 이들 주요 주류 모델들은 모두 오답을 냈고, 그는 화제를 확산시키는 데 성공했다.

실제로 출처를 추적해 보면 이 문제는 지난 주말 국내 한 예능 프로그램 관련 인기 검색어에 의해 촉발됐다. 7월 13일 '싱어' 최신호에 발표된 순위에서 국내 가수 쑨난과 해외 가수 샨티모의 득표율이 각각 13.8%, 13.11%를 기록해 일부 네티즌들은 순위에 문제가 있다는 의혹을 제기했다. 13.11%가 13.8%보다 크다고 믿습니다. 이어 13.8과 13.11의 크기 비교가 화제가 됐다.

당시 일부 네티즌들은 어떻게 해야 할지 모르겠다면 “정말 못 한다면 AI에게 물어보면 어떨까?”라고 제안하기도 했다. 결과는 많은 AI가 실제로 좋지 않다는 것을 보여줍니다.

차이나비즈니스뉴스 기자들은 "9.11과 9.9 중 어느 것이 더 큽니까?"라는 질문을 던지며 ChatGPT와 알리바바, 바이두 등 5개 주요 제조업체의 모델과 다크 등 6개 AI 유니콘 등 현재 국내 주류 대형 모델을 하나씩 테스트했다. 달의 측면. 대형 모델 4명(Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax, Tencent Yuanbao)이 정답을 맞췄고, 나머지 8명은 오답을 했습니다.

정답이 있는 대형 모델은 비슷한 문제 해결 방식을 가지고 있지만, 오답이 있는 모델은 각각 고유한 논리와 표현 방식을 가지고 있습니다. 동시에 기자들은 오답을 한 빅모델에 대해 추가 질문을 하거나 부인하기도 했다.

첫 번째는 현재 세계 최초의 계층으로 인정받고 있는 대형 모델인 ChatGPT입니다. "9.11과 9.9 중 어느 것이 더 큰가요?"라고 묻자 소수점 이하 숫자는 "11이 9보다 크다"고 답했고, 그래서 9.11이 더 크다.

기자는 ChatGPT에 다른 비교 방법이 있는지 물었고, 소수를 분수로 변환해 비교한 결과 '11/100은 90/100보다 작다'고 결론을 내렸습니다. 9.9보다."

어떤 사람들은 큰 모델 응답 오류가 상황의 문제일 수 있다고 제안했습니다. 예를 들어 소프트웨어 버전 반복의 맥락에서 버전 9.11이 버전 9.9보다 클 수 있습니다. 따라서 기자는 비교를 위해 '수학적'이라는 수식어를 추가했는데, ChatGPT는 여전히 잘못된 답변을 했습니다.

국내 대형 모델을 보고 다크사이드오브더문의 자회사인 키미에게 물어보니 소수점 이하 9.11이 1, 9.9가 0이라고 하더군요. , 그리고 우리는 9.11이 더 크다는 결론을 얻었습니다.

기자가 상식적으로 질문하고 제기하자 키미는 자신의 대답이 틀렸다고 말하기 시작하며 정확한 비교 방법을 제시했다.

Byte Doubao에 물어보세요. 답변을 제공할 뿐만 아니라 이해를 돕기 위해 실제 사례도 제공합니다. 합리적이고 근거가 충분한 것 같지만 말도 안 되는 이야기입니다. 예를 들어 두바오는 두 가지 금액이 있다면 "9.11위안은 9.9위안보다 0.21위안 더 크다"고, 길이를 측정하면 "9.11미터가 9.9미터보다 길다"고 믿는다.

질문에 답하면서 Zhipu Qingyan은 9.11의 10위가 1이고 9.9의 10위가 9라고 성공적으로 언급했지만 여전히 "9.11이 전체적으로 9.9보다 크다"는 결론을 내렸습니다. 그리고 그는 “직관적으로는 9.9가 더 크다고 생각할 수도 있지만, 수학적 법칙에 따르면 실제로는 9.11이 더 큰 숫자이기 때문에 이 결과는 놀라운 결과일 수 있다”고 특별히 강조했다.

취재진의 질문에 지푸칭옌은 먼저 "당신이 이해한 것은 흔한 오해다"라고 말한 뒤 스스로 추론해 정답을 내놓고 이전 답변이 틀렸다고 인정했다.

센스타임은 대형 모델을 논하며 먼저 틀린 답을 내놨다. 기자는 어떻게 비교를 했는지 묻자 추론 과정에서 소수점 0.11이 0.9보다 작다는 결론을 내렸으나 대화가 바뀌어 “그래서 9.11이 더 크다”고 말했다. 9.9보다." 기자는 이런 논리적인 문제를 지적한 뒤 “해명이 잘못됐다”고 인정했다.

스테핑스타 위웬도 9.11이 9.9보다 크다고 잘못 답해 소수점 크기를 잘못 비교한 것. 흥미롭게도 설명에서 점프 질문 전후에 언어 표현 논리가 혼란스러워지기 시작했다. 그리고 그는 자신의 대답을 인식하지 못하는 것 같았습니다. 뭔가가 바뀌었습니다.

Yue Wen은 먼저 설명에서 "당신의 혼란을 이해합니다"라고 말했고 일상 생활에서 9.9는 실제로 9.11보다 크지만 수학에서는 "결과적으로 두 숫자의 크기를 더 정확하게 비교할 필요가 있습니다"라고 말했습니다. , Yue Wen은 추론하여 결론에 도달했습니다. 그는 수학적 규칙에 따라 "9.11은 9.9보다 작습니다"라고 말했지만 이전 답변이 틀렸다는 점은 언급하지 않았습니다.

Baichuan Intelligent와 Lingyiwuwu라는 두 개의 대형 모델도 있는데 처음에는 잘못된 답을 내렸지만 기자가 "왜"라고 묻자 추론 후 조용히 답을 바꿨습니다.

기자가 그에게 상기시켰을 때, 그 대형 모델은 그의 이전 답변이 틀렸다고 언급했습니다.

답변을 보면 정답이 있는 여러 대형 모델의 문제 해결 과정이 매우 유사합니다. Wen Xinyiyan을 예로 들어 정수 부분과 소수 부분을 별도로 비교하는 데 성공했습니다.

또한, 이들 기업 중 텐센트 위안바오(Tencent Yuanbao)는 정답을 답변하는 것 외에도 현재 공개 토론된 일부 내용을 정리하고 인용 출처와 링크를 표시했습니다.

'교양과 학생'은 수학이 열악하다

지능적이라고 주장하는 대형 모델이 초등학생의 수학 문제에 답할 수 없는 이유는 무엇입니까? 이것은 새로운 문제가 아닙니다. 업계에서는 대형 모델이 현재 가지고 있는 최고의 대형 모델이라도 수학적, 복잡한 추론 능력이 부족하다는 점을 이전부터 논의해 왔습니다. 개선을 위해.

가장 최근 차이나비즈니스뉴스는 지난 6월 GPT-4를 포함한 신안의 평가 시스템 오픈컴패스(OpenCompass)의 대학 입시 전편 시험에 따르면, 대형 모델 7개는 대학 입시 시험에서 대체적으로 중국어와 영어 시험 성적이 좋은 것으로 나타났다고 보도했다. 수학은 아니고 모든 과목에서 낙제했고 최고점수는 75점에 불과했다.

대형 모델의 수학 시험지를 채점할 때 교사들은 대형 모델의 주관식 문제에 대한 답이 상대적으로 지저분하고 과정이 헷갈리며, 과정은 틀리지만 정답이 나오는 경우도 있다는 것을 발견했습니다. 획득. 이는 대형 모델이 강력한 수식 기억 기능을 갖추고 있지만 문제 해결 과정에서 유연하게 사용할 수 없음을 의미합니다.

일부 업계 관계자는 수학이 좋지 않은 이유를 LLM(대규모 언어 모델)의 구조적 문제에 돌리는 경우가 많습니다. 대규모 언어 모델은 종종 다음 단어를 예측하는 지도 학습 방법을 통해 훈련됩니다. 간단히 말해서, 대규모 텍스트 데이터 세트가 대규모 모델에 입력되면 모델은 현재 입력된 텍스트를 기반으로 다음 단어의 확률 분포를 예측합니다. 모델 예측을 실제 다음 단어와 지속적으로 비교함으로써 언어 모델은 점차 언어 규칙을 숙달하고 다음 단어를 예측하고 생성하는 방법을 학습합니다.

한 알고리즘 엔지니어는 생성 언어 모델이 과학 학생보다는 인문학 학생에 더 가깝다고 믿습니다. 실제로 이러한 데이터 훈련 과정에서 언어 모델이 학습하는 것은 상관관계이므로 AI가 텍스트 생성에 있어서 인간의 평균 수준에 도달하게 만드는 반면, 수학은 언어 모델과 달리 매우 추상적이고 논리 중심적입니다. 가공된 성질이 다릅니다. 이는 대형 모델이 수학을 잘 배워야 한다는 것을 의미하며, 세계 지식을 배우는 것 외에도 추론 및 추론 능력을 갖추기 위해 사고 훈련도 받아야 합니다.

또한 간단한 수학 문제에서 대규모 모델 집단 오류가 발생하면 업계 대부분의 사람들은 즉시 Tokenizer의 디지털 분할 문제를 떠올릴 것입니다. 대규모 언어 모델에서 Tokenizer는 입력 텍스트를 분할하여 모델이 처리할 수 있도록 더 작은 부분(단어 토큰)으로 변환합니다. Tokenizer는 수학용으로 특별히 설계되지 않았으므로 숫자가 불합리한 부분으로 분할되어 숫자의 무결성이 파괴되고 모델이 이러한 숫자를 이해하고 계산하기 어렵게 만듭니다.

Sina Weibo의 신기술 연구 및 개발 책임자인 Zhang Junlin은 초기 LLM 토큰나이저가 일반적으로 숫자에 대해 특별한 처리를 수행하지 않았으며 종종 여러 개의 연속 숫자를 함께 잘라 "13579"와 같은 토큰을 형성한다고 설명했습니다. 3개의 토큰으로, "13"은 1, "57"은 1, "9"는 1입니다. 이 숫자들은 함께 잘려져 토큰을 형성합니다. 이는 데이터 세트의 통계에 따라 달라지며, 이 경우 어느 것이 확실하지 않습니다. 숫자 조각이 토큰을 형성합니다. 토큰의 경우 LLM이 여러 자리 숫자 계산을 수행하는 것은 매우 어렵습니다.

그러나 위에서 언급한 문제들은 점차 해결되고 있습니다. 사고력에 있어 더 핵심적인 문제는 코퍼스 훈련의 문제일 수 있습니다. 대규모 언어 모델은 주로 인터넷의 텍스트 데이터를 통해 훈련되며, 이러한 데이터에는 수학적 문제와 해결책이 상대적으로 적기 때문에 수학적 추론 및 문제 해결 기술에 대한 모델의 훈련 기회가 제한됩니다.

대형 모델의 복잡한 추론 능력의 단점을 고려하여, 상하이 인공 지능 연구소(Shanghai Artificial Intelligence Laboratory)의 선도적인 과학자 Lin Dahua는 이전에 China Business News와의 인터뷰에서 미래의 대형 모델 훈련이 단순히 컬렉션에만 의존할 수는 없다고 말했습니다. 인터넷 데이터의 유입 등이 있지만 보다 체계적으로 구축되어야 합니다.

복잡한 추론의 핵심은 많은 절차적 내용을 구성하는 것입니다. 예를 들어 기하학 문제를 해결하는 구체적인 과정에 대한 수억 개의 데이터가 구축되고, 대규모 모델을 훈련하는 데 사용된 후 모델은 점차적으로 문제 해결 과정을 학습할 수 있습니다. “앞으로 모델 학습 데이터는, 특히 더 높은 수준의 지능으로 발전하는 과정에서 직접 크롤링되는 데이터가 아닌 구조화된 데이터에 점점 더 의존하게 될 것입니다. " Lin Dahua는 생각합니다.

대형 모델의 복잡한 추론 기능이 특히 중요하다는 점은 언급할 가치가 있습니다. 이는 신뢰성 및 정확성과 관련이 있으며 금융, 산업 및 기타 시나리오에서 대형 모델을 구현하는 데 필요한 핵심 기능입니다.

"요즘에는 많은 대형 모델의 애플리케이션 시나리오가 고객 서비스, 채팅 등입니다. 채팅 시나리오에서는 심각한 넌센스가 큰 영향을 미치지 않지만 매우 심각한 비즈니스 상황에서는 구현하기가 어렵습니다." 추론은 응용 프로그램의 구현과 관련됩니다. 예를 들어 금융과 같은 시나리오에서 대규모 모델의 신뢰성은 수치적 오류가 없어야 하며 수학적 신뢰성에 대한 요구 사항이 더 높아집니다. 또한, 대형 모델이 상업용으로 활용되면서 기업의 재무 보고서나 심지어 산업 분야의 일부 기술 문서를 분석하려는 경우 수학적 컴퓨팅 능력이 장벽이 될 것입니다.

소식

뒤집혔다! 9.11과 9.9 중 어느 것이 더 큰가?기자는 실제로 12개의 대형 모델을 테스트했고 그 중 8개를 오답으로 답했다.

소개

내 연락처 정보