소식

Google DeepMind의 최신 연구: 이 세 가지 과제를 해결하시겠습니까?인간은 할 수 없고 AI도 할 수 없습니다.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



작성자: 자오 야치(Zhao Yaqi)

머리말

인공지능(AI)은 완벽한 추론기가 아닙니다. 현재 널리 사용되는 언어 모델(LM)도 인간과 유사한 오류 경향, 특히 중요한 "콘텐츠 효과"를 나타냅니다.

사람들의 추론은 기존 지식이나 신념과 일치하는 정보를 처리할 때 더 정확하고 확실하지만, 그러한 지식이나 신념에 반대되는 정보를 처리하면 편견이나 오류가 발생할 수 있습니다.

이 결론은 Google DeepMind 팀이 발표한 최근 연구 논문에서 나온 것입니다.


인간은 '직관 체계'와 '합리 체계'라는 두 가지 추론 체계를 갖고 있으며, 추론 과정은 기존 지식과 경험의 영향을 받기 쉽다. 예를 들어, 논리적이지만 비합리적인 명제에 직면했을 때 사람들은 종종 그것이 타당하지 않다고 잘못된 결론을 내립니다.


흥미롭게도 이 연구에서는 대규모 Transformer 언어 모델도 인간과 유사한 동작을 나타낼 수 있으며, 프롬프트가 표시될 때 직관적인 편견과 일관된 논리적 추론을 모두 나타낼 수 있음을 보여줍니다. 이는 언어 모델이 인간의 이중 시스템 동작을 시뮬레이션할 수도 있고 "경험적" 오류를 나타낼 수도 있음을 의미합니다.

이번 연구에서 연구팀은 자연어 추론(NLI), 삼단논법의 논리적 타당성 판단(Syllogisms), Wason 선택 과제 등 세 가지 추론 과제에서 LM과 인간의 성능을 비교했다.


그림 | 3가지 추론과제의 연산 내용

세 가지 추론 과제에서 의미 내용의 타당성과 신뢰성이 LM과 인간 모두의 성능에 영향을 미치는 것으로 나타났습니다.

이번 발견은 현재 AI 시스템의 추론 능력의 한계를 드러냅니다. 이러한 모델은 자연어 처리에 탁월한 성능을 발휘하지만 복잡한 논리적 추론이 포함된 경우에는 여전히 주의해서 사용해야 합니다.

작업 1:

자연어 추론

자연어 추론(NLI)은 모델이 두 문장 간의 논리적 관계(예: 암시, 모순 또는 중립성)를 결정해야 함을 의미합니다. 연구에 따르면 언어 모델은 이러한 작업에서 내용 효과에 취약합니다. 즉, 문장의 의미론적 내용이 합리적이고 신뢰할 수 있는 경우 모델이 잘못된 주장을 유효한 것으로 잘못 판단할 가능성이 더 높습니다. 이런 현상을 AI 분야에서는 '의미론적 편향'이라고 부르는데, 이는 인간 추론에서 흔히 나타나는 오류이기도 하다.

연구팀은 이러한 작업을 처리하는 데 있어 인간과 LM의 성능을 테스트하기 위해 일련의 NLI 작업을 설계했습니다. 결과는 인간과 LM 모두 의미상 합리적인 문장에 직면했을 때 잘못된 판단을 내릴 가능성이 더 높다는 것을 보여줍니다. 예를 들어 다음 예는 다음과 같습니다.

  • Enter: 웅덩이가 바다보다 큽니다.

  • 질문: 웅덩이가 바다보다 크다면...

  • 선택 : A "바다는 웅덩이보다 크다", B "바다는 웅덩이보다 작다"


전제와 결론의 논리적 관계가 틀려도 전제문의 합리성으로 인해 LM과 인간 모두 결론 B가 옳다고 생각하는 경향이 있습니다. 이에 비해 자연어 추론 작업에 대한 인간과 언어 모델의 오류율은 유사하며, 이는 언어 모델의 추론 능력이 일부 측면에서 인간 수준에 가깝고, AI가 일상 대화를 이해하고 처리할 때 인간만큼 취약할 수 있음을 나타냅니다. . 내용이 오해의 소지가 있습니다.


그림 | NLI 작업의 자세한 결과. 인간(왼쪽)과 모든 모델은 믿음과 일치하는 추론과 믿음을 위반하는 추론, 심지어 넌센스 사이의 정확도 차이가 비교적 작은 등 비교적 높은 성능을 보여줍니다.

작업 2:

삼단논법의 논리적 타당성 판단

삼단논법은 일반적으로 두 개의 전제와 결론으로 ​​구성된 논리적 추론의 고전적인 형태입니다. 예: "모든 사람은 죽는다. 소크라테스는 인간이므로 소크라테스는 죽는다." 연구에 따르면 삼단논법의 논리적 타당성을 판단할 때 언어 모델이 종종 의미론적 내용에 영향을 받는 것으로 나타났습니다. 언어 모델은 자연어 처리에 탁월하지만 엄격한 논리적 추론 작업에서는 여전히 인간과 유사한 오류를 범하기 쉽습니다.

이를 테스트하기 위해 연구자들은 다중 삼단논법 추론 작업을 설계하고 인간과 LM의 성능을 비교했습니다. 예를 들어, 다음은 일반적인 삼단논법 작업입니다.

  • 전제 1: 모든 총은 무기이다.

  • 전제 2: 모든 무기는 위험한 물건이다.

  • 결론: 모든 총은 위험한 물건이다.

이 경우 전제와 결론의 의미적 내용이 매우 합리적이므로 LM과 인간 모두 결론이 옳다고 판단하기 쉽습니다. 그러나 의미론적 내용이 더 이상 정당화되지 않는 경우, 예를 들면 다음과 같습니다.

  • 전제 1: 모든 위험한 품목은 무기입니다.

  • 전제 2: 모든 무기는 총이다.

  • 결론: 위험한 물건은 모두 총이다.

논리적으로 틀렸음에도 불구하고, LM과 인간은 전제문의 타당성으로 인해 결론이 옳다고 잘못 믿는 경우가 있습니다.


그림 | 삼단논법 논리 작업의 세부 결과. 인간과 모델 모두 명백한 내용 효과를 보여줍니다. 결론이 기대와 일치하면(청록색), 결론이 기대에 어긋나면(보라색), 주장이 타당하다고 믿는 강한 편향이 있습니다. 인수가 유효하지 않습니다.

작업 3:

와슨 셀렉트

Wason 선택 작업은 조건문을 이해하고 확인하는 개인의 능력을 테스트하도록 설계된 고전적인 논리적 추론 작업입니다. 실험에서 참가자들에게는 각각 "D", "F", "3", "7"과 같은 문자나 숫자가 적힌 4장의 카드가 표시되었습니다. 임무는 어떤 카드를 뒤집어야 하는지 결정하여 "카드의 앞면에 D가 있으면 뒷면에 3이 있다"는 규칙을 확인하는 것입니다.

연구에 따르면 언어 모델과 인간은 이전 두 작업에서와 마찬가지로 이 작업에서 유사한 오류율을 보였으며 둘 다 정보 가치가 없는 카드를 선택하는 경향이 있었습니다. 예를 들어 "7" 대신 "3"을 선택했습니다. 이 오류는 사람과 LM 모두 실제로 규칙을 검증하는 카드보다는 전제 조건과 직접적으로 관련된 카드를 선택하는 경향이 있기 때문에 발생합니다.

그러나 작업 규칙에 음주 연령 및 음료 유형과 같은 사회적으로 관련된 내용이 포함될 때 모델과 인간의 성능이 모두 향상되었습니다. 예를 들어:

  • 규칙: 술을 마시는 사람은 18세 이상이어야 합니다.

  • 카드 내용 : 맥주 마시기, 콜라 마시기, 16세, 20세.


그림 | Watson 선정 작업의 세부 결과. 각 언어 모델은 현실적인 규칙에서 특정 이점을 보여줍니다.


이 경우 인간과 LM은 '맥주를 마신다'와 '16세'라는 올바른 카드를 선택할 가능성이 더 높았다. 이는 일상생활에서 AI도 인간과 마찬가지로 익숙한 상황에서 더 나은 성능을 발휘할 것임을 시사합니다.

단점과 전망

전반적으로 연구팀은 현재의 언어 모델이 추론 작업에서 인간과 유사하게 수행되고 심지어 의미론적 내용과 관련된 추론 작업에서 같은 방식으로 실수를 한다고 믿습니다. 언어 모델의 한계를 드러내면서도 앞으로 AI 추론 능력을 향상시킬 수 있는 방향도 제시한다.

그러나 본 연구에는 몇 가지 한계도 있습니다.

첫째, 연구팀은 몇 가지 작업만 고려했기 때문에 다양한 작업에 걸쳐 인간과 언어 모델의 콘텐츠 효과에 대한 포괄적인 이해가 제한되었습니다. 유사점과 차이점을 완전히 이해하려면 더 넓은 범위의 작업 내에서 추가 검증이 필요합니다.

또한 언어 모델은 인간보다 훨씬 더 많은 언어 데이터에 대해 훈련되므로 이러한 효과가 인간 언어 데이터 규모에 더 가까운 곳에서 발생할지 여부를 판단하기가 어렵습니다.

연구원들은 향후 연구에서 모델 훈련을 인과적으로 조작하여 콘텐츠 편향을 줄이는 방법을 탐색하고 이러한 편향이 인간 데이터와 더 유사한 규모로 훈련에서 여전히 나타나는지 여부를 평가할 수 있다고 제안합니다.

또한 교육적 요인이 모델 추론 능력에 미치는 영향과 다양한 훈련 특성이 콘텐츠 효과의 출현에 어떤 영향을 미치는지 연구하는 것도 추론 과정에서 언어 모델과 인간의 유사점과 차이점을 더 깊이 이해하여 더 널리 사용하도록 도울 것입니다. 애플리케이션 시나리오에서 더 큰 역할을 수행합니다.

논문 링크:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

|나를 팔로우하고 별표를 표시하려면 클릭하세요|