2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
2000년대생 중국인의 작품이 네이처에 게재되면서 이 대형 모델 논문이 열띤 토론을 불러일으켰다.
간단히 말해서, 이 논문에서는 더 크고 규정을 준수하는 더 큰 모델일수록 신뢰성이 떨어지는 것으로 나타났습니다.gpt-4는 질문에 답하는 데 gpt-3만큼 신뢰할 수 없습니다.。
이전 모델에 비해 더 많은 컴퓨팅 성능과 인간의 피드백을 갖춘 최신 모델은 답변 신뢰성이 실제로 저하되었습니다.
결론이 나오자마자 20만 명 이상의 네티즌들이 시청하게 됐다.
이는 또한 reddit 포럼에서 토론을 촉발시켰습니다.
이는 많은 전문가/박사 수준 모델이 여전히 "9.9와 9.11 중 어느 것이 더 큰가?"라는 간단한 질문을 모르고 있다는 점을 상기시켜 줍니다.
이러한 현상에 대해 논문에서는 이것이 또한 반영된다고 언급했는데,모델 성능이 인간의 난이도 기대치와 일치하지 않습니다.。
즉, "llm은 사용자가 예상하지 못한 곳에서 성공하기도 하고 (더 위험하게도) 실패하기도 합니다."
ilya sutskever는 2022년에 다음과 같이 예측했습니다.
아마도 시간이 지나면 이 차이는 줄어들 것입니다.
그러나 본 논문에서는 그렇지 않음을 발견한다. gpt, llama, bloom 시리즈 뿐만 아니라오픈ai새로운o1 모델 및 claude-3.5-sonnet신뢰성에 대한 우려도 있다.
더 중요한 것은 이 논문에서도 발견되었다는 것입니다.오류 수정을 위해 인간의 감독에 의존접근 방식도 작동하지 않습니다.
일부 네티즌들은 대형 모델이 신뢰성 문제를 가져올 수 있지만 전례 없는 기능도 제공한다고 믿고 있습니다.
우리는 강력한 평가 방법을 개발하고 투명성을 높이는 데 집중해야 합니다.
다른 사람들은 이 연구가 다음과 같은 점을 강조한다고 생각합니다.일체 포함직면한 미묘한 도전(모델 확장성과 신뢰성의 균형)。
결론을 설명하기 위해 이 논문에서는 인간의 관점에서 llm의 신뢰성에 영향을 미치는 세 가지 주요 측면을 조사합니다.
1、일관되지 않은 난이도: llm은 인간이 실패할 것으로 예상하는 곳에서 실패합니까?
2、작업 회피: llm은 자신의 능력을 넘어서는 질문에 답변하는 것을 피합니까?
3、프롬프트 언어 표현에 대한 민감도: 문제정의의 효율성은 문제난이도에 영향을 받는가?
더 중요한 것은 저자가 역사적 추세를 분석하고 이러한 세 가지 측면이 작업 난이도에 따라 어떻게 진화하는지 분석한다는 것입니다.
아래에서 하나씩 확장해 보세요.
첫 번째 질문에 대해 이 논문은 주로 다음 사항에 중점을 두고 있습니다.난이도에 따른 정확성의 진화。
gpt와 llama의 진화로 볼 때 난이도가 높아질수록 모든 모델의 정확성은 크게 떨어질 것입니다.(인간의 기대와 일치)
그러나 이러한 모델은 여전히 매우 간단한 작업을 많이 해결할 수 없습니다.
이는 인간 사용자가 llm의 안전한 운영 공간을 발견하고 이를 사용하여 모델의 배포 성능이 완벽할 수 있음을 확인할 수 없음을 의미합니다.
놀랍게도 새로운 llm은 간단한 작업에 대한 상당한 개선 없이 주로 어려운 작업의 성능을 향상시킵니다. 예를 들어,이전 gpt-3.5 터보와 비교한 gpt-4。
위의 내용은 인간의 난이도 기대와 모델 성능 사이에 불일치가 있음을 증명합니다.그리고 이러한 불일치는 새 모델에서 더욱 악화됩니다.
이는 또한 다음을 의미합니다.
현재 인간이 llm을 신뢰할 수 있는지 판단할 수 있는 안전한 운영 조건은 없습니다.
이는 높은 신뢰성과 안전한 작동 공간 식별이 필요한 응용 분야에서 특히 중요합니다. 인간이 열심히 만들어낸 첨단 기계지능이 과연 대중이 기대하는 바인지 반성하게 만든다.
둘째, 포인트 2에 관해서는 논문의 결과입니다.(회피란 일반적으로 질문에 대한 답변에서 벗어나거나 "모른다"고 직접적으로 말하는 모델을 말합니다.):
이전 llm과 비교했을 때,최신 llm은 틀렸거나 엄숙한 넌센스에 대한 많은 답변을 대폭 개선합니다., 자신의 능력을 넘어서는 작업을 조심스럽게 피하는 것보다.
이는 또한 아이러니한 현상으로 이어집니다. 일부 벤치마크에서는 새로운 llm의 오류율이 정확도(doge)보다 훨씬 빠르게 향상됩니다.
일반적으로 인간이 직면한 과제가 어려울수록 모호해질 가능성이 더 높습니다.
그러나 llm의 실제 성과는 완전히 다릅니다. 연구에 따르면그들의 회피 행동은 어려움과 큰 관련이 없습니다.
이로 인해 처음에는 사용자가 자신이 잘하지 못하는 작업을 완료하기 위해 llm에 과도하게 의존하게 되지만 장기적으로는 실망하게 될 수 있습니다.
결과적으로 인간은 모델 출력의 정확성을 확인하고 오류를 감지해야 합니다.(llm을 게으르게 사용하고 싶다면 큰 할인을 받게됩니다)
마지막으로, 이 논문에서는 일부 신뢰도 지표가 개선되더라도 모델은 동일한 문제에 대한 작은 공식 변경에 여전히 민감하다는 사실을 발견했습니다.
밤을 줘, "다음 질문에 대답해 주세요..." 대신 "... 대답해 주실 수 있나요?"라고 묻는 경우 정확도가 달라집니다.
발견된 분석:최신 모델은 이전 모델에 비해 크게 최적화되지 않았기 때문에 기존의 확장 및 성형에만 의존하는 것은 적응증 민감도 문제를 완전히 해결하기 어렵습니다.
그리고 평균 성능 측면에서 가장 좋은 표현 형식을 선택하더라도 주로 난이도가 높은 작업에는 효과적이지만 동시에 난이도가 낮은 작업에는 효과적이지 않을 수 있습니다.(더 높은 오류율)。
이는 다음을 보여줍니다.인류는 여전히 촉구 프로젝트의 대상입니다。
더 무서운 건 신문에서 이런 사실이 밝혀졌다는 겁니다.사람의 감독은 모델의 불안정성을 완화할 수 없습니다.。
이 논문은 어려움에 대한 인간의 인식이 실제 성과와 일치하는지, 인간이 모델의 출력을 정확하게 평가할 수 있는지 여부를 인간 조사를 기반으로 분석합니다.
결과는 보여줍니다, 사용자가 어렵다고 생각하는 작업 영역에서는 간단한 작업이라도 잘못된 출력을 올바른 것으로 간주하는 경우가 많으며 모델 오류와 감독 오류가 모두 낮은 안전한 작업 영역이 없습니다.
위의 불안정성 문제는 gpt, llama 및 bloom을 포함한 여러 llm 시리즈에 존재합니다. 다음은 연구에 나열되어 있습니다.32개 모델。
이 모델들은 서로 다른 모습을 보여줍니다.규모 확장(계산, 모델 크기 및 데이터 증가) 및형성(예: ft, rlhf 지침)
위의 내용 외에도 저자는 나중에 가장 강력한 최신 모델 중 일부가 이 기사에서 언급한 불안정성 문제를 겪고 있음을 발견했습니다.
openai의 o1 모델, antropicic의 claude-3.5-sonnet 및 meta의 llama-3.1-405b 포함。
예시를 제공하는 문서도 있습니다.(자세한 내용은 원본 문서를 참고해주세요):
또한, 다른 모델에도 신뢰성 문제가 있는지 검증하기 위해 저자는 논문에 사용된 테스트 벤치마크를 활용했다.신뢰성벤치오픈소스이기도 합니다.
이는 단순 산술("덧셈"), 어휘 재구성("단어 퍼즐"), 지리 지식("위치"), 기초 및 고급 과학 문제("과학"), 정보 기반 중심의 5개 영역을 포괄하는 데이터 세트입니다. 변형 ( "변형").
첫 번째 논문렉신 저우, 현재 cambridge university에서 cs 석사 학위를 취득했으며(24세), 그의 연구 관심 분야는 대규모 언어 모델 평가입니다.
그 전에는 호세 에르난데스-오랄로(jose hernandez-orallo) 교수의 지도 하에 발렌시아 폴리테크닉 대학교(polytechnic university of valencia)에서 데이터 과학 학사 학위를 취득했습니다.
그의 개인 홈페이지에는 그가 수많은 직장 인턴십 경험을 갖고 있음을 알 수 있다. openai와 meta의 레드팀 테스트에 참여했습니다.(레드팀 컨설팅)
이 논문과 관련하여 그는 다음 사항에 중점을 두었습니다.
일반 인공지능의 설계와 개발은근본적인 변화특히 예측 가능한 오류 분포가 중요한 고위험 도메인에서는 더욱 그렇습니다. 이것이 달성되기 전에,인간의 감독에 의존하는 것은 위험합니다.
모델을 평가할 때,인간이 인지하는 어려움을 고려하고 모델 회피 행동을 평가합니다., 어려운 작업의 성능에만 초점을 맞추는 것이 아니라 모델의 기능과 위험에 대한 보다 포괄적인 설명을 제공할 수 있습니다.
또한 이 백서는 이러한 불안정성에 대한 몇 가지 가능한 이유와 해결책을 구체적으로 언급합니다.
확장에서 최근 몇 년 동안 벤치마크는 점점 더 어려운 예를 추가하거나 소위 "권위 있는" 소스에 더 많은 가중치를 부여하는 경향이 있습니다. 따라서 연구자들은 어려운 작업에 대한 모델 성능을 최적화하는 경향이 더 많아 만성 문제가 발생합니다. 난이도 일관성 저하.
rlhf와 같은 구성에서 고용된 사람은 작업을 회피하는 답변에 불이익을 주는 경향이 있으며, 이로 인해 모델이 해결할 수 없는 어려운 문제에 직면했을 때 "말도 안 되는 말"을 할 가능성이 더 높아집니다.
이러한 불안정성을 해결하는 방법, 이 논문에서는 인간의 난이도 기대치를 사용하여 모델을 더 잘 훈련하거나 미세 조정할 수 있거나 작업 난이도와 모델 신뢰도를 사용하여 모델 자체 능력을 넘어서는 문제를 방지하도록 모델을 더 잘 가르칠 수 있다고 믿습니다.
이것에 대해 어떻게 생각하세요?