robin li는 대형 모델의 "실행 점수"에 대한 환상을 폭로합니다. 목록이 모든 강점을 나타내지는 않으며 모델 간의 격차는 앞으로 더 넓어질 것입니다

robin li는 대형 모델의 "실행 점수"에 대한 환상을 폭로합니다. 목록이 모든 강점을 나타내지는 않으며 모델 간의 격차는 앞으로 더 넓어질 것입니다.

2024-09-12

대형 모델의 새 버전이 출시될 때마다 업계에서는 항상 제3자 목록 데이터를 인용하고, 자체 대형 모델로 gpt-4를 상대로 '점수를 실행'하며 특정 지표를 초과했다고 주장하는 것입니다. 대형모델로 기술력을 입증하다.

하지만 최근 로빈 리 바이두 회장과 내부 직원들의 대화에서 대형 모델 업계 벤치마킹을 방해하는 '창문'을 꿰뚫었다. "새 모델이 나올 때마다 반드시 gpt-4o와 비교를 해야 합니다. 제 점수가 거의 비슷하고, 일부 개별 항목에서는 그 이상을 한다고 하는데, 그렇다고 격차가 없는 건 아닙니다. 가장 발전된 모델로."

그는 또한 모델 간의 격차가 다차원적이라고 설명했습니다. 한 차원은 이해 능력, 생성 능력, 논리적 추론 능력 또는 기억 능력과 같은 기본 능력의 차이인지 여부와 같은 능력 측면입니다. 다른 차원은 일부 모델이 동일한 효과를 얻을 수 있지만 비용이 듭니다. 높고 추론 속도도 느리지만, 실제로는 고급 모델에 비해 여전히 열등합니다.

"테스트 세트의 과적합도 있습니다. 자신의 능력을 증명하려는 모든 모델은 순위에 오르게 됩니다. 순위를 매길 때 그는 다른 사람들이 무엇을 테스트하고 있는지, 어떤 질문을 사용할 수 있는지, 어떤 기술을 사용할 수 있는지 추측해야 합니다. 따라서 목록이나 테스트 세트를 보면 기능이 매우 유사하다고 생각하지만 실제 적용에는 여전히 분명한 격차가 있습니다."라고 robin li는 말했습니다.

대규모 모델 실무자는 robin li가 언급한 테스트 세트의 과적합(과적합)은 주로 모델 훈련 과정에서 모델이 훈련 데이터를 너무 정확하게 학습하여 모델이 실패한다는 사실을 의미한다고 기자들에게 말했습니다. 훈련 데이터에서는 성능이 매우 좋지만, 보이지 않는 테스트 데이터에서는 성능이 좋지 않습니다. 이는 일반적으로 모델이 너무 복잡해서 훈련 데이터의 노이즈와 세부 사항을 "기억"할 수 있지만 이러한 세부 사항과 노이즈는 일반적이지 않으므로 모델이 더 많은 새로운 데이터에 대해 잘 일반화되지 않음을 의미합니다.

위에서 언급한 사람들은 순위 및 실행 점수에 실제로 한계가 있다고 생각합니다. 예를 들어 평가 데이터 세트의 개방성으로 인해 모델을 목표 방식으로 훈련하여 순위를 향상시킬 수 있으며 결과적으로 " 순위를 스와이핑". 그러나 완전히 의미가 없는 것은 아닙니다. 순위는 여전히 상대적입니다. 사람들이 다양한 대형 모델의 성능을 빠르게 이해할 수 있도록 정량적 평가 기준을 제공하고, 모든 사람이 경쟁을 통해 대형 모델의 기술 수준을 지속적으로 최적화하도록 유도합니다. 또한 홍보 및 홍보에서 특정 역할을 합니다.

robin li의 견해에 따르면, "각각의 새 모델이 출시될 때 홍보하려는 동기와 결합된 자체 미디어 과대 광고의 일부는 모든 사람에게 모델 간의 성능 차이가 상대적으로 작다는 인상을 줍니다. 실제로는 그렇지 않습니다. " robin li는 실제 사용에서 baidu는 기술 인력이 순위를 매기는 것을 허용하지 않는다고 말했습니다. 대형 모델의 기능에 대한 실제 측정은 사용자 요구를 충족하고 가치 이득을 창출할 수 있는지 확인하기 위해 특정 애플리케이션 시나리오에서 이루어져야 합니다.

대형 모델 업계에서 자주 언급되는 '12개월 앞당김, 18개월 뒤'는 그다지 중요하지 않다고 생각한다. 모든 회사는 완전히 경쟁적인 시장 환경에 있기 때문에 어떤 방향으로 가든 많은 경쟁자가 있습니다. "항상 경쟁사보다 12~18개월 앞서 있을 수 있다면 무적이 될 것입니다. 12~18개월이 짧은 시간이라고 생각하지 마세요. 항상 경쟁사보다 6개월 앞서 있을 수 있다고 해도 당신의 시장 점유율은 70%일 수 있지만 상대방은 20%, 심지어 10%에 불과할 수도 있습니다."

앞으로는 대형 모델 간 격차가 더 벌어질 수도 있다고 판단했다. 대형 모델의 상한선은 매우 높기 때문에 아직 이상적인 상황과는 거리가 멀기 때문에 모델은 지속적으로 반복되고 업데이트되며 빠르게 업그레이드되어야 하며 수년 또는 10년 이상 지속적으로 투자할 수 있어야 합니다. 지속적으로 사용자 요구를 충족하고 비용을 절감하며 효율성을 높입니다.

대화 중에 robin li는 대형 모델의 경쟁 장벽이 있는지 논의하는 것 외에도 오픈 소스 및 폐쇄 소스 모델의 효율성, ai 등의 주제를 포함하여 대형 모델에 대한 오해가 꽤 많다고 언급했습니다. 대리인.

robin li는 폐쇄 소스 대형 모델의 확고한 지지자입니다. "대형 모델 시대 이전에는 모두가 무료이고 저렴한 비용을 의미하는 오픈 소스에 익숙했습니다." 그는 예를 들어 오픈 소스 linux는 컴퓨터가 이미 존재하기 때문에 설명했습니다. 리눅스를 사용하고 있습니다. 무료입니다. 하지만 대형 모델 시대에는 그렇지 않습니다. 대형 모델 추론은 비용이 많이 들고, 오픈 소스 모델은 컴퓨팅 성능을 직접 구입해야 하기 때문에 컴퓨팅 성능을 효율적으로 활용할 수 없습니다.

그는 “오픈소스 모델은 효율성 측면에서 효율적이지 않다”며 “정확히 말하면 폐쇄형 소스 모델을 비즈니스 모델이라고 불러야 한다”며 “수많은 사용자가 r&d 비용, 머신 리소스, gpu를 공유하는 방식”이라고 말했다. 추론. gpu의 사용 효율성이 가장 높습니다. baidu 기사 xinda 모델 3.5 및 4.0의 gpu 사용률은 90% 이상에 도달했습니다.

robin li는 교육 및 과학 연구와 같은 분야에서는 오픈 소스 모델이 가치가 있지만, 효율성, 효율성 및 최저 비용을 추구하는 상업 분야에서는 오픈 소스 모델이 이점이 없다고 분석했습니다.

대형 모델의 응용 진화에 관해서도 첫 번째는 사람을 보조하는 코파일럿(copilot)이고, 다음은 어느 정도 자율성을 갖고 도구를 독립적으로 사용하고 반영하며 스스로 진화할 수 있는 에이전트 인텔리전스(agent intelligence)이다. ; 이 수준의 자동화가 더욱 발전하면 모든 업무를 독립적으로 완료할 수 있는 ai worker가 될 것입니다.

현재 지능형 에이전트는 대형 모델 회사와 고객으로부터 점점 더 많은 관심을 받고 있습니다. robin li는 비록 많은 사람들이 이러한 개발 방향에 대해 낙관하고 있지만 현재로서는 지능형 에이전트가 합의된 것이 아니라고 믿습니다.

"지능형 에이전트의 한계점은 실제로 매우 낮습니다." 그는 많은 사람들이 대형 모델을 애플리케이션으로 전환하는 방법을 모르고 있으며 지능형 에이전트는 매우 직접적이고 효율적이며 간단한 방법으로 지능적으로 구축할 수 있다고 말했습니다. 모델 위에 에이전트가 있습니다.

(이 기사는 중국경제신문에서 발췌한 것입니다)

보고/피드백

소식

robin li는 대형 모델의 "실행 점수"에 대한 환상을 폭로합니다. 목록이 모든 강점을 나타내지는 않으며 모델 간의 격차는 앞으로 더 넓어질 것입니다.

소개

내 연락처 정보