상하이 자오퉁대학교 충칭 AI 연구소 Qi Peng 팀과의 대화: 현재 대형 모델의 수준은 5살 아이 수준에 불과합니다.

상하이 교통대학교 충칭 AI 연구소의 Qi Peng 팀과의 대화: 현재 대형 모델의 수준은 5세 어린이 수준에 불과합니다 |

2024-07-21

(이미지 출처 : unsplash)

최근 “빅 모델은 9.11이 더 큰지, 9.9가 더 큰지 판단할 수 없다”는 뉴스가 화제를 불러일으켰다.

초등학생도 어려운 수학 문제인 GPT-4o를 포함해 국내외 대형 AI 모델 12개에게 '9.11과 9.9 중 어느 것이 더 큰가?'라고 질문한 결과 최종 결과는 알리바바 통이뿐인 것으로 나타났다. Qianwen과 Baidu Wenxin, Minimax와 Tencent Yuanbao가 4개의 정답을 냈고, ChatGPT-4o를 포함한 8개의 대형 모델이 오답을 주었습니다.

이는 대형 모델의 수학적 능력이 열악하고 해결해야 할 문제가 많다는 것을 의미합니다.

이전에 TMTpost AGI와의 독점 대화에서 상하이 자오퉁대학교 중경 인공지능연구소(상하이-충칭 인공지능 연구소)의 AI 대형 모델 센터 소장인 Qi Peng 박사는 대형 모델이 훌륭하지만 잠재력이 있고 복잡한 문제를 처리할 수 있으며 일반화 능력을 습득할 수 있는 능력을 가지고 있습니다. 그러나 대규모 언어 모델은 모델 아키텍처의 한계와 과학적 능력 부족으로 인해 "교양 학생"과 비슷할 수 있습니다. 더욱이 현재의 제한된 컴퓨팅 성능은 부족하고 텍스트 데이터가 부족하며 정확성과 신뢰성이 편향되어 있으며 모델 규모도 여전히 어린이 수준, 즉 '5세 어린이'에 가깝습니다. ', 복잡한 일을 처리하기 어렵다. '환상'이 오랫동안 존재했다.

Qi Peng은 칭화대학교에서 학사학위를 취득하고 미국 위스콘신대학교에서 박사학위를 취득했으며 현재 상하이자오통대학교 충칭인공지능연구소에서 근무하고 있습니다. Qi Peng은 수년 동안 데이터 과학, AI 및 기타 분야에 깊이 관여해 왔으며 많은 국가 과학 기술 프로젝트에 참여했으며 다수의 지적 재산권을 소유하고 있습니다.

ChatGPT가 전 세계적으로 인기를 끌면서 지난 1년여 동안 Qi Peng은 Shanghai Jiao Tong University와 충칭 인공 지능 연구소의 AI 대형 모델 센터 팀을 이끌고 "Zhaoyan" 대형 언어 모델을 독립적으로 개발했습니다. 그리고 올해 3월에는 SuperCLUE 중국 대형 모델 에이전트 평가에서 벤치마크 세계 3위, 국내 2위에 올랐습니다.

동시에 Qi Peng은 올해 7월 Shanghai Jiao Tong University의 박사 과정 학생 Zhuang Shaobin 등을 이끌고 오픈 소스 커뮤니티 프로젝트에 참여하여 고급 Latte를 사용하여 Sora와 같은 Wensheng 비디오 모델을 성공적으로 재현했습니다. 시공간 디커플링 어텐션 아키텍처는 신중한 훈련을 거쳐 InternVid 비디오 데이터 세트에서 16초(128프레임) 비디오를 생성할 수 있었습니다. 이전 오픈 소스 모델은 3초(24프레임)만 생성할 수 있었습니다. -frame) 영상의 경우 성능이 5배(500%) 향상되었습니다.

지난 7월 12일, Qi Peng과 Zhuang Shaobin은 TMTpost와 약 2시간 동안 Sora의 현재 개발 상황과 대형 모델 개발이 직면한 과제, 산업 구현 및 향후 개발 방향에 대해 집중적으로 대화를 나눴습니다.

소라 기술의 영향에 대해 이야기하면, Qi Peng은 TMTpost AGI에 Sora가 다양한 문제를 해결할 수 있는 새로운 "해머"에 가깝다고 말했습니다. Sora Vincent 비디오 모델은 영상 생성 외에도 자율 주행, 물리적 세계 시뮬레이션 등 다양한 분야에서 역할을 수행할 수 있습니다. 가장 직관적인 응용 프로그램은 비디오 생성입니다. 사용자는 텍스트 설명만 입력하면 요구 사항을 충족하는 비디오 콘텐츠를 빠르게 생성할 수 있어 비디오 제작의 효율성과 편의성이 향상됩니다.

산업 구현에 관해서는, Qi Peng은 대형 모델이 여러 수직 산업에서 널리 사용되지만 실제 구현 사례는 상대적으로 적다고 지적했습니다. 두 가지 주된 이유가 있습니다. 첫째, 대형 모델의 수학적 능력과 엔지니어링 능력이 부족하고, 둘째, 기계 학습의 일부로 통계적 방법을 기반으로 하는 대형 모델의 특성상 100% 정확도를 달성할 수 없습니다.

AGI의 앞으로의 발전을 기대하며, Qi Peng은 인류 사회가 AGI로 이어지는 중요한 시기에 있다고 강조했습니다. 현재 모델 기능은 AGI 표준을 충족하지 못하지만, 언젠가 사람들이 이 역사 기간을 되돌아볼 때 ChatGPT가 우리를 중요한 역사적 노드에 두었다는 것을 깨닫게 될 것입니다.

"연구소의 중요한 목표는 기술의 상용화를 실현하는 것입니다. 대형모델센터는 현재 AIGC 구현, 특히 '라스트 마일' 이슈, 연구 결과를 어떻게 실제 제품이나 서비스로 전환해 시장을 만족시킬 것인지에 집중하고 있습니다. 수요는 5세에서 10세, 18세까지 계속해서 향상될 수 있으며 심지어 최고 전문가 수준에 도달할 수도 있지만, 이러한 시스템에는 항상 운영 및 적용을 지원하는 지원 시설과 도구가 필요합니다. 개발 비용은 상대적으로 낮을 수 있지만 대형 모델의 실제 적용과 사회적 가치를 촉진하는 데 중요한 역할을 합니다."라고 Qi Peng은 말했습니다.

상하이자오통대학교 충칭인공지능연구소 AI 대형모델센터 소장 Qi Peng 박사

다음은 TMTpost Media AGI와 Qi Peng 및 Zhuang Shaobin 간의 대화를 요약한 것입니다.TMTpost Media AGI: 다른 비디오 모델과 비교했을 때, Shanghai Jiao Tong University의 Chongqing Artificial Intelligence Research Institute가 공동 개발한 반복적인 Sora Vincent 비디오 모델의 핵심 차이점은 무엇입니까?

Qi Peng: 이 프로젝트는 Zhuang Shaobin 박사가 이끄는 팀에 의해 개발되었습니다. 팀은 모델 교육에 모든 오픈 소스 데이터를 사용하기로 결정했습니다. 팀은 데이터를 공개했을 뿐만 아니라 훈련 과정도 공개했습니다. 이러한 방식으로 다른 연구자나 개발자는 동일한 단계와 매개변수 설정을 기반으로 자신의 환경에서 모델 훈련 과정을 재현하고 모델의 효율성과 안정성을 검증할 수 있습니다.

핵심 차이점은 주로 세 가지 측면에 반영됩니다.

첫째, 팀은 모델 교육을 위해 모든 오픈 소스 데이터를 사용합니다. 즉, 전체 교육 프로세스가 공개적으로 액세스 가능한 데이터 세트를 기반으로 한다는 의미입니다. 이 접근 방식은 훈련 프로세스의 투명성과 반복성을 보장하며, 관심 있는 사람은 누구나 동일한 데이터 세트를 사용하여 모델을 재현하거나 개선할 수 있습니다.

둘째, 팀은 더 낮은 계산 비용으로 모델을 효율적으로 훈련할 수 있는 간접 훈련 방법을 채택했습니다. 이 접근 방식은 더 긴 훈련 시간과 더 높은 컴퓨팅 리소스가 필요하기 때문에 대규모 데이터 세트와 복잡한 모델에 적합합니다. 간접 훈련을 사용하면 단일 컴퓨팅 노드의 컴퓨팅 전력 비용을 늘리지 않고도 컴퓨팅 노드 수를 늘려 훈련 시간을 단축할 수 있습니다.

셋째, 팀은 몇 가지 기본 최적화 작업, 특히 비디오 메모리 오버헤드 최적화 작업도 수행했습니다. 이러한 최적화를 통해 모델은 클러스터나 서버에서 긴 비디오를 안정적으로 훈련할 수 있어 모델의 훈련 효율성과 확장성이 향상됩니다.

TMTpost AGI: 오픈 소스 모델을 선택하는 논리와 이유는 무엇입니까?

Qi Peng: 상업 프로젝트와 달리 팀과 오픈 소스 커뮤니티가 공동 작업하는 연구 프로젝트에 오픈 소스 모델을 사용하면 더 많은 R&D 인력이 참여할 수 있다는 이점이 있습니다. 저작권 및 상용화 제한이 없기 때문에 이 프로젝트에 관심이 있는 사람이라면 누구나 쉽게 모델을 획득하여 사용할 수 있고, 개선을 위한 자신만의 제안을 제안하거나 새로운 코드를 기여할 수 있습니다. 이 모델은 모델의 지속적인 개선과 최적화에 도움이 될 수 있으며 학제 간, 분야 간 의사소통과 협력을 강화할 수도 있습니다.

TMTpost AGI: 이 반복되는 Sora와 유사한 비디오 모델은 Latte 시공간 결합 주의 아키텍처를 사용합니다. DiT 아키텍처와 연결되지 않는 이유는 무엇입니까?

Qi Peng: 팀이 개발한 Sora와 유사한 모델 아키텍처는 Transformer나 기타 기존 모델을 완전히 버리지 않고 DiT를 기반으로 확장하고 비디오 처리를 지원하는 시간 차원을 추가합니다. 이 새로운 아키텍처의 고려 사항은 비디오 데이터의 특성에 더 잘 적응하고 비디오 생성 또는 처리 작업에 대한 모델 성능을 향상시키는 것일 수 있습니다.

Titanium Media AGI: DiT 아키텍처는 긴 비디오를 생성하는 데 한계가 있습니다. Latte 시공간 결합 주의 아키텍처가 이러한 문제를 해결할 수 있습니까?

Zhuang Shaobin: 현재 팀에서 훈련 중인 최고의 모델은 최대 16초 길이의 동영상을 생성할 수 있습니다. 이는 일반적으로 2~3초의 비디오만 생성할 수 있었던 unet 아키텍처를 기반으로 한 이전 모델에 비해 크게 개선된 것입니다. 16초는 특별히 긴 시간은 아니지만, 영상 생성 분야에서는 비교적 긴 기록이다.

주로 데이터 품질에 영향을 받는 비디오 생성의 연속성 및 일관성 문제. 비디오 데이터에 프레임 점프와 같은 일관되지 않은 상황이 있는 경우 훈련된 모델도 일관되지 않은 비디오를 생성할 가능성이 높습니다. 또한 모델 훈련 중 프레임 속도와 해상도는 비디오 생성 품질에 영향을 미칩니다. 모델이 낮은 해상도와 프레임 속도 데이터에 대해서만 학습된 경우 고해상도의 부드러운 비디오를 생성하지 못할 수도 있습니다.

1분 또는 2분 길이의 비디오를 처음부터 끝까지 생성할 수 없는 이유는 무엇입니까? 1~2분 길이의 엔드투엔드 비디오는 수천 프레임, 심지어는 2~3천 프레임의 데이터를 의미하며, 이는 수백, 수천 배의 컴퓨팅 리소스 소비를 필요로 합니다. Latte 시공간 결합 주의 아키텍처는 이론적으로 이러한 기간까지 확장될 수 있지만 현재 이러한 훈련을 지원할 만큼 충분한 컴퓨팅 성능과 데이터를 갖춘 기관은 없습니다.

TMTpost AGI: 현재 누가 Sora를 사용하고 있나요? 어떤 문제가 해결되나요? 그것은 어떤 가치를 가져오는가?

장샤오빈: C 측면에서는 일반 가정 사용자 등 비전문 영상 제작자의 경우 소라와 같은 영상 생성 모델을 사용하면 영상 제작의 어려움을 크게 줄일 수 있습니다. 사용자는 텍스트 설명만 입력하면 아름다운 비디오 콘텐츠를 생성할 수 있으므로 비디오 제작에 더 쉽게 참여할 수 있습니다.

B 측면에서는 전문 비디오 편집자와 크리에이티브를 위해 Sora는 복잡하거나 상상력이 풍부한 비디오 자료를 생성할 수 있습니다. 전문가는 모델이 제공하는 재료를 기반으로 미세 조정하고 최적화하여 작업 효율성과 창작 품질을 향상시킬 수 있습니다.

소라는 영상 제작에만 활용되는 것이 아니라 자율주행, 3D 생성 및 모델링, 물리학 연구 등 다양한 분야에서 일련의 탐구를 진행하고 있다. 자율주행 시스템은 주변 물체의 동적 변화를 정확하게 예측해야 하는데, '월드 시뮬레이터'인 소라는 물체의 이동 궤적을 시뮬레이션하고 예측할 수 있어 자율주행 시스템에 보다 정확한 환경 모델링을 제공합니다.

예를 들어, 자율주행 분야에서 테슬라의 자율주행 솔루션과 이와 유사한 첨단 운전 보조 시스템은 차량, 보행자, 장애물 등 주변 환경을 실시간으로 감지할 수 있다는 점에서 상당한 기술 발전을 이루었습니다. 자율주행을 실현하는 것. 소라(Sora)는 자율주행 시스템이 충돌, 추돌 등 잠재적으로 위험한 상황을 피하기 위해 사전 결정을 내릴 수 있도록 돕습니다. 동시에 물체의 움직임을 예측함으로써 시스템은 주행 경로와 속도를 최적화하고, 교통 효율성을 향상시키며, 혼잡과 배기가스 배출을 줄일 수도 있습니다.

일반적으로 Sora는 영상 제작에 대한 문턱을 낮추고 더 많은 사람들이 영상 제작에 참여할 수 있도록 해줍니다. C 측의 비전문 사용자와 B 측의 전문 영상 제작자 모두 이점을 누릴 수 있습니다.

Qi Peng: Sora는 다양한 문제를 해결할 수 있는 새로운 도구인 "망치"에 가깝습니다. Sora Vincent 비디오 모델은 영상 생성 외에도 자율 주행, 물리적 세계 시뮬레이션 등 다양한 분야에서 역할을 수행할 수 있습니다. 가장 직관적인 응용 프로그램은 비디오 생성입니다. 사용자는 텍스트 설명만 입력하면 요구 사항을 충족하는 비디오 콘텐츠를 빠르게 생성할 수 있어 비디오 제작의 효율성과 편의성이 향상됩니다.

기술은 특정 문제를 해결하기 위해 개발되는 것이 아니라 연구 과정에서 우연히 강력한 솔루션이 발견되는 경우가 많습니다. 이 방법이 성숙되면 일련의 문제를 해결하기 위해 많은 분야에서 널리 사용될 수 있습니다.

현재 Sora는 아직 베타 버전이므로 대중에게 널리 제공되지는 않습니다. 중국의 경우 내부 베타 버전이나 외부 베타 버전을 적용한 사례도 있을 수 있으나 그 수가 상대적으로 적고 주로 짧은 동영상이나 영화 클립을 생성하는 데 국한됩니다. 이것은 베타 버전이기 때문에 대부분의 경우 무료로 사용할 수 있습니다. 앞으로 충전이 시작된다면 그 비용은 현재 영상 제작비에 비해 몇 백 위안 정도로 아주 작은 부분이 되어 영상 제작 비용을 크게 절감할 수 있을 것이다.

TMTpost AGI: Sora 모델을 개발하는 동안 팀은 어떤 어려움에 직면했습니까? 이러한 어려움을 극복하는 방법은 무엇입니까?

치 펭 : 이 프로젝트는 주로 오픈 소스 커뮤니티와 협력합니다. 주요 연구 개발 작업은 Zhuang Shaobin 박사와 한두 명의 연구 개발 인력이 수행합니다. 프로젝트 전체는 데이터 수집 및 라벨링, 모델 훈련, 모델 평가, 훈련 속도 향상 및 기계 최적화를 담당하는 4개 그룹으로 나뉩니다.

Zhuang Shaobin: 모델 훈련 과정에서 팀이 직면한 가장 큰 과제는 컴퓨팅 리소스가 부족하다는 것입니다. 특히 대규모 데이터와 복잡한 모델을 처리할 때 컴퓨팅 리소스에 대한 수요가 매우 높습니다. 한정된 기계 자원을 보다 효율적으로 활용하기 위해 프로젝트팀의 알고리즘팀은 많은 최적화 작업을 진행했습니다.

이러한 최적화에는 모델 병렬성 및 파이프라인 병렬성과 같은 고급 최적화 전략은 물론 개별 모델에 대한 비디오 메모리 최적화도 포함됩니다.

또한 팀은 비디오 분야도 최적화하여 프로젝트가 프로젝트의 실제 적용 요구 사항을 더 잘 충족할 수 있는 명확한 적용 시나리오와 대상 영역을 가질 수 있도록 했습니다.

TMTpost Media AGI: Shanghai Jiao Tong University의 충칭 인공 지능 연구소와 농촌 활성화 (충칭) 연구소는 이전에 "Zhaoyan·Zhaofeng"이라는 농촌 활성화 농업의 대규모 모델을 출시했습니다.

Qi Peng: 충칭은 농촌 풍경이 있는 유일한 자치체로서 대규모 농업 모델을 적용할 수 있는 풍부한 풍경과 넓은 공간을 제공합니다. 대규모 농촌 활성화 모델은 농업과학원의 대규모 온라인 데이터와 농업 데이터를 활용하며, 이러한 데이터는 모델 구축 및 훈련의 기초를 제공하며 농업 생산의 실제 상황을 보다 정확하게 반영할 수 있습니다. 현재 이 프로젝트는 정부 기관, 농촌 활성화(충칭) 연구소 및 기타 당사자와 공동으로 개발되고 있습니다. 이 협력 모델은 자원, 기술 및 자금을 통합하여 대규모 농업 모델의 연구 개발 및 적용을 공동으로 촉진하는 데 도움이 됩니다.

농촌활성화 대형모델은 14개 모델을 만들 예정이며, 현재 3~4개 관련 제품이 있다. 대형모델은 전문지식을 대중적이고 이해하기 쉬운 정보로 전환해 농업 생산·경영·민생 문제를 해결하는데 도움을 준다. 근로자는 도시 거주자처럼 쉽게 농업 지식에 접근하고 사용할 수 있으며, 이는 도시와 농촌 간의 정보 격차를 줄이고 농업 생산의 효율성과 효과를 향상시키는 데 도움이 될 것입니다.

TMTpost AGI: 현 단계에서 대형 모델 기술 개발의 병목 현상은 무엇입니까?

치 펭: 우선 팀이 대규모 언어 모델, 즉 대규모 모델로 정의하는 것이 무엇인지 명확합니다. 대규모 언어 모델이 주류이며 그 핵심은 지식과 논리에 있습니다. 대규모 언어 모델이 계속 발전함에 따라 지능 수준은 5세 어린이의 IQ에서 10세, 18세 또는 심지어 슈퍼맨 수준으로 점차 높아질 수 있습니다. 이 프로세스는 주로 모델의 지식과 논리의 숙달과 적용에 의존합니다.

Vincent 비디오 모델은 대형 언어 모델과 달리 복잡한 지식과 논리를 포함하지 않고 물리적 세계의 법칙에 대한 이해와 시뮬레이션에 더 중점을 둔 대형 모델의 또 다른 라인입니다. Vincent Video Modeling과 같은 모델은 인식과 경험을 바탕으로 물리적 세계의 변화를 예측하고 대응할 수 있지만 높은 수준의 논리적 이해와 지식 요약 기능이 부족합니다.

또한 텍스트, 이미지, 사운드 등 다양한 정보 형식을 통일된 방식으로 인코딩하고 처리할 수 있는 다중 모드 모델이 있습니다. 멀티모달 모델은 현실 세계의 복잡한 정보를 보다 포괄적으로 이해하고 처리할 수 있는 미래 개발 방향 중 하나입니다.

현재 대형 모델은 정체기에 접어들고 있어 지능적인 면에서도 질적인 도약은 어려워 보인다. 우리는 여전히 더 큰 모델이 더 복잡한 문제를 처리할 수 있고 더 강력한 학습 및 일반화 기능을 가질 수 있다고 믿습니다. 모델이 99.9%의 정확도를 달성하면 이 대형 모델은 다양한 작업을 수행할 수 있는 새로운 생산성 도구가 될 것입니다.

대형 모델 개발에는 컴퓨팅 성능 부족, 텍스트 데이터 부족, 정확성 및 신뢰성 편차, 모델 규모 부족 등의 문제가 있습니다. 이런 방식으로 대형 모델의 "IQ"는 5~6세 어린이의 IQ 수준만큼 높지 않습니다. 대형 모델의 복잡한 작업 처리 능력은 제한되어 있으며 사람이 도달할 수 없는 수준입니다. 예상하다.

둘째, 대형 언어 모델 아키텍처의 한계로 인해 대형 모델은 언어를 매우 잘 처리하지만 수학과 공학에는 능숙하지 않은 "교양 학생"과 비슷합니다. 대형 모델은 기업의 "CEO 또는 COO"에 비유될 수 있습니다. 이 "CEO 또는 COO"는 기술에 대해 잘 알지 못하더라도 다양한 첨단 구성 요소를 동원할 수 있습니다.

동시에 국내 대형 제조업체와 스타트업은 대형 모델 개발에 어려움을 겪고 있는데, 그 이유는 주로 투자 비용이 크고, 컴퓨팅 성능과 데이터에 대한 지속적인 투자를 지원하기에는 상용화가 충분하지 않기 때문입니다.

단기간에 대형 모델의 지능 수준을 크게 향상할 수 없는 경우 애플리케이션 개발이 실현 가능한 옵션이 됩니다. 현재 대규모 모델 개발 단계에서 고객은 다양한 애플리케이션 시나리오를 실제로 탐색하고 개선해야 합니다. 애플리케이션 상용화를 통해 수익을 창출하여 대형 모델의 지속적인 개발 및 최적화를 지원할 수 있습니다. 이는 프로젝트의 경제적 지속가능성을 보장할 뿐만 아니라 미래 기술 혁신의 가능성도 제공합니다.

또한, 대형 모델회사도 자금조달을 통해 프로젝트 개발을 지원할 수 있습니다. 그러나 자금 조달은 시장이 프로젝트의 잠재력과 가치를 인식하는지 여부에 달려 있습니다.

TMTpost AGI: 시장은 대형 모델에 열광적인데, 대형 모델 적용이 더디게 진행되어 시장 기대에 뒤처지는 이유는 무엇일까요?

Qi Peng: 두 가지 이유가 있습니다.

첫째, 현재의 기술 역량 부족으로 인해 개선이 제한되어 사전 예방적인 업그레이드에 대한 열정이 감소합니다.

둘째, 신기술을 적용하려면 새로운 하드웨어와 컴퓨팅 성능 지원이 필요하지만 다양한 기업이 준비가 부족하고 대형 모델을 배포하고 실행할 컴퓨터실과 지능형 컴퓨팅 리소스가 부족하여 수직 산업에서 대형 모델을 구현하기가 어렵습니다. 두 번째 문제는 실제로 해당 정책을 통해 해결될 수 있습니다. 기업이 정부 투자 연구 기관이나 컴퓨팅 파워 센터의 데이터 보안 보장을 신뢰할 수 있다면 자체 스마트 컴퓨팅 컴퓨터실을 구축하기 전에 대규모 모델 솔루션 개발을 시작할 수 있습니다.

대규모 모델, 특히 고품질 텍스트, 이미지 등을 생성할 수 있는 모델은 실행하는 데 상당한 컴퓨팅 리소스가 필요한 경우가 많습니다. 예를 들어 100만명의 사용자가 대형 모델을 동시에 사용하게 되면 연간 컴퓨팅 파워 비용이 수억 달러를 넘어 상용화가 어려울 수 있다. 일반 사용자의 경우 이러한 고가의 대형 모델 응용 프로그램 제품을 구입할 수 없으며 이는 C-end 응용 프로그램의 홍보에도 제한이 됩니다.

이 단계의 솔루션에는 보다 효율적인 알고리즘 채택, 모델 구조 최적화를 통한 계산량 감소, 비용 분산을 위한 클라우드 컴퓨팅과 같은 분산 컴퓨팅 리소스 활용 등이 포함될 수 있습니다.

어떤 측면에서 보면 현재의 대형 모델 지능형 에이전트는 여전히 '5세 아이'와 같습니다. 부족한 'IQ', 불안정한 성능, 환각 현상 등의 문제가 있어 사용자 경험과 신뢰에 심각한 영향을 미칩니다. 이러한 문제는 정부 또는 금융 고객 서비스 시나리오와 같이 높은 정확도가 필요한 애플리케이션 시나리오에서는 허용되지 않습니다. 정확도 요구사항이 그다지 높지 않은 일부 컨설팅이나 운영 및 유지보수 분야에서도 현재의 정확도 80% 또는 60%는 아직 널리 적용할 수 있는 임계점에 도달하지 못했습니다.

에이전트의 성능과 안정성을 개선하려면 지속적인 알고리즘 최적화, 교육 데이터의 다양성과 양 증가, 더욱 복잡한 모델 아키텍처 도입이 필요합니다. 동시에 복잡한 환경에서 대형 모델의 안정성을 보장하려면 실시간 모니터링 및 오류 처리 메커니즘도 강화해야 합니다.

이미지 인식은 다중 모드 대형 모델 적용에서 매우 중요한 분야입니다. 사전 훈련된 모델을 기반으로 새로운 이미지 인식 모델은 매우 저렴한 비용으로 개발될 수 있으며 많은 롱테일 시나리오를 포괄하며 큰 시장 잠재력을 가지고 있습니다. 이미지 인식에는 많은 응용 시나리오가 있지만 현재의 대형 이미지 인식 모델은 여전히 정확도가 낮고 컴퓨팅 성능 요구 사항이 상대적으로 높은 문제가 있습니다.

또한, 이전 세대의 인공지능은 이미지 이해가 상대적으로 성숙했기 때문에 대형 모델이 생산할 수 있는 부가가치를 사람들이 완전히 받아들이지 못했으며, 이는 홍보 속도에도 영향을 미칩니다.

TMTpost AGI: 현재 대규모 수직 산업 모델의 산업 혁신을 어떻게 보십니까? 왜 구현된 수직 산업 사례가 그렇게 적습니까?

Qi Peng: 수직 산업 구현 측면에서 제조업의 휴머노이드 로봇을 예로 들면, 휴머노이드 로봇이 가족 단위로 사용되기까지는 5~10년이 걸릴 수 있습니다. 이는 소프트웨어에서의 일반화 능력이 여전히 제한되어 있기 때문입니다. 이것만으로는 충분하지 않으며 하드웨어에도 추가 연구 개발과 개선이 필요합니다.

보다 실용적인 연구 방향은 제조 시나리오에서 로봇 팔의 일반화 문제에 초점을 맞추는 것입니다. 로봇팔 자체는 매우 성숙하고 국내외 주요 제조업체가 시장을 점유하고 있지만 기존 로봇팔은 일반화 능력이 부족하고 다양한 작업에 유연하게 적응할 수 없습니다. 이로 인해 로봇 팔이 실제 응용 프로그램에서 새로운 작업을 수행해야 할 때마다 다시 프로그래밍해야 하는데, 작업이 자주 변경되는 경우 이는 비현실적입니다.

로봇 팔 일반화 문제를 해결하는 열쇠는 특히 로봇 팔이 더 넓은 범위의 시나리오를 처리할 수 있도록 하는 소프트웨어 개발에 있습니다. 1~2년 안에 소프트웨어 최적화와 개발을 통해 로봇팔의 일반화 능력이 크게 향상될 것으로 예상된다.

물론 로봇팔의 일반화 능력이라는 목표를 달성하기 위해서는 데이터 부족이라는 과제가 있다. 다양한 시나리오를 처리할 수 있는 로봇 팔을 훈련하려면 알고리즘 학습 및 최적화를 지원하는 대량의 고품질 데이터가 필요합니다.

실제로 대형 모델은 제조 산업에서 지능형 에이전트로 사용될 수 있으며 전체적으로 다양한 소프트웨어를 호출할 수 있습니다. 이는 제조업의 복잡한 시스템에서 원래 수동 조작이나 프로그래밍 연결이 필요했던 다양한 소프트웨어를 이제 이론적으로는 자동화하고 대형 모델을 통해 통합할 수 있음을 의미합니다.

사용자는 언어나 아이디어를 통해 대형 모델과 상호 작용하기만 하면 대형 모델이 자동으로 해당 프로그램을 실행하고 다양한 작업을 완료할 수 있습니다. 그러나 제조 회사마다 생산 환경, 시스템, API가 다르기 때문에 다양한 시나리오에서 대형 모델을 적용하는 것이 주요 과제가 되었습니다. 한 장면에서 잘 조정된 대형 모델이라도 다른 환경에서는 제대로 작동하지 않을 수 있습니다. 따라서 기업 개발자는 대규모 모델의 성능과 정확성을 향상시키기 위해 특정 시나리오를 미세 조정해야 합니다.

이러한 제한은 제조 시 대형 모델의 광범위한 적용과 심층적인 개발에 직접적인 영향을 미칩니다. 제조에는 매우 복잡하고 정교한 작업이 포함되는 경우가 많아 고정밀 계산과 제어가 필요하기 때문입니다. 대형 모델이 이러한 작업을 수행하지 못하면 제조 시 잠재력을 발휘할 수 없습니다.

대형 모델 자체의 용량 제한 외에도 시스템 간의 호환성 문제도 대형 모델의 제조 적용을 제한하는 중요한 요소입니다. 다양한 회사나 생산 단위에서는 다양한 소프트웨어, 하드웨어, API를 포함하여 완전히 다른 시스템을 사용할 수 있습니다. 이로 인해 두 시나리오의 시스템 환경이 완전히 다를 수 있기 때문에 한 시나리오에서 튜닝된 대규모 모델을 다른 시나리오에 직접 적용하기가 어렵습니다. 시스템 간의 이러한 가변성은 제조 시 대형 모델을 적용하는 데 따른 복잡성과 비용을 증가시킵니다.

실제로 해결책이 있습니다. 제조, 금융, 소매 등 수직 산업의 경우 표준화된 대형 모델에 대한 인터페이스를 정의할 수 있습니다. 이러한 인터페이스는 대형 모델이 제공할 수 있는 특정 기능을 명확하게 하여 모든 시스템이 이러한 인터페이스를 통해 대형 모델의 기능을 호출할 수 있도록 합니다. 시스템 환경이 어떻게 변하더라도 이러한 표준화된 인터페이스 사양만 따르면 대형 모델과도 원활하게 연결될 수 있다는 장점이 있다.

따라서 표준화된 인터페이스를 정의함으로써 기업 개발자는 대형 모델을 다양한 시스템과 일치시키는 어려움을 크게 줄여 대형 모델이 다양한 생산 환경에 더 빠르게 적응할 수 있습니다. 표준화된 인터페이스는 대규모 모델이 다양한 시스템에서 안정적으로 실행될 수 있도록 보장하고 시스템 차이로 인해 발생하는 호환성 문제를 줄이는 데 도움이 됩니다.

일반적으로 대형 모델은 여러 수직 산업에서 널리 사용되지만 실제 구현 사례는 상대적으로 적습니다. 두 가지 주된 이유가 있습니다. 첫째, 수학적 및 엔지니어링 능력이 부족하여 대형 모델이 실제 응용 분야에서 충분한 정확성과 안정성을 달성하기 어렵습니다. 둘째, 대형 모델 자체는 머신러닝 범주에 속하며, 통계적 방법을 기반으로 하는 특성상 100% 정확할 수는 없다고 판단됩니다.

실제로 인간 두뇌의 구조는 100% 정확하지는 않지만 인간의 판단은 대부분의 실제 시나리오의 요구 사항을 충족할 만큼 정확할 때가 많습니다. 대조적으로, 훈련 후에도 대규모 모델의 정확도는 여전히 약 95%일 수 있으며, 이는 극도로 높은 정확도가 필요한 일부 시나리오에서는 충분하지 않을 수 있습니다. 또한, 대형 모델의 수학적 능력은 상대적으로 열악하여 특정 분야에서의 적용이 제한됩니다.

이러한 한계를 극복하려면 대형 모델을 위한 지원 시설의 중요성을 깨달아야 합니다. 대형 모델에 필요한 지원 시설과 도구를 제공함으로써 부족한 수학적 및 엔지니어링 기능을 보완할 수 있으므로 실제 적용 시나리오의 요구 사항에 더 잘 적응할 수 있습니다. 이러한 지원 시설에는 보다 정확한 데이터 세트, 보다 효율적인 알고리즘, 보다 안정적인 하드웨어 플랫폼 등이 포함될 수 있습니다.

TMTpost AGI: 대형 모델이 환각을 일으키는 이유는 무엇입니까?

Qi Peng: 때로는 원본 데이터 자체가 누락되었거나 문제가 있기 때문에 대규모 언어 모델이 훈련 과정에서 올바른 지식을 학습할 수 없어 올바른 추론을 할 수 없는 경우가 있습니다. 이 오류는 대규모 언어 모델 자체의 결함으로 인해 발생하는 것이 아니라 입력 데이터의 부정확성으로 인해 발생합니다.

모든 정보가 잘못된 결론을 가리키는 가상 환경에서 대형 모델을 훈련하면 대형 모델도 이 잘못된 정보를 바탕으로 잘못된 판단을 내리게 됩니다. 이는 에이전트와 대규모 모델의 성능에 대한 데이터와 환경의 중요한 영향을 강조합니다.

때로는 대규모 모델이 논리적이고 사려 깊은 것처럼 보이지만 실제로는 사실이거나 정확하지 않은 응답을 생성할 수 있습니다. 이는 5세 어린이가 종종 자신있게 거짓 기억을 묘사하는 방식과 유사합니다.

성인도 정보와 기억을 처리할 때 환각이나 기억 오류를 경험하는 경우가 많습니다. 예를 들어, 법원 심리 녹음 및 사건 분석 과정에서 매우 심각하고 중요한 상황에 연루된 당사자들은 다양한 압력, 오해의 소지가 있는 정보 등으로 인해 잘못된 기억이나 환각을 가질 수도 있습니다.

TMTpost AGI: 국내외 대형모델 시장 환경의 차이는 어떻게 반영되나요?

치 펭: 현재 외국은 여전히 기술 개선에 대한 강한 자신감을 유지하고 있으며 완전히 응용 프로그램 개발로 전환하지 않았습니다. 이는 해외 시장이 상대적으로 성숙하고 안정적이기 때문에 기업이 기술 연구, 개발 및 혁신에 집중할 수 있는 더 많은 자원과 공간을 가질 수 있다는 사실과 관련이 있을 수 있습니다. 이에 비해 국내 시장은 더욱 치열한 경쟁 환경에 직면해 있으며, 대부분의 대형 모델 기반 R&D 기업은 대규모 애플리케이션으로 전환하고 있습니다.

국내 시장에서의 경쟁은 기업 수뿐만 아니라 가격 전쟁에도 반영됩니다. 여러 업체가 비슷한 서비스를 동시에 제공하다 보니 대형 모델의 가격이 급격하게 떨어지면서 기업이 서비스 제공으로 비용을 회수하기 어렵다. 외국에서 ChatGPT로 대표되는 기업은 기술 및 시장 인지도의 선두 위치를 통해 계속해서 수입을 얻고 이를 추가 연구 개발 및 혁신에 사용할 수 있습니다.

국내 시장에서는 치열한 가격 전쟁과 상대적으로 약한 지불 의지로 인해 기업은 상업적 돌파구를 찾기 위해 새로운 애플리케이션 개발에 더 집중해야 할 수도 있습니다. 이 전략은 기업의 경제적 압박을 어느 정도 완화할 수 있지만 기술 연구 개발에 대한 투자가 부족하여 장기적인 경쟁력에 영향을 미칠 수도 있습니다.

TMTpost AGI: AGI의 향후 발전 방향은 무엇인가요?

치 펭: 나는 인류사회가 AGI로 이어지는 중요한 시기에 있다고 믿는다. 업계에서는 현재 특정 기술이나 모델이 AGI로 향하는 올바른 경로에 있지 않다고 믿고 있지만 이러한 기술이나 모델은 AGI에 속하지 않는다고 믿습니다.그러나 훗날 우리가 이 역사의 시기를 되돌아볼 때, 우리는 중요한 역사적 전환점에 서 있다는 것을 깨닫게 될 것입니다.

Tesla의 자율주행 기술을 예로 들어보겠습니다. 5년 전만 해도 사람들은 L4 수준의 자율주행 기술을 달성하려면 10~20년이 걸릴 것이라고 생각했지만 지금은 이 기술이 상당한 발전을 이루었습니다. 이러한 우연한 진전을 통해 업계에서는 실제 AGI가 의도치 않게 실현될 수도 있다고 믿게 되었습니다.

장샤오빈: AGI의 이상적인 상태는 무엇입니까? AGI는 고차원적인 사고 능력을 보유해야 할 뿐만 아니라, 더 중요하게는 실제 생활, 특히 산업 분야에 적용할 수 있어야 합니다.

현재 사람들은 물리적 장치에 로봇 공학과 AI 기술이 많이 적용되는 것을 보아 왔으며, 이는 사람들이 AI 기술을 컴퓨터에서 해방시키고 이를 유형적이고 활동적인 개체로 전환하기 위해 열심히 노력하고 있음을 보여줍니다. 이러한 도약은 AI 기술에 있어 매우 중요합니다. AI는 실제 적용에서만 더 큰 가치를 창출할 수 있습니다.

TMTpost AGI: DiT 경로 외에 AGI 개발을 위한 다른 가능한 경로나 전략이 있습니까? AGI의 구현 경로는 무엇입니까?

Qi Peng: AGI 개발 과정에서 인간은 다양하고 포용적인 태도를 가져야 합니다. AGI를 같은 반에서 학년이 다른 학생들의 숙제에 비유한다면, 학생들의 능력은 서로 다르지만 모두 기본적인 일을 완수할 수 있습니다. 마찬가지로 아키텍처 간에 성능 차이가 있더라도 일부 기본 작업을 모두 완료할 수 있지만 더 어려운 작업에서는 능력이 다릅니다.

특히, 많은 양의 데이터와 컴퓨팅 능력을 지원함으로써 다양한 아키텍처는 매개변수 수를 늘려 기본 기능을 향상시켜 모두 특정 수준에서 수행할 수 있습니다.동시에 선형 주의 메커니즘 및 기타 최적화 방법과 같은 대형 모델 분야에는 몇 가지 새로운 추세도 있습니다. 이러한 방법은 기존 Transformer 모델의 계산 양을 줄이고 효율성을 향상시키기 위해 설계되었습니다.

AGI의 최종 구현 경로는 실제로 고정된 경로가 없습니다. 현재의 다양한 모델과 기술에는 장점과 한계가 있습니다. AGI 개발 과정에서는 다양한 아키텍처와 기술에 대한 지속적인 탐색과 통합이 필요합니다. 다양한 아키텍처와 기술은 이 프로세스에서 AGI에 대한 중요한 참조 및 참조를 제공하여 지속적인 개발을 촉진합니다. 동시에 모델의 실용성과 자체 수정 기능에도 주의를 기울여야 합니다.

TMTpost AGI: 국내 대형 모델 분야에서 연구 혁신과 상용화 사이의 균형을 어떻게 맞출 것인가?

Qi Peng: 혁신적인 연구 측면에서는 제한된 자금으로 인해 수행할 수 있는 대규모 언어 모델과 같이 많은 자원이 필요한 프로젝트를 맹목적으로 추진하기보다는 연구소가 달성하기 위해 노력할 수 있는 목표를 명확히 해야 합니다. 바이두 등 대기업.

둘째, 연구소 팀은 일정한 노력을 통해 실현할 수 있고 실용적인 가치가 있는 연구 프로젝트를 선택해야 합니다. 예를 들어, 팀이 개발한 Latte 시공간 결합 주의 아키텍처를 기반으로 하는 Sora 유사 모델은 16초 고화질 비디오 생성을 예로 들 수 있습니다. 이는 연구소가 기존 리소스를 사용하여 달성하기 위해 노력할 수 있는 목표입니다. 동시에 연구소는 모델 최적화나 지원 적용 등 자원이 덜 필요할 수 있는 일부 연구 방향을 선택해야 합니다.

상용화 측면에서는 AIGC 구현, 특히 '라스트 마일' 문제에 중점을 두어야 한다. 이는 연구 기관이 시장 수요를 충족하고 상용화를 달성하기 위해 연구 결과를 실제 제품이나 서비스로 변환하는 방법에 집중해야 함을 의미합니다.

대형 모델의 IQ는 5세에서 10세, 18세까지 계속 증가할 수 있고 심지어 최고 전문가 수준에 도달할 수도 있지만, 이러한 시스템에는 작동 및 적용을 지원하기 위한 지원 시설이나 도구가 항상 필요합니다. 이러한 지원 시설의 R&D 비용은 상대적으로 낮을 수 있지만 대형 모델의 실제 적용과 사회적 가치를 촉진하는 데 중요한 역할을 합니다.

따라서 AI 분야 국내 연구기관팀은 대형 모델의 운영과 구현을 지원하기 위한 이러한 지원시설의 연구개발에 중점을 두어야 할 것이다.

(이 기사는 Titanium Media App에 처음 게재되었습니다. 저자 | Dou Yueyi, Lin Zhijia, 편집자 | Lin Zhijia)

소식

상하이 교통대학교 충칭 AI 연구소의 Qi Peng 팀과의 대화: 현재 대형 모델의 수준은 5세 어린이 수준에 불과합니다 |

소개

내 연락처 정보