DeepSeek 공개: 중국의 기술적 이상주의에 대한 더욱 극단적인 이야기

DeepSeek 공개: 중국의 기술적 이상주의에 대한 더욱 극단적인 이야기 36Kr 독점 |

2024-07-22

텍스트 | 유 릴리
편집자 | 류징

중국의 7개 대형 모델 스타트업 중 DeepSeek은 가장 덜 유명하지만 항상 예상치 못한 방식으로 기억될 수 있습니다.

1년 전, 이 놀라운 사실은 그 뒤에 있는 양적 사모펀드 Huan Fang이 주요 제조업체 외에 A100 칩 10,000개를 예약한 유일한 회사라는 사실에서 나왔습니다. 중국 대형모델 가격전쟁.

AI의 지속적인 포격을 받은 5월, 딥식(DeepSeek)이 유명해졌습니다. 그 이유는 전례 없는 비용 효율성을 제공하는 DeepSeek V2라는 오픈 소스 모델을 출시했기 때문입니다. 추론 비용은 Llama3 70B, GPT-4 One-의 약 7분의 1 수준인 토큰 백만 개당 1위안으로 절감됩니다. 터보의 70번째.

딥식(DeepSeek)은 단숨에 'AI 업계의 핀둬둬'로 불렸지만, 바이트댄스(ByteDance), 텐센트(Tencent), 바이두(Baidu), 알리바바(Alibaba) 등 주요 제조사들도 이를 견디지 못하고 가격을 잇달아 인하했다. 중국 대형모델 가격 전쟁이 곧 발발할 전망이다.

실제로 총격 연기는 보조금을 위해 돈을 태우는 많은 대기업과 달리 DeepSeek이 수익성이 있다는 사실을 숨기고 있습니다.

그 뒤에는 DeepSeek의 모델 아키텍처 전반에 걸친 혁신이 있습니다. 새로운 MLA를 제안합니다(황소를 위한 새로운 잠재적 주의 메커니즘) 아키텍처를 사용하여 과거에 가장 일반적으로 사용되는 MHA 아키텍처의 5%-13%로 메모리 사용량을 줄이는 동시에 원래 DeepSeekMoESparse 구조도 계산량을 극도로 줄여 궁극적으로 비용 절감.

실리콘밸리에서는 딥식(DeepSeek)을 '동쪽에서 온 신비한 힘'이라 부른다. SemiAnalytic의 수석 분석가는 DeepSeek V2 논문이 "올해 최고의 논문이 될 수 있다"고 믿습니다. 전 OpenAI 직원인 Andrew Carr는 이 논문을 "놀라운 지혜로 가득 차 있다"고 말하며 훈련 설정을 자신의 모델에 적용했습니다. OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 Jack Clark은 DeepSeek이 "예측할 수 없는 마법사 그룹을 고용"하고 중국에서 만든 대형 모델이 "무시할 수 없는 드론 및 전기 자동차만큼 중요해질 것"이라고 믿습니다. 힘."

실리콘 밸리가 기본적으로 이야기를 주도하는 AI 물결에서는 드문 상황입니다.많은 업계 관계자들이 우리에게 말했습니다.이러한 뜨거운 반응은 국내 대형 모델업체는 물론 글로벌 오픈소스 기반의 대형 모델에서도 보기 드문 시도인 건축적 차원의 혁신에서 비롯됐다. 한 AI 연구자는 Attention 아키텍처가 수년 동안 제안되었지만 대규모 검증은커녕 성공적으로 수정된 적이 거의 없다고 말했습니다. "대부분의 사람들이 자신감이 부족해서 의사결정에서 단절되는 아이디어이기도 합니다."

반면, 국내 대형 모델은 이전에는 건축 수준의 혁신에 거의 참여하지 않았으며, 이러한 고정관념을 깨기 위해 주도적으로 나서는 사람도 거의 없었습니다.미국은 0-1의 기술 혁신에서 더 나은 반면, 중국은 1-10의 응용 혁신에서 더 뛰어납니다. 게다가 이런 행동은 매우 비경제적이다. 새로운 세대의 모델은 몇 달 안에 누군가가 자연스럽게 생산할 것이고, 중국 기업들은 이를 잘 따르고 적용하기만 하면 된다. 모델 구조를 혁신한다는 것은 따라갈 길이 없고, 많은 실패를 경험해야 하며, 시간과 경제적 비용이 크다는 것을 의미한다.

DeepSeek은 분명히 반역자입니다. 대형 모델 기술이 필연적으로 수렴하고 따라갈 것이 더 현명한 지름길이라는 떠들썩한 가운데 DeepSeek은 "우회"에서 축적된 가치를 소중히 여기며 응용 혁신 외에도 중국의 대형 모델 기업가도 글로벌 기술 혁신에 동참할 수 있다고 믿습니다. 급류.

DeepSeek의 선택 중 다수는 독특합니다. 현재 중국의 7개 대형 모델 스타트업 중 '필요'와 '원함' 경로를 포기하고 TOC 적용을 하지 않고 연구와 기술에만 집중한 유일한 기업이기도 하다. 아직 상용화를 충분히 고려하지 않고 확고하게 선택한 오픈소스 루트에 자본 조달조차 하지 않은 기업이 있습니다. 이것들은 종종 포커 테이블 밖에서는 잊혀지게 만들지만, 다른 한편으로는 "수돗물"처럼 커뮤니티의 사용자에 의해 퍼지는 경우가 많습니다.

DeepSeek은 어떻게 만들어지나요? 이를 위해 좀처럼 등장하지 않는 DeepSeek의 창업자 Liang Wenfeng을 인터뷰했습니다.

매직스퀘어 시대부터 막후에서 기술을 연구해 온 이 80년대 창업자는 DeepSeek 시대에도 여전히 절제된 스타일을 이어가고 있으며, 모든 연구원들처럼 “논문을 읽고, 코드를 작성하고, 그룹 토론에 참여”합니다. 매일.

해외 헤지펀드 경험이 있고 주로 물리학, 수학 등을 전공한 많은 퀀트 펀드 창업자들과 달리 Liang Wenfeng은 항상 현지 출신으로 초창기 절강대학교 전자공학과에서 인공지능을 공부했다. .

많은 업계 관계자와 DeepSeek 연구원들은 Liang Wenfeng이 현재 중국 AI 업계에서 "강력한 인프라 엔지니어링 역량과 모델 연구 역량을 모두 갖추고 자원을 동원할 수 있는", "높은 곳에서 정확한 판단을 내릴 수 있는" 매우 드문 인물이라고 말했습니다. , 그리고 "세부적으로 일선 연구원보다 낫다"는 사람은 "무서운 학습 능력"을 가지고 있으며 동시에 "전혀 상사 같지 않고 괴짜에 가깝습니다".

특히 드문 인터뷰입니다. 인터뷰에서 이 기술적 이상주의자는 특히 중국 과학기술계에서 보기 드문 목소리를 냈습니다.그는 '리익관'보다 '옳고 그름관'을 앞세워 시대의 관성을 일깨우고 '창의적 혁신'을 의제로 삼는 몇 안 되는 인물 중 한 명이다.

1년 전 DeepSeek가 막 끝났을 때 우리는 "Crazy Magic Square: 보이지 않는 AI 거인의 대형 모델로 가는 길"이라는 제목으로 Liang Wenfeng을 처음으로 인터뷰했습니다.그 때 그 문장을 말하면"당신은 야망이 있어야 하지만 동시에 성실해야 합니다."여전히 아름다운 슬로건이지만, 1년이 지나서 그것은 행동이 되었습니다.

다음은 대화의 일부입니다.

가격 전쟁의 첫 번째 샷은 어떻게 시작됐나요?

"저류": DeepSeek V2 모델이 출시된 후 곧바로 피비린내 나는 대규모 모델 가격 전쟁이 촉발되었습니다. 어떤 사람들은 당신이 업계의 메기라고 말했습니다.

리앙 웬펑: 우리는 메기가 되려고 한 것이 아니라 우연히 메기가 되었습니다.

"저류": 이 결과가 당신을 놀라게 합니까?

리앙 웬펑 : 정말 예상치 못한 일이었습니다. 가격이 모두를 그렇게 민감하게 만들 것이라고는 예상하지 못했습니다. 우리는 우리 자신의 속도에 맞춰 일을 하고 비용 가격을 계산합니다. 우리의 원칙은 돈을 주거나 큰 이익을 얻는 것이 아닙니다. 이 가격도 원가보다 약간 이익이 나네요.

'저류': Zhipu AI가 5일 후에 뒤를 이었고 Byte, Alibaba, Baidu, Tencent 및 기타 주요 기업이 그 뒤를 이었습니다.

리앙 웬펑 : Zhipu AI는 보급형 제품으로, 우리와 같은 수준의 모델은 여전히 매우 비쌉니다. Byte가 실제로 가장 먼저 뒤를 따랐습니다. 플래그십 모델이 당사와 동일한 가격으로 떨어지자 다른 주요 제조사들도 가격을 인하했습니다. 대형 제조사의 모델 가격이 우리보다 훨씬 높기 때문에 누군가가 이렇게 해서 돈을 잃을 것이라고는 예상하지 못했고 결국 인터넷 시대에 보조금을 낭비하는 논리가 되었습니다.

"저류": 외부에서 볼 때 가격 인하는 사용자를 확보하려는 것처럼 보입니다. 이는 일반적으로 인터넷 시대의 가격 전쟁의 경우입니다.

리앙 웬펑 : 사용자 확보가 주된 목적은 아닙니다. 한편으로는 차세대 모델의 구조를 탐구하고 있기 때문에 가격을 낮추었고, 다른 한편으로는 API와 AI 모두 모두에게 보편적이고 저렴해야 한다고 생각합니다.

"Undercurrent": 이전에는 대부분의 중국 회사가 이 세대의 Llama 구조를 직접 복사하여 적용했습니다. 왜 모델 구조에서 시작했습니까?

리앙 웬펑 : 애플리케이션을 만드는 것이 목적이라면 Llama 구조와 짧고 플랫하며 빠른 제품을 사용하는 것도 합리적인 선택입니다. 하지만 우리의 목적지는 AGI입니다. 즉, 제한된 리소스 하에서 더 강력한 모델 기능을 달성하려면 새로운 모델 구조를 연구해야 합니다. 이는 더 큰 모델로 확장하는 데 필요한 기본 연구 중 하나입니다. 모델 구조 외에도 데이터를 구조화하는 방법, 모델을 인간과 비슷하게 만드는 방법 등 많은 연구를 수행했으며 이는 모두 우리가 출시한 모델에 반영되었습니다. 또한 라마의 구조는 훈련 효율성과 추론 비용 측면에서 외국 고급 수준보다 2세대 뒤처진 것으로 추정된다.

"저류": 이러한 세대 격차는 주로 어디에서 발생합니까?

리앙 웬펑 : 첫째, 훈련 효율성에 차이가 있습니다. 우리는 최고의 국내 모델과 최고의 외국 모델 사이에서 모델 구조와 훈련 역학이 두 배 더 다를 수 있다고 추정합니다. 이것만으로도 동일한 효과를 얻으려면 두 배의 컴퓨팅 성능을 소비해야 합니다. 또한 데이터 효율성에 두 배의 격차가 있을 수 있습니다. 이는 동일한 효과를 달성하려면 두 배의 훈련 데이터와 컴퓨팅 성능을 소비해야 함을 의미합니다. 전체적으로 4배 더 많은 컴퓨팅 성능을 소비합니다. 우리가 해야 할 일은 이러한 격차를 계속해서 줄이는 것입니다.

"저류": 대부분의 중국 회사는 모델과 응용 프로그램을 모두 선택합니다. DeepSeek이 현재 연구와 탐색만 선택하는 이유는 무엇입니까?

리앙 웬펑 : 이제 가장 중요한 것은 글로벌 혁신의 물결에 참여하는 것이라고 느끼기 때문입니다. 지난 수년 동안 중국 기업은 다른 사람들이 기술 혁신을 이루고 우리가 이를 사용하여 애플리케이션으로 수익을 창출하는 데 익숙해졌지만 이는 당연한 문제가 아닙니다. 이 물결에서 우리의 출발점은 돈을 벌 수 있는 기회를 활용하는 것이 아니라 전체 생태계의 발전을 촉진하기 위해 기술의 최전선으로 나아가는 것입니다.

"저류": 인터넷 및 모바일 인터넷 시대에 대부분의 사람들에게 남겨진 관성적 인식은 미국이 기술 혁신에 능숙한 반면 중국은 응용 분야에 더 뛰어나다는 것입니다.

리앙 웬펑: 우리는 경제 발전과 함께중국도 항상 무임승차자가 아닌 점진적으로 기여자가 되어야 합니다.지난 30여 년간의 IT 물결 속에서 우리는 기본적으로 진정한 기술 혁신에 참여하지 못했습니다. 우리는 무어의 법칙이 하늘에서 떨어지는 것에 익숙해졌고, 집에서 단 18개월만 지나면 더 좋은 하드웨어와 소프트웨어가 나올 것입니다. 스케일링 법칙(Scaling Law)도 이와 같이 취급됩니다.

그러나 사실 이것은 서구가 지배하는 기술 커뮤니티가 여러 세대에 걸쳐 끊임없이 노력해 온 것입니다. 단지 우리가 이전에 이 과정에 참여하지 않았기 때문에 우리는 그 존재를 무시했습니다.

진짜 격차는 1~2년이 아니라 독창성과 모방의 차이

"저류": DeepSeek V2가 실리콘 밸리의 많은 사람들을 놀라게 하는 이유는 무엇입니까?

리앙 웬펑 : 미국에서 매일 일어나는 수많은 혁신 중에서 이것은 매우 흔한 혁신입니다.놀란 이유는 이 회사가 중국 회사라는 점이었습니다.혁신적인 기여자로 그들의 게임에 참여하세요.결국 대부분의 중국 기업은 혁신보다는 따라가는 데 익숙합니다.

"저류": 그러나 중국의 맥락에서 이 선택은 너무 지나친 것입니다. 빅 모델은 대규모 투자 게임으로 모든 기업이 상용화를 먼저 고려하지 않고 연구 혁신만 할 수 있는 자본을 갖고 있는 것은 아니다.

리앙 웬펑 : 혁신의 비용은 확실히 낮지 않으며, 과거 전유주의의 관성은 과거 국가 상황과도 관련이 있습니다. 하지만 지금은 중국의 경제 규모나 바이트, 텐센트 등 대기업의 이익을 보면 세계적으로 낮은 수준은 아니다. 혁신에 있어 우리에게 부족한 것은 분명 자본이 아니라 자신감 부족과 효과적인 혁신을 달성하기 위해 고밀도 인재를 조직하는 방법을 모르는 것입니다.

'저류': 자금이 부족하지 않은 대기업을 비롯한 중국 기업들은 왜 그렇게 쉽게 급속한 상업화를 최우선으로 여길까?

리앙 웬펑 : 지난 30년 동안 우리는 돈 버는 것만 강조하고 혁신을 무시해왔습니다. 혁신은 전적으로 비즈니스에 의해 주도되는 것이 아니라 호기심과 창의성도 필요합니다. 우리는 과거의 관성에 묶여 있을 뿐이지만 그것도 하나의 국면이다.

"Undercurrent": 하지만 결국 당신은 공공 복지 과학 연구 기관이 아닌 상업 조직입니다. 오픈 소스를 통해 혁신하고 공유하기로 결정했다면 어디에서 해자를 형성해야 할까요? 5월의 MLA 아키텍처와 같은 혁신은 곧 다른 회사에 의해 복사될 것입니다. 그렇죠?

리앙 웬펑:존재하다 파괴적인 기술 앞에서 폐쇄 소스로 형성된 해자는 수명이 짧습니다. OpenAI가 클로즈드 소스라 하더라도 다른 사람에게 추월당하는 것을 막을 수는 없습니다.그러므로 우리는 팀에 가치를 부여하고, 그 과정에서 동료들이 성장하고, 많은 노하우를 축적하며, 혁신할 수 있는 조직과 문화를 형성하는 것이 우리의 해자입니다.

실제로 오픈 소스와 출판 논문으로 인해 손실되는 것은 없습니다. 기술직 직원에게 있어서 따라오는 것은 큰 성취감입니다. 실제로 오픈소스는 상업적 행위라기보다는 문화적 행위에 가깝습니다. 기부는 실제로 추가적인 영광입니다. 이를 수행하는 회사는 문화적 매력도 갖게 됩니다.

"Undercurrent": Zhu Xiaohu와 같은 시장 신봉자들에 대해 어떻게 생각하시나요?

리앙 웬펑: Zhu Xiaohu는 일관성이 있지만 그의 플레이 스타일은 빠르게 돈을 버는 회사에 더 적합합니다. 그리고 미국에서 가장 수익성이 높은 회사를 보면 모두 축적이 풍부한 하이테크 회사입니다.

"저류": 하지만 대형 모델의 경우 단순히 기술을 선도하는 것만으로는 절대 우위를 형성하기 어렵습니다. 당신이 걸고 있는 더 큰 것은 무엇입니까?

리앙 웬펑：우리가 보는 것은 중국 AI가 항상 따라오는 위치에 있을 수는 없다는 것입니다. 우리는 흔히 중국의 AI와 미국 사이에 1~2년의 격차가 있다고 말하지만 실제 격차는 독창성과 모방의 차이이다. 이것이 변하지 않으면 중국은 항상 추종자가 될 것이기 때문에 일부 탐험은 불가피합니다.

NVIDIA의 리더십은 단지 한 회사의 노력이 아니라 전체 서구 기술 커뮤니티와 업계가 공동으로 노력한 결과입니다. 이들은 차세대 기술 동향을 확인하고 로드맵을 보유할 수 있습니다. 중국의 AI 발전에도 이러한 생태계가 필요하다. 많은 국내 칩은 지원 기술 커뮤니티가 부족하고 간접적인 정보만 있기 때문에 개발할 수 없습니다. 따라서 중국에는 기술의 최전선에 누군가가 있어야 합니다.

더 많은 투자가 반드시 더 많은 혁신으로 이어지는 것은 아닙니다.

"Undercurrent": 현재 DeepSeek은 OpenAI 초기부터 일종의 이상주의적인 기질을 가지고 있으며 오픈 소스이기도 합니다. 앞으로는 비공개 소스를 선택하시겠습니까? OpenAI와 Mistral은 모두 오픈 소스에서 폐쇄 소스로 전환하는 과정을 거쳤습니다.

리앙 웬펑 : 소스를 닫지 않겠습니다. 우리는 먼저 강력한 기술 생태계를 갖추는 것이 더 중요하다고 믿습니다.

"저류": 자금 조달 계획이 있습니까? 언론 보도에 따르면 Huanfang은 실리콘 밸리의 AI 스타트업을 분사하여 독립적으로 상장할 계획을 가지고 있으며 결국에는 주요 제조업체에 종속될 것입니다.

리앙 웬펑: 단기적으로 자금 조달 계획이 없습니다. 우리가 직면한 문제는 결코 돈이 아니라 고급 칩의 금수 조치입니다.

"저류": 많은 사람들은 AGI 수행과 정량화 수행이 완전히 다른 두 가지 작업이라고 생각합니다. 정량화는 조용히 수행할 수 있지만 AGI에는 더 높은 수준의 노력과 제휴가 필요할 수 있으며 이로 인해 투자가 늘어날 수 있습니다.

리앙 웬펑 : 더 많은 투자가 반드시 더 많은 혁신을 낳는 것은 아닙니다. 그렇지 않으면 대형 제조업체가 모든 혁신을 떠맡을 수 있습니다.

"저류": 지금 응용 프로그램을 만들지 않는 이유는 작동할 유전자가 없기 때문입니까?

리앙 웬펑 : 현 단계는 응용 폭발 시대가 아니라 기술 혁신 폭발 시대라고 생각합니다. 장기적으로는 업계가 우리의 기술과 결과물을 직접 활용하고, 기본 모델과 첨단 혁신만 담당하고, 다른 기업들은 DeepSeek을 기반으로 toB, toC 비즈니스를 구축하는 생태계를 형성하고자 합니다. 완전한 업스트림 및 다운스트림 산업을 형성할 수 있다면 직접 애플리케이션을 만들 필요가 없습니다. 물론 필요하다면 적용하는 데 장애가 없으나 연구와 기술 혁신이 항상 최우선 과제가 될 것입니다.

"저류": 하지만 API를 선택할 때 대형 제조업체 대신 DeepSeek를 선택하는 이유는 무엇입니까?

리앙 웬펑: 미래의 세계는 전문화된 분업이 될 가능성이 높습니다. 기본 대규모 모델에는 지속적인 혁신이 필요합니다.

"저류": 그런데 기술이 정말로 격차를 벌릴 수 있을까요? 또한 절대적인 기술 비밀은 없다고도 말씀하셨습니다.

리앙 웬펑 : 기술에는 비결이 없지만 재설정에는 시간과 비용이 소요됩니다. 이론적으로 엔비디아의 그래픽카드는 기술적인 비밀이 없고 복제도 쉽지만, 팀을 재편하고 차세대 기술을 따라잡는 데 시간이 걸리기 때문에 실제 해자는 아직 매우 넓다.

"저류": 가격을 낮춘 후 Byte가 먼저 후속 조치를 취했는데, 이는 그들이 여전히 일종의 위협을 느끼고 있음을 보여줍니다. 스타트업이 대기업과 경쟁할 수 있는 새로운 솔루션에 대해 어떻게 생각하시나요?

리앙 웬펑 : 솔직히 말해서 우리는 이 문제에 대해 별로 관심이 없고 그냥 그랬습니다. 클라우드 서비스 제공은 우리의 주요 목표가 아닙니다. 우리의 목표는 여전히 AGI를 달성하는 것입니다.

아직까지는 새로운 솔루션을 본 적이 없지만, 대형 제조사들도 뚜렷한 이점을 갖고 있지는 않습니다. 대형 제조업체에는 기성 사용자가 있지만 현금 흐름 비즈니스도 부담스러워 언제든지 전복에 취약합니다.

"Undercurrent": DeepSeek 외에 6개 대형 모델 스타트업의 결과에 대해 어떻게 생각하시나요?

리앙 웬펑 : 아마 2~3가족 정도는 살아남을 것 같아요. 아직은 돈을 버는 단계이기 때문에 확실한 자기 포지셔닝과 세련된 운영을 갖춘 기업이 생존 가능성이 더 높습니다. 다른 회사도 재창조될 수 있습니다. 가치 있는 것들은 사라지는 것이 아니라 변할 것입니다.

'저류' : 마방진 시대에는 경쟁에 임하는 태도를 '자기 길로 가는 것'으로 평가하고 수평적 비교에 거의 관심을 기울이지 않았다. 경쟁에 관해 당신이 생각하는 출발점은 어디인가?

리앙 웬펑 : 제가 자주 생각하는 것은 어떤 일이 사회를 더 효율적으로 만들 수 있는지, 산업 분업 사슬에서 자신이 잘할 수 있는 자리를 찾을 수 있는지입니다. 최종 결과가 사회를 더욱 효율적으로 만드는 것이라면 그것은 타당합니다. 그 사이에는 많은 단계가 있으며 과도한 관심은 필연적으로 현기증을 유발할 것입니다.

"알 수 없는" 일을 하는 젊은이들의 집단

"저류": OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 Jack Clark는 DeepSeek이 "예측할 수 없는 마법사 그룹"을 고용했다고 믿고 있습니다. DeepSeek v2를 만든 사람은 누구입니까?

리앙 웬펑: 신비한 천재는 없고, 모두 최근 명문대를 졸업한 졸업생, 아직 졸업하지 않은 박사 4, 5급 인턴, 졸업한 지 몇 년 되지 않은 청년들도 있습니다.

"저류": 많은 대형 모델 회사들이 끈질기게 해외 인력을 빼돌리고 있습니다. 많은 사람들은 이 분야의 상위 50대 인재가 중국 회사에 없을 수도 있다고 생각합니다.

리앙 웬펑 : V2 모델에는 해외에서 귀국한 사람은 없고, 모두 현지인입니다. 상위 50명의 인재는 중국에 없을 수도 있지만, 어쩌면 우리가 직접 그런 인재를 키울 수도 있습니다.

"Undercurrent": MLA 혁신은 어떻게 일어났습니까? 처음에는 젊은 연구자의 개인적인 관심에서 아이디어가 나왔다고 들었는데?

리앙 웬펑 : Attention 아키텍처의 몇 가지 주요 변경 사항을 요약한 후 갑자기 대안을 디자인하고 싶었습니다. 그러나 아이디어부터 구현까지의 과정은 길다. 우리는 이를 위해 팀을 구성했고 이를 완료하는 데 몇 달이 걸렸습니다.

"저류": 이러한 다양한 영감의 탄생은 완전히 혁신적인 조직의 구조와 밀접한 관련이 있습니다. 매직스퀘어 시대에는 위에서 아래로 목표나 업무를 배정하는 일이 거의 없습니다. 하지만 불확실성으로 가득 찬 개척지 탐색인 AGI에는 더 많은 관리 조치가 필요합니까?

리앙 웬펑 : DeepSeek도 모두 상향식입니다. 더욱이 우리는 일반적으로 분업을 미리 정하는 것이 아니라 자연적인 분업을 전제로 합니다. 모두가 자신만의 독특한 성장 경험을 가지고 있고 자신만의 아이디어를 갖고 있기 때문에 억지로 밀어붙일 필요는 없습니다. 탐색 과정에서 문제가 발생하면 다른 사람을 초대하여 문제를 논의합니다. 그러나 아이디어가 잠재력을 발휘하면 위에서 아래로 리소스를 할당합니다.

"Undercurrent": DeepSeek은 카드와 사람을 동원하는 데 매우 유연하다고 들었습니다.

리앙 웬펑 : 우리 각자는 카드와 사람의 양도에 상한선이 없습니다. 아이디어가 있으면 누구나 승인 없이 언제든지 훈련 클러스터 카드를 호출할 수 있습니다. 동시에, 계층과 부서 간이 없기 때문에 상대방도 관심이 있는 한 누구나 유연하게 호출할 수 있습니다.

"저류": 느슨한 관리 방법은 또한 강한 사랑으로 움직이는 사람들을 선택하는 것에 달려 있습니다. 당신은 세부 사항에 따라 사람을 채용하는 데 능숙하고, 비전통적인 평가 지표에 따라 뛰어난 사람을 선발할 수 있다고 들었습니다.

리앙 웬펑 : 우리가 사람을 뽑는 기준은 항상 사랑과 호기심이었기 때문에 많은 분들이 독특한 경험을 하게 될 것이라는 점이 매우 흥미롭습니다. 많은 사람들은 돈에 관심을 갖는 것보다 연구를 훨씬 더 원합니다.

"Undercurrent": Transformer는 Google의 AI Lab에서 탄생했고, ChatGPT는 OpenAI에서 탄생했습니다. 대기업의 AILab과 스타트업 기업의 혁신 가치 차이는 무엇이라고 생각하시나요?

리앙 웬펑 : Google Labs, OpenAI, 심지어 중국 주요 기업의 AI Labs이든 모두 가치가 있습니다. 결국 OpenAI가 해냈고, 이는 역사적 사고이기도 했다.

"저류": 혁신은 대체로 우연인가? 나는 당신의 사무실 중앙에 줄지어 있는 회의실의 왼쪽과 오른쪽에 마음대로 밀어서 열 수 있는 문이 있는 것을 봅니다. 동료들은 이것이 우연의 여지를 남기기 위한 것이라고 말했습니다. 트랜스포머의 탄생에는 우연히 지나가던 사람들이 이를 듣고 동참하게 되면서 결국 보편적인 틀로 변모했다는 이야기가 있었습니다.

리앙 웬펑 : 혁신은 무엇보다도 믿음의 문제라고 생각합니다. 실리콘밸리는 왜 혁신적인가? 첫 번째는 감히하는 것입니다. Chatgpt가 나왔을 때 전국은 최첨단 혁신에 대한 자신감이 부족했습니다. 투자자부터 대형 제조업체까지 모두가 격차가 너무 크다고 느꼈기 때문에 그냥 응용해야 합니다. 그러나 혁신에는 먼저 자신감이 필요합니다. 이러한 자신감은 일반적으로 젊은 사람들에게서 더 두드러집니다.

"저류": 그러나 귀하는 자금 조달에 참여하지 않고, 외부 세계에 거의 이야기하지 않으며, 귀하의 사회적 목소리는 확실히 자금 조달에 적극적으로 참여하는 회사만큼 좋지 않습니다. DeepSeek가 첫 번째 선택이 되도록 어떻게 보장할 수 있습니까? 큰 모델을 만들고 싶은 사람들?

리앙 웬펑: 우리가 가장 어려운 일을 하고 있으니까요.최고의 인재를 가장 많이 끌어들이는 것은 확실히 세상에서 가장 어려운 문제를 해결하는 것입니다. 실제로 중국에서는 최고의 인재들이 과소평가되고 있습니다. 사회 전반에 걸쳐 하드코어 혁신이 너무 적기 때문에 이를 식별할 기회가 없습니다. 우리는 그들에게 매력적인 가장 어려운 일을 하고 있습니다.

"저류": 얼마 전 OpenAI의 출시는 GPT5를 기다리지 않았습니다. 많은 사람들이 기술 곡선이 분명히 둔화되고 있다고 생각하고 많은 사람들이 확장 법칙에 의문을 제기하기 시작했습니다.

리앙 웬펑 : 우리는 낙관적이며 업계 전체가 기대에 부합하는 것 같습니다. OpenAI는 신이 아니며 항상 선두에 있을 수는 없습니다.

"Undercurrent": AGI가 실현되는 데 얼마나 걸릴 것이라고 생각하시나요? DeepSeek V2를 출시하기 전에 코드 생성 및 수학적 모델을 출시했으며 밀도 모델에서 MOE로 전환했습니다. 그렇다면 AGI 로드맵의 좌표는 무엇입니까?

리앙 웬펑 : 2년이 될 수도 있고, 5년이 될 수도 있고, 10년이 될 수도 있습니다. 짧게 말하면 우리 생애에 실현될 것입니다. 로드맵에 대해서는 회사 내에서도 합의가 이뤄지지 않고 있습니다. 하지만 우리는 세 가지 방향으로 내기를 걸었습니다. 하나는 수학과 코드이고, 두 번째는 다중 양식이며, 세 번째는 자연어 자체입니다. 수학과 코드는 AGI의 자연스러운 시험장입니다. 바둑과 비슷하고 폐쇄적이고 검증 가능한 시스템이며, 자기 학습을 통해 높은 지능을 달성할 수 있습니다. 반면, 현실 세계에서 인간을 참여시키는 다중 모드 학습도 AGI에 필요할 수 있습니다. 우리는 모든 가능성에 열려있습니다.

언더커런트: 빅모델의 결말은 어떨 거라고 생각하시나요?

리앙 웬펑 : 기본 모델과 기본 서비스를 제공하는 전문 회사가 있을 것이며, 전문적인 분업의 긴 사슬이 있을 것입니다. 더 많은 사람들이 사회 전체의 다양한 요구를 충족할 수 있습니다.

모든 루틴은 이전 세대의 제품입니다.

'저류': 지난 1년 동안 중국의 대형 모델 기업가 정신에 많은 변화가 있었습니다. 예를 들어 작년 초에 활동했던 Wang Huiwen이 회사를 중도 퇴사했고 나중에 합류한 회사도 있었습니다. 차별화를 보이기 시작했습니다.

리앙 웬펑 : Wang Huiwen은 모든 손실을 스스로 감수하고 다른 사람들은 무사히 탈출하도록했습니다. 그는 자신에게 가장 해롭지만 모두에게 가장 좋은 선택을 했기 때문에 매우 친절한 사람이고 나는 그를 매우 존경합니다.

"저류": 현재 대부분의 에너지를 어디에 집중하고 있습니까?

리앙 웬펑 : 차세대 대형모델 연구에 중점을 두고 있습니다. 아직 답변되지 않은 질문이 많이 있습니다.

"저류": 몇몇 다른 대형 모델 스타트업은 결국 기술이 영구적인 리더십을 가져오지 못할 것이라고 주장합니다. DeepSeek이 과감하게 모델 연구에 집중할 수 있는 시간을 확보하는 것도 중요합니다. 모델 역량이 부족해서 그런 걸까요?

리앙 웬펑 : 모든 루틴은 이전 세대의 산물이므로 미래에도 적용되지 않을 수 있습니다. Ma Huateng이 사업을 시작할 때 General Electric과 Coca-Cola에 대해 논의한 것처럼 인터넷의 비즈니스 논리를 사용하여 AI의 미래 수익 모델에 대해 논의하십시오. 그것은 아마도 검을 찾기 위해 배를 깎는 것과 같은 것일 것이다.

"저류": 과거 Huanfang은 강력한 기술과 혁신 유전자를 보유하고 있었으며 성장이 상대적으로 순조로웠기 때문에 낙관적인가요?

리앙 웬펑 : 매직스퀘어는 기술 중심 혁신에 대한 우리의 자신감을 어느 정도 높여주었지만, 항상 순탄한 길은 아닙니다. 우리는 오랜 축적 과정을 거쳤습니다. 겉으로 보이는 것은 2015년 이후 매직스퀘어 부분인데, 실제로는 16년째 해오고 있는 부분이다.

"저류": 원래 혁신이라는 주제로 돌아갑니다. 이제 경제가 침체에 돌입하고 자본이 콜드사이클에 진입한 지금, 독창적인 혁신에 더 많은 제약이 가해질 것인가?

리앙 웬펑 : 나는 그렇게 생각하지 않습니다. 중국의 산업 구조 조정은 핵심 기술 혁신에 더욱 의존하게 될 것입니다. 많은 사람들이 과거에 빨리 돈을 버는 것이 아마도 시대의 행운 때문이었을 것이라는 사실을 알게 되면, 그들은 더 기꺼이 의지하여 진정한 혁신을 하게 될 것입니다.

"저류": 그렇다면 당신도 이 문제에 대해 낙관적인가요?

리앙 웬펑 : 나는 1980년대 광둥성의 5선 도시에서 자랐습니다. 아버지는 초등학교 교사이셨습니다. 1990년대에는 광동에서 돈을 벌 기회가 많았습니다. 당시 많은 부모님들이 공부가 쓸모없다고 생각하셨습니다. 하지만 지금 돌이켜보면 생각이 바뀌었습니다. 돈 벌기가 힘들어서 택시를 운전할 기회조차 없을 수도 있어요. 한 세대 안에 바뀌는 거죠.

앞으로는 더욱 더 많은 하드코어 혁신이 있을 것입니다. 사회 전체가 사실을 교육받아야 하기 때문에 지금은 이해하기 쉽지 않을 수도 있습니다. 이 사회가 하드코어 혁신가들이 성공하도록 허용한다면 집단적 사고는 바뀔 것입니다.우리에게는 단지 많은 사실과 과정이 필요합니다.

소식

DeepSeek 공개: 중국의 기술적 이상주의에 대한 더욱 극단적인 이야기 36Kr 독점 |

소개

내 연락처 정보