소식

GPT-4o 현물이 미래로 변하는데, OpenAI를 방해하는 것은 무엇입니까?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


RTC 기술은 실시간 AI 인기의 핵심 중 하나입니다.


작가 |
편집하다징규 |

그녀는 영화에서 현실로 옮겨가고 있다.

올해 5월 OpenAI는 최신 AI 멀티모달 대형 모델 GPT-4o를 출시했습니다. GPT-4o는 이전 버전인 GPT-4 Turbo에 비해 속도는 2배, 비용은 절반으로 줄었다. . -4) 심지어 320밀리초에 달합니다. 이는 인간의 일상 대화 응답 속도와 거의 같습니다.

효율성이 높아졌을 뿐만 아니라, 대화 속 감정 분석도 이번 제품 업데이트의 특징 중 하나가 됐다. AI는 호스트와의 대화 중 심호흡을 하라는 타겟 제안과 말을 할 때 '긴장감'을 들을 수 있다.

오픈AI, 대형 모델 시대의 실리콘 기반 '크리에이터'로 거듭나고 있습니다.

그러나 기자회견은 충격적이었지만 현실은 매우 말랐다. 제품이 출시된 후, 이러한 대형 모델 기술 혁명의 시작자인 OpenAI는 점차 "미래" 회사처럼 변해가고 있습니다.

만능 저지연 GPT-4o 출시 이후 실시간 오디오 및 비디오 기능 출시가 여전히 지연되고 있으며, 비디오 멀티모달 제품인 Sora도 출시되지만 역시 지연되고 있습니다.

그러나 이것은 기업으로서 OpenAI만의 문제가 아닙니다. ChatGPT 출시 이후 강을 건너는 붕어만큼 ChatGPT의 국내 버전이 많이 있었지만 현재 GPT-4o를 실제로 벤치마킹하는 SenseTime 5.5는 단 하나뿐입니다. , 진행 상황은 동일합니다. 한 달 안에 오픈 베타를 진행하세요.

기자회견장에서는 실시간 다중 모드 대형 모델이 세상을 바꾸는 데 한 발짝만 다가갔지만 실제로 제품화를 향해 나아가는 과정에서는 항상 '스팟'에서 '옵션'으로 바뀌는 이유는 무엇입니까?

새로운 목소리가 떠오르고 있습니다. 다중 모드 세계에서는 아마도 (알고리즘) 폭력에는 기적이 없을 것입니다.

01

실시간 음성,한 조각

통과해야 함~의AI 상용화 경로

기술의 성숙은 새로운 블루오션 산업을 점차 구체화시키고 있습니다.

실리콘 밸리의 유명한 벤처 캐피탈 기관인 a16z의 데이터에 따르면 전 세계 사용자가 사용하는 상위 50개 AI 애플리케이션 중 9개가 동반 제품인 것으로 나타났습니다. AI상품목록 자료에 따르면 올해 5월 AI컴패니언 방문 건수는 4억3200만명으로 전년 동기 대비 13.87% 증가한 것으로 나타났다.

높은 수요, 높은 성장률, 높은 시장 공간, AI의 동반은 비즈니스 모델과 인간-컴퓨터 상호 작용에 이중 변화를 가져올 것입니다.

비즈니스의 성숙은 역으로 기술의 지속적인 발전을 강요하기도 합니다.올해 상반기만 노드로 삼아 실시간 AI 음성 기술은 불과 6개월 만에 벌써 세 번의 반복을 거쳤다.

첫 번째 기술 물결의 대표적인 제품은 Pi입니다.

올해 3월 스타트업 인플렉션 AI는 개인 사용자를 위한 감성 챗봇 파이(Pi)를 업데이트했다.

Pi의 제품 인터페이스는 매우 간단합니다. 텍스트 + 대화 상자는 핵심 대화형 인터페이스이지만 음성 읽기 및 전화 통화와 같은 AI 음성 기능도 추가합니다.

이러한 종류의 음성 상호작용을 달성하기 위해 Pi는 STT(음성 인식, 음성-텍스트) - LLM(대형 모델 의미 분석) - TTS(텍스트 음성 변환)의 전통적인 3단계 음성 기술을 사용합니다. 기술은 성숙됐지만 반응이 느리고, 톤 등 주요 정보에 대한 이해가 부족하고, 진정한 실시간 음성 대화를 구현하지 못하는 것이 특징이다.

같은 시기의 또 다른 주요 제품은 Call Annie입니다. Pi에 비해 Call Annie는 전화 응답 및 끊기 디자인 외에도 순종 기능을 최소화하고 다른 앱으로 전환할 수 있으며 40개 이상의 대화 역할 설정을 지원하는 완벽한 영상 통화 경험 디자인을 갖추고 있습니다.

그러나 그들은 모두 높은 대기 시간과 감정적 색채 부족이라는 공통적인 기술적 문제를 공유하고 있습니다. 지연 시간 측면에서 업계에서 가장 발전된 OpenAI라도 2.8초(GPT-3.5)에서 5.4초(GPT-4)의 지연이 발생합니다.감정적으로는 상호 작용 중에 어조, 높낮이, 말하는 속도 등의 정보가 손실되고, 웃음이나 노래와 같은 고급 음성 표현을 출력하는 것이 불가능해집니다.

이후 새로운 기술의 물결을 대표하는 것이 바로 EVI라는 제품이었습니다.

이 제품은 흄 AI가 올해 4월 출시한 제품으로 흄 AI에 시리즈 B 자금 조달로 5천만 달러(약 3억 6200만 위안)를 조달했다.

제품 디자인 측면에서 Hume AI는 기본 알고리즘에서 플레이그라운드 기능을 출시했습니다. 사용자는 공식 기본값 외에도 Claude, GPT-4 Turbo 등을 선택할 수 있습니다.하지만 차이점은 목소리에는 감정이 담겨 있기 때문에 표현의 리듬과 억양에도 변화가 있다는 것입니다.

이 기능의 실현은 주로 기존 STT-LLM-TTS 3단계 프로세스에 새로운 SST(의미 공간 이론, 의미 공간 이론) 알고리즘을 추가하는 데 달려 있습니다. SST는 광범위한 데이터 수집과 고급 통계 모델을 통해 인간 감정의 전체 스펙트럼을 정확하게 그려내고 인간 감정 상태 간의 연속성을 드러내며 EVI에 많은 의인화 기능을 제공합니다.

감정적 발전의 대가는 시간 지연의 추가 희생입니다, 사용자가 EVI와 대화하기 위해 기다려야 하는 시간은 Pi 및 Call Annie에 비해 더 늘어납니다.

5월 중순에는 GPT-4o가 출시되었고 다중 모드 기술을 통합하는 것이 이 시기의 기술 방향이 되었습니다.

기존의 3단계 음성 상호작용 제품과 비교했을 때, GPT-4o는 텍스트, 시각적, 오디오 전반에 걸쳐 엔드투엔드(end-to-end)로 훈련된 새로운 모델입니다. 즉, 모든 입력과 출력이 동일한 신경망에 의해 처리된다는 의미입니다.

지연 문제도 크게 개선되었습니다. OpenAI는 GPT-4o의 실시간 음성 상호 작용이 가장 빠른 속도 232밀리초, 평균 320밀리초로 오디오 입력에 응답할 수 있다고 공식 발표했습니다. 감정적으로는 음성 속도와 감정적 이해의 변화가 이루어지면서 사용자와 AI 간의 상호 작용이 점점 더 지능화되었습니다.

제품 수준에서는 인간이 AI와 사랑에 빠지는 것이 가능해지고, AI가 시각 장애인을 대신해 세상을 보는 것이 가능해진다.

최근 음성통화 기능을 출시하며 2024년 실리콘밸리의 주목받는 신성으로 떠오른 Character.ai는 이 기술 물결의 가장 큰 수혜자가 됐다.

Character.ai에서 사용자는 초현실적인 역할극을 통해 애니메이션 캐릭터, TV 인물 및 역사적 인물의 복제품과 문자 메시지를 보낼 수 있습니다. 이 새로운 설정으로 인해 제품 사용자 수가 급증했습니다. 유사한 웹의 데이터에 따르면 Character.ai는 초당 20,000건의 AI 추론 요청을 처리할 수 있으며, 5월 방문 횟수는 2억 7,700만 건에 달했습니다.


Character.ai와 perplexity.ai의 트래픽 비교│이미지 출처: 유사한 웹

동시에 Microsoft, Google 등은 자사의 대형 모델이 실시간 음성 통화 기능을 출시할 것이라고 공식 발표했습니다.

그러나 실제 구현에서 방수 제품 디자인은 항상 삼협 홍수 방류의 구현 효과를 보여줍니다. 세 번째 물결에서는 기자 회견에서 거의 "그녀" 스타일의 동반자 제품이 실제 구현에서 모두 변경되었습니다. 출시 "계획"이 되어 곧 출시될 예정이며 내부 테스트 중입니다.

의심할 여지 없는 결론은 실시간 오디오 및 비디오가 인간-컴퓨터 상호 작용의 궁극적인 형태가 될 수 있다는 것입니다.일체 포함동반 장면 외에도 게임 지능형 NPC, AI 음성 교사, 실시간 번역 등의 장면이 모두 폭발할 것으로 예상되지만, 그 전에 '기자간담회'부터 제품 출시까지 라스트 마일을 어떻게 풀어나갈지 주목된다. 오늘날 업계에서 가장 어려운 문제입니다.

02

AI 실시간 음성,

큰 힘을 지닌 기적은 없다

일체 포함실시간 목소리 '노력해도 기적은 없다' 비관적인 말이 실리콘밸리에 조용히 퍼지고 있다.

저항은 기술, 규제, 비즈니스의 모든 측면에서 발생합니다.

기술 반대파의 정신적 지도자는 "컨볼루션 네트워크의 아버지"인 Yann LeCun입니다.

그는 과거의 다양한 AI 알고리즘과 비교했을 때 대형 모델 기술의 가장 큰 특징은 '노력이 기적을 낳을 수 있다'는 점이라고 본다. 빅데이터 공급과 수억 개의 매개변수 및 고성능을 갖춘 컴퓨팅 클러스터의 하드웨어 지원을 통해 알고리즘을 사용하여 보다 복잡한 문제를 처리하고 더 높은 확장성을 달성할 수 있습니다. 그러나 우리는 현재 대형 모델에 대해 지나치게 낙관적입니다. 특히 다중 모드 대형 모델이 세계 모델일 수 있다는 견해는 훨씬 더 말도 안 됩니다.

예를 들어, 사람들은 세상에 대한 진정한 이해를 형성하는 오감을 가지고 있으며, 대량의 인터넷 텍스트를 기반으로 훈련된 LLM은 물리적 세계에 대한 관찰과 상호 작용이 부족하고 상식이 부족합니다. 따라서 영상이나 음성을 생성하는 과정에서는 겉보기에 이음새가 없어 보이는 콘텐츠나 움직임 궤적, 음성 감정이 항상 존재하지만 사실성이 부족할 수 있습니다. 또한 모델 크기와 상호 작용 크기가 증가함에 따라 현재의 대형 모델은 이러한 정보를 처리하기에 충분한 대역폭이 부족하다는 엄격한 물리적 제한도 문제입니다.

규제 수준,일체 포함실시간 음성, 즉 종단 간 음성 대형 모델은 기술과 윤리 간의 게임에 직면해 있습니다.

과거 기존 AI 음성 산업에서 STT-LLM-TTS의 3단계 프로세스는 처음에는 미성숙한 기술로 인해 발생했습니다. 엔드투엔드 대형 음성 모델로 발전하려면 모델 아키텍처, 학습 방법 측면에서 추가 구현이 필요합니다. , 다중 모드 기술 상호 작용. 동시에 음성 자체는 문자보다 감독하기가 더 어렵기 때문에 AI 음성은 전화 사기, 음란물, 스팸 마케팅과 같은 상황에서 쉽게 사용될 수 있습니다. 검토를 용이하게 하기 위해 중간 텍스트 링크도 어느 정도 필요해졌습니다.

그리고 비즈니스 수준에서는, 엔드투엔드 오디오 및 비디오 대형 모델 훈련에는 훈련 단계에서 많은 양의 YouTube 및 팟캐스트 데이터가 필요합니다. 비용은 이전 텍스트 훈련 모델에 비해 수십 배 또는 그 이상입니다. 수백만 달러.

이런 종류의 비용은 현재 일반 AI 기업의 경우 하늘에서 돈을 떨어뜨리는 것은 쓸모가 없습니다. 또한 NVIDIA의 고급 AI 컴퓨팅 카드, 기가비트 스토리지 및 무궁무진한 위험 없는 오디오 및 비디오 저작권에 대한 비용을 지불해야 합니다. .

물론 양리쿤의 기술적 판단이든, 규제상의 어려움이든, 상용화 비용 딜레마든, 이것들은 Open AI의 핵심 문제는 아니다.

GPT-4o 수업을 실시간으로 만들어보세요일체 포함음성인식 제품이 현물에서 미래로 변화한 근본적인 이유는 프로젝트 구현 수준에 있습니다.

03

네트워크 케이블이 연결된 시연을 위한 GPT-4o,

여전히 유용한 RTC 지원이 누락되었습니다.

업계의 암묵적인 비밀은, GPT-4o 클래스일체 포함엔지니어링 수준에서 실시간 음성 제품은 전투의 절반에 불과합니다.

GPT-4o 출시 당시 낮은 대기 시간이 주장되었지만 일부 예리한 사용자는 데모 비디오의 휴대폰이 여전히 네트워크 케이블에 연결되어 있음을 발견했습니다.이는 또한 GPT-4o가 공식적으로 발표한 320ms의 평균 지연이 고정 장비, 고정 네트워크 및 고정 시나리오의 데모일 가능성이 높으며 이상적인 조건에서 달성할 수 있는 실험실 지표임을 의미합니다.


OpenAI의 GPT-4o 출시 컨퍼런스에서는 휴대폰이 연결되어 있음을 분명히 보여줍니다. 이미지 출처: OpenAI |

문제는 어디에 있습니까?

AI 실시간 음성 통화를 실현하기 위해 기술 수준에서 해체하면 알고리즘 수준의 세 단계가 하나로 결합되며 이는 핵심 링크 중 하나일 뿐이며 다른 핵심 링크인 RTC 통신 수준도 시리즈에 직면합니다. 기술적 과제. 소위 RTC는 간단히 말해 실시간 네트워크 환경에서 오디오와 비디오의 전송과 상호작용으로 이해될 수 있으며, 실시간 음성, 실시간 비디오 및 기타 상호작용을 지원하는 기술입니다.

Agora의 오디오 기술 책임자인 Chen Ruofei는 Geek Park에 실제 애플리케이션 시나리오에서 사용자가 항상 고정된 장비, 고정된 네트워크 및 고정된 물리적 환경에 있을 수는 없다고 말했습니다. 일상적인 화상 통화 시나리오에서 한쪽의 네트워크가 열악하면 음성 지연 및 지연이 증가합니다. 이러한 상황은 AI 실시간 음성 통화에서도 발생하므로 RTC 전송에는 낮은 지연 전송과 우수한 네트워크 최적화가 중요합니다.

또한 다중 기기 적응, 오디오 신호 처리 등도 AI 실시간 음성 구현에 있어서 무시할 수 없는 기술적 측면이다.

이러한 문제를 해결하는 방법은 무엇입니까?

그 대답은 OpenAI의 최신 채용 요구 사항에 있으며, OpenAI는 가장 진보된 모델을 RTC 환경에 배포하는 데 도움이 되는 엔지니어링 인재를 모집하고 싶다고 구체적으로 언급했습니다.

구체적인 솔루션 선택 측면에서 GPT-4o에서 사용하는 RTC 기술은 WebRTC 기반의 오픈 소스 솔루션으로 기술 수준의 특정 지연은 물론 패킷 손실, 통신 콘텐츠 보안 및 크로스 플랫폼으로 인한 문제를 해결할 수 있습니다. 다양한 네트워크 호환성 문제.

그러나 오픈소스의 B측면은 제품화의 약점이다.

간단한 예를 들면, 다중 장치 적응 문제와 관련하여 RTC 사용 시나리오는 대부분 휴대폰으로 대표되지만 다양한 휴대폰 모델의 통신 및 사운드 수집 기능은 매우 다양합니다. 현재 Apple 휴대폰은 안정적인 지연을 달성할 수 있습니다. 하지만 상대적으로 복잡한 안드로이드 생태계는 모델이 많을 뿐만 아니라, 일부 저가형 모델 기기의 경우 지연 시간이 상당히 뚜렷합니다. 수집 및 통신 수준에서는 최대 수백 밀리초까지 걸릴 수 있습니다.

또 다른 예를 들어, AI 실시간 음성 애플리케이션 시나리오에서는 사람의 음성 신호가 배경 소음과 혼합될 수 있습니다. AI가 사람을 더 잘 이해할 수 있도록 잡음과 반향을 제거하려면 복잡한 신호 처리가 필요합니다. .라는 말.

다중 장치 호환성과 고급 오디오 소음 감소 기능도 오픈 소스 WebRTC에 부족한 부분입니다.

업계 경험은 오픈 소스 제품 적용에 있어 병목 현상을 발생시킵니다. 따라서 오픈 소스 솔루션과 비교하여 대형 모델 제조업체와 전문 RTC 솔루션 제공업체가 협력하여 이를 다듬고 최적화하며 이는 어느 정도 미래 업계 동향을 더 잘 나타낼 수 있습니다.

RTC 분야에서는 아고라가 클럽하우스에 오디오 기술을 제공한 것으로 잘 알려져 있다. 아고라 공식 홈페이지에 따르면 전 세계 범엔터테인먼트 앱 중 60% 이상이 아고라의 RTC 서비스를 선택하고 있다. 국내 유명 기업 외에도 샤오미, 빌리빌리, 모모, 샤오홍슈 등의 앱 외에도 중동과 북아프리카 최대 음성 소셜 엔터테인먼트 플랫폼인 얄라(Yalla), '소셜 라이브의 제왕 쿠무(Kumu)'도 있다. 동남아시아의 방송 플랫폼', HTC VIVE, The Meet Group, Bunch 등 전 세계 유명 기업들이 Agora의 RTC 기술을 채택했습니다.


업계 경험의 축적과 글로벌 고객의 연마는 기술 리더십의 또 다른 증거입니다. Chen Ruofei에 따르면 Shengwang이 자체 개발한 SD-RTN™ 실시간 전송 네트워크는 전 세계 200개 이상의 국가와 지역을 포괄하며 오디오 및 비디오의 전 세계 종단 간 지연은 평균 200ms에 이릅니다. 네트워크 환경의 변동에 대응하여 SoundNet의 지능형 라우팅 기술과 약한 네트워크 알고리즘은 통화의 안정성과 유창성을 보장할 수 있습니다. Shengwang은 단말 장비의 차이를 고려하여 전 세계적으로 수억 개의 사전 설치된 앱을 축적하고 복잡한 환경에 적응하는 노하우를 축적해 왔습니다.

기술 리더십 외에도 업계 경험은 눈에 보이지 않는 장벽입니다.

실제로 RTC 산업의 비즈니스 환경이 수년 동안 상대적으로 안정적인 이유는 다음과 같습니다.RTC에서 좋은 일을 하기 위해, RTC는 "큰 노력이 기적을 낳을 수 있다"는 대규모 모델에 의존한 적이 없습니다.

음성 지연의 궁극적인 최적화와 실시간 음성 상호 작용의 보편적인 상업적 사용을 달성하는 유일한 방법은 시간이 지남에 따라 축적되고 집중적인 작업을 통해서입니다.

그리고 이러한 관점에서 보면,일체 포함실시간 음성 상호작용은 상상력과 난이도 측면에서 과소평가되어서는 안 되는 전투입니다.

미래 - 알고리즘, 감사 및 RTC는 모든 수준을 통과해야 합니다. 이 긴 길을 완성하려면 우리는 기술의 별이 빛나는 하늘을 우러러볼 뿐만 아니라 공학의 기반 위에 발을 올려야 합니다.

*헤더 이미지 출처 : Visual China

이 기사는 Geek Park의 원본 기사입니다. 재인쇄를 원하시면 WeChat geekparkGO에서 Geek Jun에게 문의하세요.

괴짜가 물었다

어떤 AI 동반 ​​앱을 사용해 보셨나요?


Zuckerberg의 성공 비결: 영화에 속지 마십시오. 애초에 그 방법을 아는 사람은 아무도 없습니다.

좋아요와 팔로우Geek Park 비디오 계정