소식

OpenAI의 "Her"를 전달하기 어려운 이유는 무엇입니까?

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen은 Aofei Temple에서 왔습니다.
Qubits 공개 계정 QbitAI

2개월 2주가 지났지만 아직까지 OpenAI "Her"의 공개 버전을 보지 못했습니다.

OpenAI는 5월 14일 GPT-4o를 출시했으며엔드투엔드 실시간 오디오 및 비디오 대화 모드, 인간처럼 매끄러운 AI 대화를 실시간으로 시연합니다.

호흡 리듬을 감지해 실시간으로 이전보다 풍부한 톤으로 응답할 수 있으며 언제든지 AI를 방해할 수도 있어 효과가 놀랍다.

하지만 다들 기대하고 있듯이 가끔은연기하다뉴스가 나왔습니다.



OpenAI를 방해하는 것은 무엇입니까? 알려진 정보에 따르면:

가지다법적 분쟁, 다시는 '과부 여동생' 스칼렛 요한슨처럼 목소리 음색이 논란을 일으키지 않도록 하기 위해서다.

또한 있다보안 질문, 적절하게 정렬되어야 하며 실시간 오디오 및 비디오 대화는 새로운 사용 시나리오를 열어주고 사기 도구로 사용되는 것도 그중 하나입니다.

그런데 위 사항 외에도 극복해야 할 기술적인 문제나 어려움이 있나요?

처음의 흥분 이후 전문가들은 문을 살펴보기 시작했습니다.

눈썰미 좋은 네티즌들은 눈치채셨겠지만,기자간담회 ​​시연 중에는 휴대폰이 네트워크 케이블로 연결되어 있었다.



업계 관계자의 눈에는 GPT-4o 컨퍼런스 시연이 매우 순조롭게 진행되었지만 여전히 몇 가지 한계가 있습니다.

필요"고정된 네트워크, 고정된 장비, 고정된 물리적 환경"

실제로 대중에게 공개된 후에도 글로벌 유저들이 기자간담회에 비해 타협하지 않는 경험을 얻을 수 있을지는 아직 미지수다.

기자회견장에는 또 다른 흥미로운 내용이 있었는데, 바로 미남 연구원 바렛 조프(Barret Zoph)였습니다.화상 통화 시연 시 ChatGPT를 테이블로 사용했습니다.



영상통화 부분의 딜레이는 당연합니다.질문의 음성 부분은 처리가 완료되었으며, 영상 부분은 아직 이전 샷 처리 중입니다., 휴대폰을 방금 들었을 때 카메라에 포착된 나무 테이블입니다.

드디어 출시된 후 얼마나 많은 사람들이 사용할지 상상해 보세요.

홍보 영상에서 가장 화제가 되었던 사례 중 시각 장애인이 인공지능 음성으로 택시를 부르던 사례가 네티즌들 사이에서 즉각 화제가 됐다.



그러나 이것은 또한낮은 대기 시간 기능에 크게 의존하는 시나리오, AI 안내가 조금 느리게 오면 택시가 달려갑니다.



공항, 기차역, 관광지 등 많은 사람과 장치가 대역폭을 점유하는 장면은 물론 야외 장면의 네트워크 신호는 안정성을 보장할 수 없으므로 난이도가 많이 높아집니다.

또한,야외 장면에서도 소음 문제가 발생합니다.

대형 모델은 본질적으로 '환상' 문제가 문제입니다. 소음이 사용자의 음성 인식에 영향을 미치고 지시와 관련 없는 일부 단어가 나타나면 대답이 불분명해집니다.

마지막으로 간과하기 쉬운 또 다른 문제가 있는데,다중 장치 적응

현재 OpenAI 컨퍼런스와 홍보 영상 모두 신형 아이폰 프로를 사용하고 있음을 알 수 있다.

저가형 모델에서도 동일한 경험을 얻을 수 있을지는 정식 출시 때까지 기다려야 할 것으로 보인다.



OpenAI는 GPT-4o가 다음에서 사용될 수 있다고 홍보합니다.짧게는 232밀리초, 평균은 320밀리초인간이 대화에서 반응하는 속도와 일치하는 시간에 오디오 입력에 응답합니다.

그러나 이는 전체 시스템이 아닌 대형 모델의 입력부터 출력까지의 시간일 뿐입니다.

전체적으로 AI를 잘하는 것만으로는 'Her'와 같은 원활한 경험을 만드는 것은 여전히 ​​불가능합니다. 또한 낮은 지연 시간, 다중 장치 적응, 대처 능력 등 일련의 기능이 필요합니다. 다양한 네트워크 조건과 시끄러운 환경.

AI만으로는 '그녀'를 만들 수 없다

낮은 대기 시간, 다중 장치 적응 등을 달성하기 위해 우리는 다음 사항에 의존합니다.실시간(실시간 통신, 실시간 통신) 기술.

AI 시대 이전에 RTC 기술은 생방송, 화상 회의 및 기타 시나리오에서 널리 사용되었으며 그 개발은 상대적으로 성숙했습니다.

RTC의 관점에서 볼 때 사용자의 음성 프롬프트 단어는 대형 모델에 입력되기 전에 일련의 복잡한 프로세스를 거쳐야 합니다.

신호 획득 및 전처리:휴대폰과 같은 최종 장치에서는 사용자의 음성을 원래 신호로 수집하고 소음 감소, 반향 제거 등의 처리를 통해 후속 인식을 준비합니다.

음성 코딩 및 압축: 전송 대역폭을 최대한 절약하려면 음성 신호를 인코딩하고 압축해야 합니다. 동시에 네트워크 패킷 손실을 방지하려면 실제 네트워크 조건에 따라 일부 중복성 및 오류 수정 메커니즘을 적응적으로 추가해야 합니다.

네트워크 전송: 압축된 음성 데이터는 데이터 패킷으로 분할되어 인터넷을 통해 클라우드로 전송됩니다. 서버와의 물리적 거리가 멀면 전송이 여러 노드를 거쳐야 하는 경우가 많으며 각 홉에서 지연과 패킷 손실이 발생할 수 있습니다.

음성 디코딩 및 복원:데이터 패킷이 서버에 도달한 후 시스템은 이를 디코딩하고 원래 음성 신호를 복원합니다.

마침내 AI가 조치를 취할 차례였습니다.먼저 Embedding 모델을 통해 음성 신호를 토큰으로 변환해야만 종단 간 다중 모드 대형 모델이 응답을 이해하고 생성할 수 있습니다.

물론, 대형 모델이 응답을 생성한 후 일련의 역과정을 거쳐야 하며, 그 후 응답의 오디오 신호가 최종적으로 사용자에게 다시 전송됩니다.



실시간 AI 오디오 및 비디오 대화를 실제로 달성하려면 전체 프로세스의 모든 단계에서 극도의 최적화가 필요합니다.

그 중에서도 대형 모델 자체의 압축, 양자화 등의 방법은 결국 AI 성능에 영향을 미치므로 오디오 신호 처리, 네트워크 패킷 손실 등의 요소를 결합한 공동 최적화가 특히 중요합니다.

OpenAI는 이 문제를 독립적으로 해결하지 않고 제3자와 협력하기로 선택한 것으로 이해됩니다.

파트너는오픈 소스 RTC 공급업체 LiveKit, 현재 ChatGPT 음성 모드 지원으로 업계의 초점이 되고 있습니다.



LiveKit은 OpenAI 외에도 Character.ai, ElevenLabs 등 관련 AI 기업과도 협력해 왔습니다.

아마도 상대적으로 성숙한 자체 개발 RTC 기술을 보유하고 있는 Google과 같은 몇몇 거대 기업을 제외하면,업계를 전문으로 하는 RTC 제조업체와 협력하는 것은 현재 AI 실시간 오디오 및 비디오 대화 플레이어의 주류 선택입니다.

물론 이 물결에는 국내 플레이어의 참여도 포함됩니다. 이미 많은 국내 AI 기업이 엔드투엔드 멀티모달 대형 모델과 AI 실시간 오디오 및 비디오 대화 애플리케이션 개발에 박차를 가하고 있습니다.

국내 AI 애플리케이션이 OpenAI의 성과를 따라잡을 수 있을지, 그리고 언제쯤 모두가 직접 경험할 수 있을까?

이들 프로젝트는 기본적으로 초기 단계이기 때문에 공개된 정보는 많지 않지만 RTC 파트너사운드 네트워크획기적인 발전이 되었습니다.

사운드 네트워크에서 Qubit에 문의했는데,현재 국내 기술 수준으로는 대화 라운드의 지연 시간을 1초 내외로 줄일 수 있다., 더 많은 최적화 기술이 결합되어 적시에 응답할 수 있는 원활한 대화를 달성하는 것이 더 이상 문제가 되지 않습니다.

RTC를 잘 하려면 AI가 단순한 '그녀'가 아니다

SoundNet은 누구입니까?

RTC 업계 대표 기업, 2020년 글로벌 최초 실시간 인터랙티브 클라우드 서비스 제공업체로 도약

SoundNet이 업계에서 처음으로 벗어난 것은 대히트를 쳤던 오디오 소셜 애플리케이션인 Clubhouse에 대한 기술 지원을 제공했기 때문입니다.

실제로 Bilibili, Xiaomi, Xiaohongshu 등 잘 알려진 많은 애플리케이션이 Agora의 RTC 솔루션을 선택했으며 최근 몇 년 동안 해외 사업도 빠르게 발전했습니다.

그렇다면 AI 실시간 오디오 및 비디오 대화 애플리케이션의 경우 낮은 지연 시간과 다중 장치 적응의 어려움을 구체적으로 어떻게 해결하고 어떤 효과를 얻을 수 있을까요?

우리는 초대했습니다Shengwang의 수석 과학자이자 CTO인 Zhong Sheng이 질문에 답하기 위해.

Zhong Sheng에 따르면 대규모 모델 추론은 계산되지 않습니다.네트워크 회선에서 신호가 앞뒤로 이동하는 데 걸리는 시간이 이미 70~300밀리초일 수 있다고 가정해 보겠습니다.

구체적으로 우리는 주로 세 가지 측면에서 최적화에 중점을 둡니다.

첫 번째,Shengwang은 전 세계에 200개가 넘는 데이터 센터를 구축했으며, 연결을 설정할 때 선택한 위치는 항상 최종 사용자에게 가장 가깝습니다.

지능형 라우팅 기술과 결합하여 특정 회선이 혼잡할 때 시스템은 통신 품질을 보장하기 위해 더 나은 지연 및 대역폭을 갖춘 다른 경로를 자동으로 선택할 수 있습니다.

지역 간 전송이 포함되지 않는 경우 종단 간 전송 시간은 100ms 미만일 수 있습니다. 중국에서 미국 등 지역 간을 포함하는 경우 200~300ms가 걸릴 가능성이 더 높습니다.

두번째, 2014년 설립된 Shengwang은 수년간 축적된 방대한 양의 실제 현장 데이터를 기반으로 데이터 마이닝을 통해 다양한 취약한 네트워크 시나리오를 분석하고 이를 실험실에서 재현하고 있습니다. 이는 복잡하고 변화무쌍한 네트워크 환경에 대처할 수 있도록 전송 알고리즘을 최적화하기 위한 "발사 범위"를 제공하며, 실시간 전송 중에 해당 약한 네트워크 모드가 발생할 경우 전송 전략을 적시에 조정할 수도 있습니다. 더 부드러워졌습니다.

제삼, 수직 산업 및 특정 작업의 경우 Agora는 대규모 모델의 응답 시간을 압축하기 위해 더 작은 매개변수로 모델을 사용자 정의하려고 노력하고 있습니다. 대규모 언어 모델과 특정 크기의 음성 모델의 뛰어난 기능은 탐색할 가치가 있는 방향이며, 이는 대화형 AI 또는 챗봇의 비용 효율성과 짧은 대기 시간 경험을 최적화하는 데 핵심입니다.

마침내, Shengwang이 개발한 RTC SDK는 다양한 단말 장치, 특히 일부 저가형 모델에 맞게 조정 및 최적화되어 저전력 소비, 낮은 메모리 사용량, 매우 작은 패키지 크기 등을 달성할 수 있습니다. 특히 AI 알고리즘을 기반으로 하는 음성 잡음 감소, 반향 제거, 영상 품질 개선 등 기기측 기능은 AI 챗봇의 범위와 효과에 직접적인 영향을 미칠 수 있다.

Zhongsheng은 또한 RTC와 대형 모델 기술의 결합을 탐색하는 과정에서 RTC 기술 자체의 범위도 변화하고 있다고 소개했습니다.

그는 오디오 신호 전송에서 대형 모델이 직접 이해할 수 있는 토큰 전송으로 바꾸고, 마지막에는 STT(Speech-to-Text)와 감정 인식까지 구현해 텍스트와 관련 정보를 감정 매개변수로 전송할 수 있습니다.

이러한 방식으로 더 많은 신호 처리 프로세스를 엔드 측에 배치할 수 있고, 컴퓨팅 성능이 덜 필요한 Embeding 모델을 사용자에게 더 가깝게 배치하여 전체 프로세스의 대역폭 요구 사항과 클라우드 모델의 비용을 줄일 수 있습니다.

Zhong Sheng은 이 시점부터 AI와 RTC 기술의 최종 결합이 장치와 클라우드의 통합을 향해 나아갈 것이라고 믿습니다.

즉, 클라우드의 대규모 모델에 완전히 의존할 수는 없습니다. 이는 비용, 에너지 소비 및 대기 시간 경험 측면에서 최선의 선택이 아닙니다.

엔드-클라우드 통합의 관점에서 볼 때, 컴퓨팅 성능은 클라우드에 있을 뿐만 아니라 휴대폰의 컴퓨팅 성능도 그에 따라 변경되어야 합니다. 엣지의 전송 노드도 컴퓨팅 성능을 분배하고 그에 따라 데이터 전송 프로토콜도 변경됩니다.

현재 Agora와 대형 모델 애플리케이션 제조업체는세 가지 협력 모델즉, 전체 시스템의 세 부분인 대형 모델, RTC 및 클라우드 서버의 다양한 공급 방법입니다.

  • 비공개 배포:Shengwang은 파트너의 자체 데이터 센터에 대형 모델과 함께 배포되는 RTC SDK만 제공합니다. 자체 개발한 대형 모델이나 대형 모델 추론 인프라를 갖춘 기업에 적합합니다.
  • Shengwang 클라우드 플랫폼: Shengwang은 RTC SDK 및 클라우드 서버 리소스를 제공합니다. 개발자는 필요에 따라 모델, 배포 위치 및 컴퓨팅 리소스를 유연하게 선택할 수 있습니다. 자체 인프라를 구축할 필요가 없으며 AI 음성 애플리케이션을 빠르게 구축할 수 있습니다.
  • Agora 엔드투엔드 솔루션: Shengwang은 자체 개발한 대형 모델, RTC SDK 및 클라우드 서버 리소스를 제공합니다. 수직 모델은 교육, 전자 상거래, 소셜 엔터테인먼트, 고객 서비스 등 세분화된 산업에 맞게 맞춤화할 수 있으며 RTC 기능과 긴밀하게 통합되어 통합 음성 상호 작용 솔루션을 제공합니다.

게다가 기존 협력 프로젝트에서 가장 빠른 적용은 모두를 만나는 것과 멀지 않습니다.

Acoustic Network와의 통신에는 주목할만한 큐비트 발견의 또 다른 새로운 추세가 있습니다.

국내 AI 적용은 점차 AI 비서 문답, AI 감성동료의 범위를 넘어서고 있다.

소셜 엔터테인먼트, 전자상거래 라이브 스트리밍, 온라인 교육 등의 업계에서 모두가 가장 주목하는 것은 인터넷 유명 앵커와 유명 교사입니다. AI 실시간 오디오 및 비디오 대화를 통해 구동되는 디지털 사람들은 '디지털 클론'이 될 수 있으며 나아가 각 팬이나 학생과 일대일로 상호 작용할 수 있습니다. 동시에 사용자 자신의 시간과 에너지도 제한되어 있으며 여러 작업을 수행할 수 있는 기술이 없으며 자신의 AI 클론에 대한 필요성도 있습니다. 기술의 발전, AI 아바타 기술 경험의 향상, 비용 절감으로 인해 활용 범위가 점차 확대될 것입니다.

Zhong Sheng의 말을 들어보세요. “인간에게 가장 부족한 것은 시간이다.”

우리 모두는 이런 경험을 갖고 있어야 합니다. 두 모임이 충돌하여 한 번만 참석할 수 있다면 어떻게 될까요?

흥미로운 정보를 가져오기 위해 직접 이벤트에 참여할 수도 있고 AI 도우미를 다른 이벤트에 보낼 수도 있습니다. 미래에는 이 도우미가 자신의 AI 아바타가 될 수도 있습니다. 활동 중에 개인화된 커뮤니케이션을 수행하고 자신의 관심사와 관심사에 따라 다양한 질문을 하거나 답변할 수 있으며 다른 사람 또는 다른 사람의 아바타와 상호 작용할 수 있습니다.

따라서 AI 실시간 오디오 및 비디오 대화는 단순한 '그녀' 이상의 역할을 할 수 있습니다.