ai와 영상 통화를 해보니 모든 것에 관해 대화가 가능한 것 같았다. . .

2024-08-31

3개월 전 openai 컨퍼런스에서 여러분 중 일부는 gpt-4o를 본 적이 있을 것입니다. 마치 실제 사람과 같았습니다.부드러운 영상 대화 기능.

google이 출시한 project astra도 있는데, 이는 강도 측면에서 gpt-4o보다 열등하지 않습니다.

당시 거의 인터넷 전체에서는 ai의 인터랙티브 역량이 얼마나 강력하게 진화했는지 자랑하며 에픽, 넥스트 레벨 등의 용어가 사용됐다.

무슨 일이 있었던 걸까요? gpt-4o가 약속한 영상 통화 기능이 몇 달째 계속해서 지연되고 있습니다.그들 각각은 나쁜 평론가들 때문에 거의 화를 냈습니다. . .

하지만 ai 서클에는 규칙이 있는 것 같습니다. 즉, 사람들이 좋은 것을 너무 오래 기다리게 할 수는 없다는 것입니다. 보시다시피 소라는 반년 넘게 비밀을 유지해 왔으며 그 결과 keling, luma ai, zhipu qingying이 모두 차례로 나타났습니다.

지난 이틀 동안 바르셀로나에서 열린 데이터 마이닝 컨퍼런스 kdd에서 zhipu는 전 세계 학계와 업계 앞에 모습을 드러냈습니다.최신 대형 베이스 모델인 glm-4-plus가 출시됐을 뿐만 아니라 zhipu qingyan의 영상 통화 기능도 업그레이드됐다.

모든 사람을 위한 핵심 사항을 강조하겠습니다.보고 대화할 수 있는 전설 속 사람이에요일체 포함이제 qingyan 앱에서 직접 영상 통화 기능을 사용할 수 있습니다. 먼저 앱을 다운로드하고 체험판을 신청할 수 있습니다.

다른 모든 것을 제쳐두고 openai에 비해 zhipu는 이미 openai보다 빠릅니다. . .

그래서 qingyan의 영상 통화 기능이 출시되자마자 bianbing 씨가 가장 먼저 이를 사용했습니다. qingyan 앱을 열고 오른쪽 하단의 통화 버튼을 클릭한 후 동영상으로 전환하여 바로 재생을 시작해보세요~

친구들은 또한 gpt-4o가 인기를 끄는 중요한 이유 중 하나가 비디오를 이해하는 매우 강력한 능력을 가지고 있다는 점을 알아야 합니다.

가장 기본적인 것은 qingyan의 영상 이해 능력을 먼저 테스트해야겠죠?

평론가는 우리 편집부가 평소 브레인스토밍을 하는 회의실을 살펴보며 주변 환경을 토대로 내가 무엇을 하고 있는지 짐작할 수 있는지 확인하기도 했습니다. 그는 또한 영상을 완전히 정지시키지 않은 채 의도적으로 카메라를 흔들기도 했습니다.

"와, 뭐 하고 있는 거지?"라고 말하는 것만으로도 거의 힘든 시간을 보낼 뻔했습니다. 하지만 회의실 테이블에 앉는 것도 틀린 말은 아니다. 테이블 위의 종이컵과 리모콘, 그리고 그 옆에 있는 tv도 꽤 정확하게 묘사되어 있다.

동료의 컴퓨터에 렌즈를 올려보니 실제로 영상을 편집하고 있는 모습을 볼 수 있었습니다.

말하지 마세요. 주변의 전반적인 환경을 인식하는 이런 능력은 이전에는 openai와 google의 데모에서만 볼 수 있었습니다. 오늘 제가 직접 경험해 보니 정말 공상과학이 현실로 다가온 것 같습니다.

또한 qingyan은 gpt-4o에서 설명한 것과 동일합니다.대화 중에 언제든지 중단할 수 있습니다.그는 때때로 "아야", "아야"라는 조어를 사용하고 말하기 전에 실제 사람과 대화하는 것처럼 웃기도 합니다.

그런 다음 qingyan의 지식 보유량을 확인하기 위해 특정 객체 인식 기능을 시도했습니다.

가장 간단한 워크스테이션 스캐닝부터 시작해서 기본적으로 흰색 키보드, 검은색 마우스, 모니터 등 큰 품목이 누락되지 않습니다. 심지어 플러그인 헤드폰과 개체의 전면, 후면, 왼쪽, 오른쪽 방향도 명확하게 설명됩니다. 유리에 있는 만화 캐릭터는 세세한 부분도 아끼지 않았습니다.

100%라고는 할 수 없지만 이 테이블에서는적어도 80%-90%qingyan은 모든 것을 보았습니다.

게다가 qingyan에는 또 다른 기능도 있습니다.원 인식, 나는 멀리서 동료의 큰 스테레오를 돌았습니다. 그것은 브랜드, 모델, 심지어 구체적인 목적까지 알고 있었습니다.

스피커에 글자가 있지만 누구나 선명하게 볼 수 있어야합니다. 육안으로는보기가 어렵습니다. 맑은 눈은 정말 사용하기 쉽습니다. . .

게다가, 나는 또한 그것을 발견했다.qingyan의 사물에 대한 인식은 단순한 범주를 뛰어넘습니다.

예를 들어 이 게임 컨트롤러가 소니 제품인지 마이크로소프트 제품인지 묻는다면 컨트롤러의 형태 디자인을 기준으로 분석할 수 있습니다. 이것이 바로 마이크로소프트의 xbox입니다. 단순히 이것이 게임 컨트롤러라고 알려주거나, 단순히 혼란스러워서 명확하게 설명하지 못하는 것이 아닙니다.

이 고대 피처폰인 노키아의 세부 모델도 있는데, 구체적인 모델은 n95이고, 2007년 클래식 모델이다.

나중에 나는 qingyan에게 컴퓨터 시스템을 식별하고 tony의 사진을보고 tony의 나이를 추측하고 유명인 사진을보고 사람들의 이름을 추측하도록 요청했습니다. . . 이렇게 말하면 qingyan을 사용하기 시작한 이후로 이제 화상 통화를 열고 내가 발견한 모든 것에 대해 물어보고 싶습니다.

물론, 실제로 영상통화의 형태는 다양합니다.실제 시나리오。

우리 편집부의 일상적인 주제와 정보 검색을 예로 들어 보겠습니다. 이틀간 자동차 업계의 핫스팟은 기본적으로 청두 모터쇼와 뗄래야 뗄 수 없는 관계입니다. 이때 qingyan에게 청두 모터쇼에 대해 물어보고 찾아보세요. 대화 중 영감을 주는 주제.

주로 qingyan이메모리 기능, 저번 영상 통화 때 이 얘기를 했고, 다음에 열었을 때 올라와서 오토쇼에서 어떤 신에너지차를 따라갔는지 물어보더군요.

부모들이 가장 고민하는 숙제 과외도 있다. 예전에는 ai 상호작용이 여전히 사진 찍고 질문 올리는 방식이었지만, 영상통화로 대체하면 일대일 과외와 동일해진다. 온라인 튜터와의 숙제 과외 1회.

나는 qingyan에게 낮은 난이도의 수학 문제를 달라고 요청하려고 했습니다.초등학교와 중학교의 간단한 대수 문제는 거의 풀 수 없습니다.

문제를 해결할 때 qingyan이 전체 과정을 한꺼번에 알려주지도 않고, 단지 하나의 결과만 알려주지도 않고 단계별로 안내하여 사고 과정을 갖게 한다는 점을 눈치채셨는지 모르겠습니다.

수학 외에도 중국어, 영어도 하나씩 시도해 보았습니다. qingyan은 선배 교사라고 할 수는 없지만.매일의 숙제, 단어 암기, 고대시 암기에는 완전히 충분합니다.

이 장면들만으로는 충분하지 않다고 생각한다면, 좀 더 상상력을 발휘해보자.

처음으로 요리를 해본 경험도 없고, 방의 전구도 깨져 있고, 녹색 식물을 키우는 방법도 모릅니다. . . 인생에서 비슷한 일을 만났는데 어떻게 해야 할지 모르겠다면 qingyan에게 물어보세요.

예를 들어, 많은 어린이들이 당분간 배터리의 양극과 음극을 구분하지 못할 수 있으므로 계산기 배터리를 거꾸로 설치하는 흉내를 내고 몇 단어만으로 문제가 무엇인지 알아냈습니다. 여전히 삶의 상식이 있습니다.

아무튼 요즘은 할 일 없을 때 찾아보는 걸 좋아해서 칭옌을 이용하고 있어요. 게다가 이 장치는 특히나 능력이 뛰어납니다.감성적 가치 제공, 이야기와 농담을 들려주고 모든 문장에 응답하게 하세요.

친구들과 함께 블랙잭을 플레이하고 심판 역할도 할 수 있습니다.

미래에는 마작을 할 수 있고 ai가 장악할 수 있는 수준까지 진화할 수 있을지 궁금합니다. 원문과 음성대화보다 이게 더 재미있지 않나요?

솔직히 말해서, qingyan의 이번 대규모 업그레이드는 여전히 나에게 많은 놀라움을 안겨주었지만, 때로는 여전히 작은 결함도 많이 있습니다.그는 말도 안되는 말을 하고, 사물을 잘못 식별하고, 말도 안되는 소리를 내놓을 수 있습니다.

예를 들어, 내가 블랙잭 심판이었을 때, 나는 9는 4이고 스페이드는 클럽이라고 말한 적이 있다. . .

하지만 openai와 google보다 먼저 중국에서 ai 영상통화를 가능하게 하는 것만으로도우리는 또한 zhipu에게 엄지손가락을 치켜세워야 합니다.

이번에 1차 영상통화 기능은 일부 사용자에게만 제공될 예정이며, zhipu는 가능한 한 빨리 모든 직원이 사용할 수 있도록 규모를 점진적으로 확대해 나갈 예정입니다. 정말 욕심이 많으신 분들이라면qingyan 앱을 다운로드하거나 pc(chatglm.cn)에 로그인하여 사이트에서 내부 테스트를 신청할 수 있습니다.

게다가 지푸(zhipu)를 잘 모르는 친구들도 많을 수 있다. 이렇게 말하면 이 회사는 ai계에서도 최고라고 할 수 있다.인기있는 후라이드 치킨.

특히 올해는 대형 모델에 대한 그들의 행보가 극도로 치열하다. 기본 대형 모델의 미친 반복부터 대형 모델 애플리케이션의 잦은 구현까지 zhipu의 행보는 결코 멈추지 않았다.

이번 kdd에서는 새로운 대형 모델인 glm-4-plus가 언어 이해와 긴 텍스트 측면에서 크게 향상되었습니다.

더욱이 zhipu는 모델을 오픈 소스로 만들 것을 주장해 왔습니다. 데이터에 따르면 zhipu의 오픈 소스 모델의 누적 다운로드 수는2천만 명을 넘어섰습니다.

어쨌든, 이번에는 zhipu가 이러한 '소란'을 주도적으로 이끌었습니다. 국내는 물론 심지어 해외 ai계에서도 머지않아 미친 신제품이 대거 등장할 것으로 예상됩니다.

이는 당연히 우리 사용자에게 좋은 일입니다. 특히 새로운 형태의 상호 작용인 ai 영상 통화의 경우, 더 멀리 나아갈수록 응용 시나리오에서 상상의 범위가 더 커집니다.

예를 들어 안경이나 목걸이에 ai가 설치된다면 미래에는 휴대폰이 필요 없을 수도 있고, 시각 장애인의 목발에 설치되어 길을 안내할 수도 있고, 체화된 지능과 결합해 길을 안내할 수도 있다. 로봇은 자신이 보는 것을 진정으로 이해합니다.

zhipu ceo zhang peng의 말을 빌리자면:"적어도 우리는 아직 그것을 본 적이 없습니다 (일체 포함) 기술 한계”.

ai가 앞으로 어디까지 진화할지, 어떤 가치를 창출할지 생각해 보는 것도 좋을 것이다.

기사 쓰기: 시시

편집하다：장장(jiangjiang)

아트 에디터：환옌

사진, 출처：

분명한 지혜의 말씀

이미지 소스 네트워크의 일부

소식

ai와 영상 통화를 해보니 모든 것에 관해 대화가 가능한 것 같았다. . .

소개

내 연락처 정보