소식

meta connect 2024 이해를 위한 기사: llama 3.2 출시, ar 안경 orian 공개

2024-09-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


tencent technology 저자 wu bin hao boyang

편집자 정커준

베이징 시간으로 9월 26일 오전 1시, 미국 캘리포니아주 멘로파크에서 연례 meta connect 2024가 열렸습니다. zuckerberg는 기대되는 신제품 quest 3s로 시작하여 metaverse의 꿈이 보급형 소비자 시장으로 확산되기 시작했다고 발표했습니다.

동시에 meta는 최신 ai 음성 대화 기능인 ai voice와 결합하여 시각적 멀티모달 기능을 제공하는 대형 ai 모델 llama의 최신 3.2 버전도 발표했습니다. 이번 모델 출시의 가장 큰 의미는 meta가 모든 주류 멀티모달 모델을 완성하여 ai와 xr 하드웨어 통합을 위한 탄탄한 기반을 마련했다는 점입니다. 동시에 ai 실시간 번역, 'her 2.0'에 필적하는 실시간 ai 디지털 휴먼 등 meta가 발표한 여러 ai 애플리케이션도 산업 솔루션에서 한 단계 더 발전했으며 킬러 애플리케이션이 될 가능성이 있습니다. .

또한, 이번에 출시된 오리온의 ar 안경은 샤오자가 표면상 가장 강력한 ar 안경이라고 일컬으며, 미래의 메타버스 세계로의 더 많은 입구를 제공합니다. 아직 완벽하지는 않지만 ai 공간컴퓨팅 장비의 최종 형태에 대한 포부를 담은 제품이기도 하다. 외신 보도에 따르면 이 제품의 가격은 1만 달러가 넘는다.

메이트는 여전히 메타버스와 ai라는 두 길에서 계속해서 전진할 것을 고집하며, 제품의 통합을 통해 가상현실과 인공지능의 결합을 위해 노력하고 있습니다.

2024년 커넥트 컨퍼런스에서 저커버그는 자신이 구상한 가상현실 세계의 진입 형태를 다시 한 번 세상에 보여주었다. 제품 및 미래 운영 경험의 통합.

zuckerberg는 기자 회견을 요약합니다: 5개의 신제품 출시, meta는 보다 열린 미래를 구축하기 위해 열심히 노력하고 있습니다

meta quest 3s가 왔습니다. 가격은 인하되었지만 재료는 인하되지 않았습니다.

메타퀘스트 3s가 가장 먼저 등장했고, 이번에는 매개변수와 새로운 기능보다 먼저 제품 가격을 공개하는 경우가 드물었다.

zuckerberg는 이 새로운 vr 안경이 작년 같은 기간에 출시된 quest 3보다 200달러 저렴한 299.99달러에 판매된다는 사실을 모두에게 알리고 싶습니다. 또한 quest 3에 비해 기능이 너무 많지 않습니다.

meta quest 3s는 "큰형" quest 3과 동일한 qualcomm snapdragon xr2 gen 2 칩과 8gb의 실행 메모리를 갖추고 있습니다. 이는 컴퓨팅 데이터에 대한 처리 능력이 정확히 동일하다는 것을 의미합니다.

동시에 quest 3s는 quest 3과 동일한 touch plus 컨트롤러를 사용하고 눈과 손 모션 캡처 기술을 지원합니다.

quest 3s도 배터리 수명이 더 깁니다. meta가 제공한 공식 데이터에 따르면 4324mah 배터리가 내장된 quest 3s는 2.5시간의 배터리 수명을 달성할 수 있는 반면, 더 큰 배터리 용량(5060mah)을 갖춘 quest 3는 최대 2.2시간 동안만 작동할 수 있습니다.

저렴한 가상 현실 안경 제품인 quest 3s의 아쉬운 점은 quest 1 및 2 시리즈와 동일한 프레넬 렌즈를 사용하는 보다 주류인 팬케이크 광학 구조입니다. 가격이 저렴하지만 전체 크기와 무게가 quest 3보다 커진다는 의미이기도 합니다.

그러나 두 제품의 실제 차이점은 디스플레이 효과의 차이입니다. quest 3s는 새로 고침 빈도가 90/120hz인 1832 x 1920(도당 20 ppd 픽셀) 고속 전환 lcd를 사용합니다.

수평 및 수직 시야는 quest 3의 2064 x 2208(도당 25 ppd 픽셀)과 110도 수평 및 96도 수직 시야에 비해 96도 및 90도에 불과합니다.

분명히 quest 3s는 수년 동안 메타버스의 꿈 아래 meta의 야망을 보여주었습니다. 이는 주류 제품에 가깝지만 더 넓은 사용자 기반에 vr 안경의 대중화를 촉진하기 위해 더 저렴한 핵심 구성을 갖춘 가상 현실 안경을 사용합니다.

메타가 이런 제품을 만들게 된 또 하나의 원동력은 아직도 점진적으로 개선되고 있는 가상현실 생태계다.

저커버그는 기자회견에서 퀘스트 3s가 돌비 비전(dolby vision) 기술을 지원하고, 사용 중인 컴퓨터를 식별해 한 번의 클릭으로 화면을 캐스팅할 수 있는 화면 인식 기능을 추가할 것이라고 밝혔다. 이는 quest 3s와 같은 가상 현실 헤드 마운트 제품의 사용 시나리오를 더욱 광범위하게 확장합니다.

그런데 메타가 한 가지 실수를 저질렀는데, 이 기술을 시연하던 중 퀘스트 3s가 갑자기 충돌해 청중들의 환호가 터져나올 수밖에 없었다.

이어서 zuckerberg는 horizon worlds의 최신 버전을 선보였습니다. 여전히 '소꿉놀이' 게임처럼 보이지만 서서히 개선되고 있습니다. 올해는 avantar의 멀티플레이어 youtube 기능이 출시되어 더 많은 youtube 사용자를 유치할 수 있기를 바랍니다.

타사 애플리케이션 측면에서 가장 놀라운 점은 10월 22일 출시되고 새로운 quest 3 및 3s와 함께 번들로 제공되며 내년 4월까지 유효할 "batman: arkham shadow"입니다. 앞서 발표한 '에일리언: 로그 인베이전(alien: rogue invasion)'과 좀비 게임 '애리조나 선샤인(arizona sunshine)'도 퀘스트 플랫폼에서 출시될 예정이다. 또한 meta는 quest용 wordle(뉴욕타임스가 매일 발행하는 단어 게임)을 출시할 예정이라고 발표했습니다.

아, 그런데, 새로운 quest 3s를 구입하기 위해 meta는 quest 2와 quest pro의 재고를 매진한 후 선택할 수 있는 유일한 옵션을 중단하는 데 앞장섰습니다. 더 저렴한 quest 3s이거나 더 저렴한 quest 3s입니다. 더 높은 구성을 갖춘 quest 3입니다.

xiao zha는 가장 강력한 최종 모델인 llama 3.2가 여기에 있다고 말했습니다.

meta, llama 3.2 다중 모드 대형 모델 출시, 휴대폰에서 실행할 수 있는 경량 버전

지난 커넥트 컨퍼런스와 마찬가지로 이번 컨퍼런스에도 빼놓을 수 없는 주인공은 바로 ai다.

zuckerberg는 기본 모델인 llama의 3.2 업데이트를 발표했습니다. 대형 모델은 90b 및 11b 버전으로 제공되며 엔드 사이드 모델은 1b 및 3b 크기로 제공됩니다.

xiao zha는 llama 3.2용으로 개발된 새로운 제품 기능을 시연했습니다. 사진을 업로드하면 마법 브러시 기능을 지우고 추가할 수 있을 뿐만 아니라 텍스트 설명에 따라 캐릭터의 의상을 직접 변경할 수 있고 현재 배경을 무지개로 바꿀 수도 있습니다.

mata에서 제공하는 기술 문서에 따르면 llama 3.2는 다중 모드를 지원하는 llama 3.1 버전으로 직접적으로 이해될 수 있습니다. meta는 이미지 인식 훈련 과정에서 언어 모델의 매개변수를 업데이트하지 않기 때문입니다.

학습 방법 측면에서 meta는 보다 전통적인 방법을 사용하며 llama3.1에 이미지 어댑터와 인코더를 추가하고 diffusion 모델을 사용하여 해당 텍스트와 이미지를 학습한 다음 도메인 콘텐츠를 미세 조정합니다.

마지막으로, 모델 조정의 훈련 후 단계에서 llama 3.2는 감독된 미세 조정, 거부 샘플링(보조 분포를 사용하여 샘플을 생성하고 특정 확률에 따라 샘플을 수락 또는 거부) 및 직접 선호의 여러 라운드도 사용합니다. 최적화 모델을 정렬하세요.

흥미롭게도 이 과정에서 meta는 llama 3.1을 사용하여 모델의 이미지 설명을 최적화하기 위해 여러 이미지 캡션 세트를 생성했습니다.

meta는 llama 3.1을 사용하여 여러 이미지 자막 세트를 생성하여 모델의 이미지 설명을 최적화합니다.

meta가 제공한 테스트 결과에 따르면 llama 3.2 90b 버전의 그래픽 추론 기능은 여러 테스트에서 gpt 4o-mini보다 앞서 있습니다. 11b 버전은 claude 3의 작은 버전인 haiku 버전을 완전히 능가합니다.

zuckerberg는 llama 3.2의 클라이언트 측 버전 1b 및 3b가 가장 강력한 클라이언트 측 ai가 될 것이라고 말했습니다.

현재 텍스트 입력 및 출력을 허용하고 최대 128k 토큰의 컨텍스트 길이를 지원합니다. 이 두 개의 end-side 모델은 llama 3.1 8b 및 llama 3.1 8b에서 pruning(대형 모델에서 활용도가 낮은 매개변수 제거) 및 distillation(대형 모델을 교사로 사용하고 소형 모델 학습의 핵심 매개변수 훈련 모드)을 통해 훈련되었습니다. 70b가 된다. 미세 조정 훈련 과정에서 llama 3.1 405b에서 제공하는 합성 데이터도 추가되어 요약, 재작성, 지침 따르기, 언어 추론 및 도구 사용과 같은 다양한 기능의 성능을 최적화했습니다.

기자회견에서 라마 3.2 3b 버전은 구글이 6월 출시한 젬마 2 2b 모델, 마이크로소프트가 8월 출시한 파이 3.5 3.8b 모델을 많은 지표에서 앞섰으며, 특히 일반적으로 사용되는 단말기 측 기능 등에서는 더욱 그랬다. 요약, 명령 따르기 및 재작성 작업에서 점수 이점은 명백합니다.

예를 들어, 사용자 지침 준수 능력을 테스트하는 테스트 세트 ifeval에서 llama 3.2 3b 버전은 동일한 크기의 phi 3.5에 비해 20% 이상 향상되었습니다. 도구 호출 기능을 테스트하는 두 가지 벤치마크에서 llama 3.2도 분명한 장점을 가지고 있습니다.

이를 통해 llama 3.2는 xiao zha가 현재 장치 측면의 실제 응용 프로그램 경험 측면에서 "가장 강력"하다고 말한 버전이 될 수 있습니다. 그러나 추론, 수학 등 기본 능력 측면에서는 llama 3.2 3b가 phi 3.5 mini에 비해 대부분 뒤떨어져 있습니다.

또한 이 모델은 출시일에 qualcomm 및 mediatek 하드웨어를 지원하며 arm 프로세서에 최적화되어 있습니다.

메타는 이미지의 다중 모드 이해를 지원하는 라마 3.2에 더해 이번에 커넥트에서 메타 ai 보이스(meta ai voice)도 출시했다. 모든 주류 다중 모드 기능을 한 번에 완료합니다. gpt-4o처럼 라이브 시연에서는 대화 중단을 지원할 수 있고 소리도 매우 자연스럽지만, 아쉽게도 gpt-4o의 풍부한 억양과 감정 표현을 보여주지는 못합니다.

성능은 gpt-4o와 동등하지만 meta ai voice는 새로운 판매 포인트를 찾았습니다. 007의 냉담한 여성 보스인 judi dench와 crazy rich asians의 여주인공 등 5명의 유명인에 대한 음성 옵션을 제공합니다. . 주인공 lin jiazhen의 목소리.

스칼렛 요한슨(scarlett johansson)의 목소리를 훔친 혐의로 법정에서 소송을 제기한 openai와 비교하면 meta는 분명히 이 점에서 더 신뢰할 수 있습니다. 월스트리트 저널에 따르면 메타는 각 유명인의 목소리에 "수백만 달러"를 지불했습니다. 일부 유명인들은 자신의 목소리가 사용되는 방식을 제한하고 meta ai가 사용되는 경우 책임을 지지 않기를 원합니다.

"reuters"에 따르면 celebrity voice는 facebook, instagram 및 whatsapp을 포함한 meta의 앱 제품군을 통해 이번 주 미국 및 기타 영어권 시장에서 출시될 예정입니다.

기본 모델 기능을 보완하는 것 외에도 meta는 ai 애플리케이션의 몇 가지 새로운 기능도 시연했습니다. 이러한 기능은 기존 ai 솔루션에서 대부분 지원되지만 meta는 한 단계 더 나아갑니다. 또한 소셜 미디어나 ai 안경의 사용 시나리오에도 더 적합합니다.

예를 들어 meta ai studio는 이제 ai 디지털 휴먼 시스템의 직접 구축을 지원합니다. 라이브 시연에서 디지털 휴먼과의 대화 지연 시간은 매우 낮았으며 모션 효과와 사운드는 실제적이고 자연스러웠습니다.

meta ai studio는 ai 디지털 휴먼 시스템의 직접 구축을 지원합니다.

당신의 감정적인 동반자처럼 실제적인 목소리와 얼굴로 당신에게 말하는 ai가 있다고 상상해 보십시오. 나는 그것을 "보이는" her 2.0이라고 부르고 싶습니다.

ai 컴패니언 제품의 황금기를 맞이할 것인지 여부는 사용자가 추가 테스트를 거쳐야 합니다.

또 다른 매우 놀라운 제품은 meta live 번역입니다. meta ai의 새로운 다중 모드 기능을 통해 원본 언어의 입 모양을 대상 언어의 입 모양으로 직접 인식하고 대체할 수 있습니다. 이 기능은 실제로 heygen과 같은 회사에서 구현되었지만 meta 애플리케이션 적용 범위의 폭을 바탕으로 최초의 완전히 인기 있는 관련 제품이 될 수 있습니다.

llama 3.1은 이미 개발자가 가장 널리 사용하는 오픈 소스 모델이지만 애플리케이션 계층을 더 잘 확장하기 위해 meta는 connect 컨퍼런스에서 최초의 공식 llama 제품 개발 도구인 llama stack 릴리스 버전을 출시하여 작업 흐름을 크게 단순화할 수 있습니다. 다양한 환경에서 llama 모델을 사용하는 개발자의 수를 늘리고 rag(검색 강화 생성) 및 통합 보안 기능과 같은 도구 기반 애플리케이션을 원클릭 배포할 수도 있습니다.

llama 3.2의 출시는 meta에게 매우 중요한 의미를 갖습니다. 이는 최첨단 다중 모드 모델에서 llama의 핵심 단점을 보완하고 ai 지능을 지원하는 ray-ban 안경과 같은 후속 ai 하드웨어 제품의 다중 모드 기능에 대한 기반도 제공합니다.

인기상품 '레이밴 안경', 다리미 뜨거울 때 때려 신제품 출시

지난해 메타커넥트 컨퍼런스에서 가장 인기 있는 제품이 퀘스트3가 아니라 메타와 안경 제조사 레이밴이 출시한 2세대 ai 안경 제품일 것이라고는 누구도 예상하지 못했을 것이다.

1세대는 알려지지 않았지만 유럽과 미국의 기술 매니아들이 2세대 ray-ban 스마트 안경을 구매하기 위해 서두르는 것을 막지는 못합니다. idc 통계에 따르면 meta는 700,000개 이상의 ray-ban 안경을 출하했습니다. 특히 올해 2분기에는 1세대에 비해 수주량이 분기 대비 2배 이상 증가했다. 레이밴 메타안경의 라이프사이클 전체에 걸쳐 2024년 5월 기준 글로벌 판매량은 100만개를 넘어섰고, 시장에서는 2024년 연간 출하량이 150만개를 넘을 것으로 예상하고 있다.

메타는 철이 뜨거울 때 치고 올해 곧바로 신제품을 출시했다.

새제품이라기보다는 전체적인 디자인이 작년과 똑같기 때문에 완전히 새로운 반투명 스타일이라고 표현하는 것이 더 맞을 것 같습니다.

그러나 더 강한 기술 감각을 지닌 투명한 안경 본체를 가지고 있습니다. 예상대로 전 세계의 하드웨어 회사는 반투명해야 하는 "기술 감각"에 대해 동일한 이해를 가지고 있습니다.

메타는 이번 세대 안경에 ai 기능을 더 추가했다. 가장 큰 개선점은 레이밴 메타 안경에 현재 보고 있는 장면이나 사물에 대해 물어볼 수 있는 실시간 인공지능 이미지 인식 기능이 추가됐다는 점이다. 사용자는 안경을 통해 직접 qr 코드를 스캔하고 눈에 보이는 전화번호로 전화를 걸 수도 있습니다.

또한 선글라스는 스마트폰과 같은 알림 기능, 영어에서 프랑스어, 이탈리아어 또는 스페인어를 포함한 실시간 언어 번역, amazon music, audible 및 iheart radio와 같은 음악 스트리밍 앱과의 통합도 지원합니다.

메타가 말하는 ar글래스의 궁극적인 형태, 오리안?

orian은 오래 전에 대량 생산되어야 했지만 전염병으로 인한 meta의 전반적인 예산 부족으로 인해 zuckerberg는 출시를 보류하기로 결정했으며 이로 인해 meta는 2024년까지 첫 번째 ar 안경 제품을 출시하지 못했습니다.

ar 안경 제품 중 특별히 가볍지 않은 무게가 98g에 불과한 ar 안경입니다.

오리안의 프레임은 마그네슘 합금으로 만들어져 알루미늄보다 가볍고 열을 더 쉽게 발산할 수 있습니다. 렌즈는 내구성이 뛰어나고 가벼우며 굴절률이 높은 탄화규소로 제작되어 프로젝터에서 안경에 방출된 빛이 더 넓은 시야 영역으로 확장될 수 있습니다.

하지만 오리안을 ar 안경이라고 부르는 것은 엄격하지 않은 것 같습니다. 제대로 작동하려면 손목밴드 및 컴퓨팅 본체와 협력해야 합니다.

컴퓨팅 본체는 더 많은 처리 능력을 제공하며, 안경은 그것에서 벗어나 단독으로 작동할 수 없습니다. 오리안을 정상적으로 사용하려면 컴퓨팅 본체를 항상 옆에 착용해야 합니다.

손목 밴드는 더욱 흥미로운 작업을 수행합니다. 고성능 직물 소재로 제작되었으며 근전도 검사(emg)를 사용하여 제스처와 관련된 신경 신호를 이해합니다. 몇 밀리초 내에 이러한 신호는 입력 신호로 변환되어 마치 공상 과학 영화처럼 컴퓨팅 에이전트에 전달됩니다.

디스플레이의 경우, 오리온은 화각이 70도이며 프레임에 마이크로 led 프로젝터가 장착되어 렌즈의 실리콘 기판에 이미지를 투사할 수 있습니다. 이는 현재 모든 ar 안경의 작동 원리와 유사합니다. .

저커버그는 사람들이 오리온을 두 가지 주요 목적, 즉 현실 세계에 겹쳐진 디지털 정보와의 소통과 인공지능과의 상호작용으로 활용하길 바란다고 말했다.

후자가 더 이해하기 쉽습니다. 오리온은 새로 추가된 이미지 인식 기능과 언어 상호 작용 기능을 포함하여 ray-ban meta 안경과 동일한 ai 기능을 갖추고 있습니다.

전자가 더 추상적이다. 현장에서 메타는 홀로그램 이미지와 현실 세계를 결합한 장면을 시연했다. 메타는 이 안경에 메신저 애플리케이션의 ar 버전을 개발했는데, 이는 마치 상대방이 옆에 서 있는 것처럼 실시간 홀로그램 프로젝션 영상 통화를 구현할 수 있다. 너.

ar 안경을 홍보하기 위해 meta는 orion을 경험하는 첫 번째 사용자로 huang renxun을 소개했습니다. zuckerberg는 "huang이 사용해 보았는데 좋다고 말했습니다!"라고 말했습니다.

zuckerberg의 견해에 따르면 ar 글래스의 성숙은 점진적인 과정이 될 것입니다. 한편으로는 레이밴 메타 등 디스플레이가 없는 인공지능 안경이 더욱 빠르게 대중화될 전망이다.

한편, 메타 ai와 상호 작용하거나 친구와 소통하는 등 보다 쉬운 터치 상호 작용을 제공할 수 있는 메타의 곧 출시될 하이퍼노바(hypernova)와 같은 작은 디스플레이를 갖춘 안경이 대중화될 것입니다.

xiao zha는 orion이 ar 안경의 최종 형태를 대표한다고 말했습니다. 성숙한 ar 안경은 스마트폰을 집에 두고 다닐 수 있을 만큼 충분한 컴퓨팅 성능을 갖추고 있습니다.

하지만 우리는 휴대폰과 분리되어 있어도 외출할 때 여전히 컴퓨팅 본체를 가지고 가야 하는데, 이는 우리가 상상했던 최종 형태와는 아직 거리가 멀다.

또한 시간에 맞춰 찬물을 쏟아 붓는 대야도 있습니다. 오리온의 배터리 수명은 단 2시간입니다. 쉽게 말하면 오리온은 가상세계에서 슈퍼히어로가 될 수 있는 시간을 단 2시간만 허용합니다.

그리고 ar 안경의 궁극적인 자유를 실현하는 것은 그리 저렴하지 않을 수도 있습니다. 더 버지(the verge), 테크크런치(techcrunch) 등 외신 보도에 따르면 메타 관계자는 테스트 머신을 선보일 당시 오리온의 현재 하드웨어 가격이 1만 달러를 넘는다고 전했다. 이는 이 제품의 가격이 애플의 비전 프로(vision pro)보다 훨씬 높다는 것을 의미한다.

결론

2022년 메타버스의 실패와 많은 이들의 조롱을 받고, 2023년 오픈소스 ai의 왕이 되고, 올해 스마트 안경을 사용해 차세대 ai 하드웨어의 문을 여는 것까지. 저커버그는 지난 3년 동안 거의 불가능에 가까운 반격을 성공시켰다.

이 기간 동안 그의 두 가지 중요한 결정, 즉 오픈 소스 ai 개발과 경량 스마트 안경 개발이 모두 오늘 connect에서 결실을 맺었습니다.

ai 기능이 탑재된 ray-ban 안경의 디스플레이를 통해 우리는 ai 시대의 캐리어로서 안경의 장점을 실제로 확인했습니다. 음성을 사용하여 대형 모델을 호출할 수 있을 뿐만 아니라 잠재력을 가장 직접적으로 활용할 수 있습니다. 멀티모달 ai의 . 직접 '보기'는 휴대폰으로 '스캔'하는 것보다 훨씬 더 자연스러운 사용자 경험입니다. 그리고 이러한 직접성이 차세대 스마트기기의 전환을 결정할 가능성이 높다.

마지막으로 출시된 오리온은 ai 공간 컴퓨팅 장비의 최종 형태에 대한 포부를 담은 미래작이다. 무겁고 불편한 vision pro에 비해 xiao zha의 가벼운 mr 비전은 공간 컴퓨팅의 미래에 더 가깝습니다. 그리고 이제 이 비전이 구체화되었습니다. ai시대 스마트기기의 마이그레이션이 필연적으로 이루어진다면, ai핀과 같은 작은 시도에 비하면 문턱에 가장 가까운 기업은 메타다.

2022년에 이 모든 것에 대해 누군가에게 이야기한다면, 그는 확실히 그것을 믿지 않을 것입니다.약간 수상해 보이는 기술 덕후인 zuckerberg는 실제로 자신의 약속을 지키고 우리를 메타버스의 입구로 점점 더 가까이 데려갑니다.