소식

Google 버전의 Her가 게임보다 앞서 있습니다! 클릭 한 번으로 제미니를 소환해 전 세계 52억 대의 단말기를 전복시키다

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개]OpenAI 이전에 Google 버전의 Her가 데뷔합니까? Google의 음성 모델인 Gemini Live는 곧 전 세계적으로 30억 대의 Android 기기와 22억 대의 iOS 기기에서 사용할 수 있게 됩니다. 라이브 시연은 여전히 ​​다소 전복됐지만 구글은 더 이상 기다리지 않고 OpenAI를 물리치고 애플과 맞서 싸울 각오를 다졌다!

OpenAI, 막 막혔나요?

OpenAI의 'Her'에 이어 Google도 AI 음성 기능 출시를 공식 발표했습니다!

방금 'Made by Google' 기조연설에서 구글은 음성 모드인 Gemini Live 출시를 발표했습니다. Gemini Live는 곧 Gemini 모바일 앱에서도 이용 가능합니다.

Google과 OpenAI 간의 군비 경쟁이 다시 시작되었습니다.


OpenAI를 살펴보세요. 3개월 전 획기적인 "Her"는 여전히 Google의 검열을 받는 리듬입니다.

Google의 리더인 Rick Osterloh도 의미심장하게 말했습니다. "우리는 AI에 대한 약속과 다가오는 출시에 대한 슬로건을 너무 많이 들었습니다. 오늘 우리가 보여주고 싶은 것은 진정한 진전입니다!"


또한 이번 프레젠테이션에서 Google은 Gemini가 Android, 앱, 새로운 Pixel 기기에 어떻게 더 깊이 통합될 것인지 자세히 시연했습니다.

구글은 일제히 출시된 픽셀9 시리즈 휴대폰에서 'AI+ 휴대폰'이라는 새로운 형태도 탐색했다. 제미니와 안드로이드, 픽셀이 통합돼 어떤 기기측 AI 제품 형태가 탄생할 것인지.

이제 AI 기반 Android를 통해 Google이 Apple을 이길 수 있을까요?

구글의 'Her'도 여기에 있다

Google에 따르면 Gemini Live는 새로운 모바일 대화 경험입니다.

우리의 기술과 교육을 바탕으로 어떤 직업을 찾을 수 있는지 브레인스토밍하고 싶다면 Gemini가 실시간으로 즉시 대화할 수 있습니다.

이 느낌은 주머니 속에 언제든지 대화를 나눌 수 있는 보살핌을 주는 조수가 있는 것과 같습니다.

그리고 OpenAI와 마찬가지로 Google의 음성 기능도 사용자가 자연스러운 대화 언어로 의사소통할 수 있도록 하며, 응답 역시 인간과 같은 음성과 리듬을 사용합니다.

아래 오디오를 들어보세요. 몇몇 남성과 여성의 목소리는 매우 자연스러운 음색을 가지고 있습니다.

가장 자연스러운 경험을 제공하기 위해 Google은 한 번의 호흡으로 10가지 목소리를 출시했으며, 우리는 마음대로 좋아하는 톤과 스타일을 선택할 수 있습니다.

또한 Gemini Live는 핸즈프리 기능도 지원합니다. Gemini 앱이 백그라운드에 있거나 휴대폰이 잠겨 있어도 일반 전화 통화처럼 대화할 수 있습니다.

또한 언제든지 중단하고 주제를 변경할 수 있습니다. 친숙해 보이죠? 맞습니다. OpenAI의 음성이 할 수 있는 모든 것을 할 수 있습니다.


지난 5월 모두를 놀라게 한 오픈AI의 고급 음성 기능 'Her'는 지난달 말 소수의 알파 테스트 참가자에게만 선별적으로 공개됐다.

속도 측면에서는 Google이 OpenAI를 확실히 능가합니다.

Gemini Live는 이제 Google Gemini 앱을 통해 Android 기기에서 월 19.99달러에 이용할 수 있습니다.

현재 영어 버전이 오픈되어 있으며, 앞으로 몇 주 안에 iOS 버전과 더 많은 언어 지원이 출시될 예정입니다.

반면, 사용자 규모 측면에서 Google의 고급 음성 모드는 OpenAI보다 더 넓은 범위의 잠재 사용자에게 다가갈 것입니다.

아시다시피, 현재 전 세계에는 30억 명 이상의 Android 사용자와 22억 명 이상의 iOS 사용자가 있습니다.

OpenAI의 음성 기능이 실패한 이유 중 일부는 레드팀 테스트에서 AI의 비정상적인 성능과 관련이 있을 수 있습니다.

Google은 이러한 보안 문제를 완전히 해결했나요? 아직 아무도 모르지만, 남들에게 굴복하고 싶지 않은 구글이 이번에 총력을 기울이기로 한 것은 분명하다.

근데 두번이나 뒤집어졌어

유일한 단점은 Gemini Live 라이브 시연 중에 약간의 딸꾹질이 있었다는 것입니다.

Google 임원 Dave Citron이 새로운 Android 휴대폰에서 Google Calendar, Tasks 및 Keep을 연결하는 Gemini의 새로운 기능을 선보였을 때 그는 두 번 연속 뒤집힐 것이라고 예상하지 못했습니다.


그는 먼저 휴대폰으로 샌프란시스코에서 열린 사브리나 카펜터의 패션쇼 홍보 포스터를 찍은 뒤 제미니에게 "내 일정을 확인해서 사브리나 카펜터의 패션쇼에 참석할 시간이 있는지 확인해주세요"라고 물었다.

Gemini의 첫 번째 답변에서 그녀는 문제가 발생하여 다시 시도해야 한다고 말했습니다.


지금 두 번째 단계를 시도했을 때 Gemini는 여전히 응답이 없었습니다.


세 번째(다른 장치를 바꿨음)에야 비로소 결과가 나왔고, 관객들의 환호가 터졌다.


AI 어시스턴트 재정의

이 연설에서 Google은 다음과 같이 말했습니다. Gemini를 통해 그들은 개인 비서가 인간에게 진정으로 유용하다는 것이 더 자연스럽고 대화 가능하며 직관적이라는 것이 무엇을 의미하는지 다시 상상했습니다.

더 많은 앱 연결

좋은 AI 비서를 위한 가장 중요한 키워드는 무엇인가요?

연결하다.

Gemini는 이와 같으며 크고 작은 작업을 완료하는 데 사용하는 모든 Google 애플리케이션 및 도구와 통합됩니다.

그리고 다른 비서와 달리 애플리케이션과 서비스를 전환하는 데 시간을 소비할 필요가 없습니다.

앞으로 몇 주 안에 Google은 Keep, Tasks, Utilities, YouTube Music을 포함한 새로운 확장 프로그램도 출시할 예정입니다.


사진에 나오는 음식은 무엇인가요? Gemini에게 물어보면 모든 것을 나열해 줄 것입니다.

지금 우리가 만찬을 열고 싶다고 가정하면, 제미니는 다양한 무술을 사용할 수 있다──

Gmail에서 누군가가 우리에게 보낸 라자냐 레시피를 찾은 다음 Keep의 쇼핑 목록에 재료를 추가한 다음 Gemini에게 "90년대 말을 상기시켜 달라"고 요청하는 재생 목록을 만들도록 요청할 수 있습니다.

Google의 곧 출시될 캘린더 확장 프로그램에서는 콘서트 포스터 사진을 직접 찍어 Gemini에게 '그 날 시간이 있나요?'라고 물어볼 수 있습니다. 대답이 '예'라면 Gemini에게 알림 설정과 티켓 구매 준비를 도와달라고 요청할 수도 있습니다.


Gemini에게 교수에게 휴학을 요청하는 이메일을 써달라고 요청하고, 대화만으로 마감일을 며칠 더 연장해 달라고 요청하세요.

한 번의 클릭으로 쌍둥이자리를 소환하세요

이제 Gemini는 Android 사용자 환경에 완전히 통합되었습니다.

Android에서만 이렇게 매끄럽고 원활한 상황 인식을 경험할 수 있습니다.

우리가 안드로이드 폰을 들고 있는 한, 우리가 무엇을 하든 필요할 때 제미니가 나타날 수 있습니다.

전원 버튼을 길게 누르거나 "Hey Google"이라고 말하여 쌍둥이자리를 소환하세요!

YouTube를 사용하는 경우 Gemini에게 동영상에 관해 질문할 수 있습니다.

예를 들어 해외 여행 가이드를 만들고 있는데 방금 여행 동영상 블로그를 시청했다고 가정해 보겠습니다. '이 동영상에 대해 물어보세요'를 클릭하면 동영상에 나오는 모든 레스토랑이 나열되어 Google 지도에 추가됩니다. 하나씩 할게요.

아래 그림을 보면 Gemini에서 생성된 이미지를 Gmail 및 Google 메시지에 직접 드래그 앤 드롭할 수 있습니다.


나는 당신이 이 수술의 아름다움을 깨달았다고 믿습니다.

Gemini는 Android에 대한 긴밀한 통합을 구축했기 때문에 AI는 화면 콘텐츠를 읽는 것 이상의 작업을 수행하고 우리가 이미 사용하는 많은 앱과 상호 작용할 수 있습니다.

AI 보조 기능을 갖춘 Gemini 1.5 플래시

그러나 두 가지 문제가 있습니다. 자연어를 더 잘 해석하고 작업을 처리할 수 있는 LLM은 간단한 작업이라도 완료하는 데 더 많은 시간이 걸린다는 것을 의미하는 경우가 많습니다.

그리고 AI가 예상치 못한 행동을 보이거나 부정확한 정보를 제공한다면 그것도 골치 아픈 일이 될 것입니다.

이를 위해 Google은 Gemini 1.5 Flash라는 새로운 모델을 특별히 도입했습니다.

더 빠르게 응답하고 답변의 품질도 더 높습니다.

앞으로 몇 달 안에 Google은 이 모델을 Google Home, 전화 및 메시지와 더 깊이 통합할 예정입니다.

구글은 오늘 공식적으로 AI 비서의 유용성이 어려움보다 훨씬 중요한 변곡점에 도달했다고 밝혔습니다.

Imagen 3 기반으로 2초만에 이미지 생성

회의에서 Google은 새로운 AI 사진 생성 애플리케이션인 Pixel Studio도 출시했습니다.

아름다운 그림을 생성하려면 몇 가지 즉각적인 단어만 있으면 됩니다.


가장 중요한 점은 Imagen 3를 기반으로 구축된 로컬 이미지 생성 APP으로 2초 이내에 다양한 이미지를 생성할 수 있다는 점입니다.


또한 오늘 Imagen 3의 기술 보고서도 공개되었습니다. 기술 세부 사항은 32페이지 분량의 논문에서 확인할 수 있습니다.


논문 주소: https://arxiv.org/pdf/2408.07009

최초의 AI 휴대폰 가격은 한 달에 20크립톤 달러입니다.

이러한 모든 AI 기능은 Google의 최신 휴대전화 하드웨어에 내장되어 있습니다.

이날 행사에서 구글은 픽셀9, 픽셀9 프로, 픽셀9 프로 XL, 2세대 폴더블 스크린 픽셀9 프로 폴드 등 총 4종의 AI폰을 출시했다.


새로운 Pixel 9 시리즈에서 놓치지 말아야 할 것은 AI 기반 카메라 기능입니다.

구글은 이미지 처리 알고리즘인 HDR+파이프라인이 완전히 재구성되어 촬영된 사진의 대비, 그림자, 노출, 선명도, 색상 등이 더 향상되었다고 밝혔습니다.


다음은 Pixel 9 시리즈 휴대폰의 새로운 AI 이미지 편집 기능입니다.

나를 추가하세요

가족 모임, 팀 빌딩, 가족 여행 중에 사진을 찍는 책임을 맡는데 사진에서 당신만 누락되는 경우를 자주 경험하시나요?

그러나 앞으로는 걱정할 필요가 없습니다.

Google의 "Add Me" 기능이 여러분의 아쉬움을 달래줄 수 있습니다.


먼저 단체 사진을 찍어야 합니다. 그러면, 사진 촬영 담당자가 사진 속 인물과 상호작용을 하며, '사진작가'를 포함한 사진을 촬영하게 됩니다.

이때 픽셀은 실시간 AR 기술을 이용해 두 번째 사람에게 첫 번째 사진의 구도와 일치하도록 사진의 구도를 맞추도록 안내한다.

마지막으로 Pixel은 두 이미지를 병합하여 '사진작가'를 포함한 모든 사람이 동일한 사진에 나타나도록 합니다.

다시 상상하다

또 다른 Reimagin 기능은 이해하기 쉽습니다.

이때 Magic Editor의 기능을 사용하면 원하는 효과를 텍스트 상자에 직접 설명할 수 있습니다.

AI는 당신의 아이디어를 현실로 바꿀 수 있습니다.

예를 들어, 사진의 배경, 화산, 일몰, 오로라 및 기타 장면을 수정하고 원하는 대로 재생할 수 있습니다.


자동 프레임

자동 합성은 이미 촬영된 사진을 재구성할 수 있는 매직 에디터의 새로운 기능입니다.

AI를 통해 사진을 확대하고 빈 영역 배경을 생성할 수도 있습니다.


확대 강화

Zoom Enhance는 픽셀 사이의 간격을 자동으로 채우고 세부 사항을 정확하게 예측하여 고품질 촬영 확대 효과를 얻을 수 있습니다.


AI 기능의 실현은 Pixel 9 시리즈의 강력한 칩과 분리될 수 없습니다.

가장 강력한 AI 프로세서: Google Tensor G4

새로운 휴대전화는 Google이 새롭게 설계한 프로세서인 Google Tensor G4를 사용합니다.

구글은 "텐서 G4 칩은 우리의 칩 중 가장 빠르고 가장 강력하다"고 밝혔다.


Google은 작년 Tensor G3를 기반으로 Arm이 제공하는 CPU 및 GPU 코어를 사용하여 4nm 프로세스 기반의 세미 맞춤형 프로세서 Tensor G4를 만들기 위해 삼성과 협력했습니다.

동시에 Google의 자체 모듈을 사용하여 AI, 사진 및 보안 기능도 향상합니다.

G4는 이전 2세대에 비해 웹 브라우징 속도는 20%, 앱 시작 속도는 17%, 일일 애플리케이션 배터리 전력 소모량은 최대 20% 증가한 것으로 알려졌다.


CPU 측면에서 G4에는 3.1GHz에서 실행되는 Cortex-X4 코어 1개, 2.6GHz에서 실행되는 Cortex-A720 코어 3개, 1.95GHz에서 실행되는 Cortex-A520 코어 4개가 장착되어 있습니다.

이에 비해 Tensor G3에는 2.91GHz에서 1개의 Cortex-X3 코어, 2.37GHz에서 4개의 Cortex-A715 코어, 1.70GHz에서 4개의 Cortex-A510 코어가 있습니다.

Tensor G4의 코어는 하나 적지만 모든 코어의 클럭은 200MHz~300MHz 더 높습니다.

유출된 Geekbench 점수에 따르면 Tensor G4는 싱글 코어 테스트에서 2,005점, 멀티 코어 테스트에서 4,835점을 기록했습니다. 이에 비해 Tensor G3는 단일 코어 테스트에서 1,751점, 멀티 코어 테스트에서 4,208점을 기록했습니다. 14%의 성능 차이가 있습니다.


GPU의 경우 Tensor G4는 작년 Tensor G3와 동일한 ARM Mali-G715 GPU를 사용하지만 주파수가 890MHz에서 940MHz로 늘어났습니다. 이는 Tensor G4의 GPU 성능이 Tensor G3보다 약간 더 좋아야 함을 의미합니다.


새로운 AI 기능 지원

물론 AI는 Tensor 프로젝트의 주요 원동력 중 하나입니다.

새롭게 디자인된 Tensor G4는 최신 Gemini 및 컴퓨터 사진 기능을 강화하도록 설계되었습니다.


로컬에서 실행할 수 있는 Gemini Nano 모델(가장 큰 버전에는 35억 개의 매개변수가 있음)은 45개 토큰/초의 속도로 콘텐츠를 출력할 수 있습니다.

Google의 TPU는 이미 빠르지만 토큰 처리 측면에서는 경쟁사보다 앞서지 않습니다.

이에 비해 Qualcomm Snapdragon 8 Gen 3는 100억 개의 매개변수를 실행할 때 초당 15개의 토큰을 출력할 수 있으며, MediaTek Dimensity 9300은 초당 20개의 토큰으로 70억 개의 매개변수를 실행할 수 있습니다.

그러나 Pixel 9 시리즈의 고유한 AI 기능은 전적으로 새로운 칩에 달려 있는 것이 아니라 다른 요인의 결과일 수 있습니다.

또한 AI에는 많은 양의 메모리가 필요하며 더 복잡한 모델을 실행하려면 빠르고 큰 메모리 풀에 액세스해야 합니다.

Pixel 9에는 12GB RAM이 제공되며 Pro 시리즈는 16GB로 업그레이드됩니다.

구글은 보다 원활한 AI 경험을 달성하기 위해 다른 애플리케이션이 메모리를 사용하지 못하도록 '기기에서 Gemini를 실행하기 위한 전용 RAM 부분'을 별도로 확보한 것은 이번이 처음이라고 밝혔습니다.

하지만 구글은 그 중 AI 업무에 얼마나 할당됐는지 공개하지 않았다.

칩 자체에는 AI 측면에서 큰 업그레이드가 없지만 RAM 관리 최적화를 통해 여전히 더 나은 AI 경험과 새로운 기능을 제공할 수 있습니다.

참고자료:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-take-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/