하룻밤 사이에 구글 버전의 GPT-4o와 AI 휴대폰이 모두 마켓에 올라왔습니다

하룻밤 사이에 Google 버전의 GPT-4o와 AI 휴대폰이 모두 출시되었습니다.

2024-08-14

기계 심장 보고서

편집자: Zenan, Chen Chen

Gemini Live는 GPT-4o를 벤치마킹하고 Google AI 휴대폰 제품군 버킷이 온라인 상태입니다.

GPT-4o가 아이폰에 진출하기 전, 구글 제미니가 주도해 모바일 버전을 완성했다.

사람들이 오픈AI '스트로베리 빅모델'을 기대하고 있던 수요일 이른 아침, 구글은 메이드 바이 구글(Made by Google) 행사에서 제미니 라이브(Gemini Live)와 픽셀 하드웨어 제품 시리즈를 공식 출시했다.

오늘 행사에서 구글은 사소한 문제가 있었지만 100% 라이브 시연을 자신있게 진행했다.

나는 휴대폰을 사용하여 사진을 읽으려고 두 번 시도했지만(그러나 저는 삼성을 사용했습니다) 두 번 모두 실패했습니다.

하지만 구글이 말했듯이 우리는 '쌍둥이 시대'에 돌입했습니다.

Pixel 9 시리즈 이후 오늘 출시된 Gemini AI 기능 시리즈는 Android 15가 탑재된 다양한 Android 휴대폰에도 나타날 예정입니다.

Gemini Live: GPT-4o를 벤치마크하고 즉시 온라인에 접속하세요

Gemini Live는 OpenAI 고급 음성 모드를 위해 Google에서 출시한 제품입니다. 이 기능은 ChatGPT와 거의 동일하며 이전에 알파 테스트 단계에 있었습니다.

Gemini Live는 사용자가 Gemini와 자유롭게 대화할 수 있는 모바일 대화 경험을 제공하며, 심지어 타이핑 없이 일반 전화통화처럼 주제를 중단하거나 변경할 수도 있습니다.

Google은 블로그에서 이에 대해 설명합니다. (Gemini 앱을 통해) Gemini Live와 대화하고 10가지 새로운 자연 소리 중 하나를 선택하여 응답할 수 있습니다(OpenAI는 3가지 소리만 제공합니다). 일반적인 대화에서처럼 자신의 속도에 맞춰 말하거나 답변 중간에 중단하고 추가 질문을 할 수도 있습니다.

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930230&idx=2&sn=822b96951da8ef70408c0c546c6c5ae5&chksm=84e43848b393b15e320 f663d6c311ccab54157b0885da6dee24ce8e5260beed4153dfb2a432a&token=2010422951&lang=zh_CN#rd

Gemini Live는 백그라운드에서 애플리케이션이 실행 중이거나 휴대폰이 잠겨 있는 동안에도 Gemini와 계속 대화할 수 있으며, 언제든지 대화를 일시 중지하고 다시 시작할 수 있습니다.

또한 Gemini Live는 다양한 Android 애플리케이션 기능(예: Keep)과 통합되어 Gemini의 사용성이 향상됩니다.

오늘부터 Google은 Android 휴대폰의 Gemini Advanced 사용자에게 이 기능을 영어로만 출시하고 있으며 앞으로 몇 주 안에 iOS 및 더 많은 언어 버전으로 확장할 예정입니다.

그러나 라이브 시연 도중 현장 직원이 콘서트 포스터에 대한 정보를 요청하여 Gemini Live가 두 번 실패했고, 발표자가 제대로 작동하려면 휴대폰을 바꿔야 했습니다. 데모 중에 몇 가지 문제가 있었지만 결과적으로 성공적이었고 Gemini Live는 결국 이미지에서 관련 정보를 추출하고 캘린더에 연결하여 사용자에게 정확한 결과를 제공했습니다.

제품 관리자인 Leland Rechis에 따르면 Google은 Gemini Live가 이 10가지 소리 이외의 다른 소리를 모방하는 것을 허용하지 않는다는 점에 주목할 가치가 있습니다. Google은 저작권법을 위반하지 않기 위해 이러한 조치를 취했을 수 있습니다. 이전에는 OpenAI가 미망인의 목소리를 사용했다는 이유로 후자로부터 고소당했습니다.

전반적으로 이 기능은 단순한 Google 검색을 사용하는 것보다 자연스럽게 주제를 더 깊이 탐구할 수 있는 좋은 방법인 것 같습니다. Google은 Gemini Live가 Google I/O에서 데뷔한 다중 모달 AI 모델인 Project Astra의 한 단계 발전이라고 언급합니다. 현재 Gemini Live는 음성 대화만 지원하며 Google은 향후 실시간 영상 이해 기능을 추가할 예정입니다.

칩 축복, 구글 하드웨어가 온다

Gemini Live 출시와 동시에 Google은 Apple 및 Huawei보다 먼저 차세대 스마트 하드웨어 장치를 출시했습니다.

오늘 오전 새로 출시된 하드웨어에는 Pixel 9, Pixel 9 Pro 및 Pixel 9 Pro XL과 접이식 스크린 휴대폰 Pixel 9 Pro Fold가 포함되며, 모두 새로운 Google Tensor G4 칩으로 구동되어 다양한 생성 AI 기능을 제공할 수 있습니다. .

Pixel 9 휴대전화는 카메라를 전면과 중앙에 배치하여 상징적인 카메라 모듈을 개선하고 손에 쥐는 느낌을 향상시키는 새로운 디자인을 특징으로 합니다. 구글은 이 휴대폰이 픽셀 8보다 내구성이 두 배 더 뛰어나다고 주장합니다.

이번에 처음으로 Pixel Pro 모델은 Pixel 9 Pro(6.3인치)와 Pixel 9 Pro XL(6.8인치)의 두 가지 크기로 제공되며, 둘 다 Super Actua 디스플레이와 42MP 전면 카메라를 갖추고 있습니다. 디스플레이 크기, 충전 속도, 배터리를 제외하면 Pixel 9 Pro와 Pixel 9 Pro XL은 동일한 사양과 기능을 공유합니다.

Pixel 9 휴대폰이 Google의 새로운 맞춤형 칩 Tensor G4를 사용한다는 점은 주목할 가치가 있습니다. 이는 더 빠른 앱 열기, 웹 검색 등과 같은 일상적인 사용 사례를 개선하도록 설계된 차세대 고성능 휴대폰 칩입니다.

Tensor G4는 Google DeepMind에서 설계하고 Samsung에서 제조했으며 Arm 아키텍처를 사용합니다. G4는 가장 발전된 인공지능 모델을 실행하는 데 최적화되어 있습니다. 이는 다중 모드 Gemini Nano 모델을 실행하는 최초의 프로세서가 될 것입니다. 이를 통해 대형 모델은 휴대폰 측에서만 텍스트, 이미지 및 오디오와 같은 작업을 이해할 수 있습니다.

현재 뉴스에 따르면 Tensor G4는 현재 세대 기술과 동일한 코어를 사용하는 이전 제품과 동일합니다. 이는 곧 9월에 역방향 칩셋이 될 것임을 의미합니다. Mali라는 정적 GPU 코어는 Ray Tracing이 지원되지 않음을 의미합니다. 지원됩니다(지원되는 버전은 Immortalis라고 함). 그럼에도 불구하고 저와 비교해 보면 이전 세대 제품에 비해 성능 향상은 여전히 상당합니다.

물론, DeepMind가 개발한 칩인 Tensor G4는 뛰어난 AI 컴퓨팅 성능을 갖추고 있으며 초당 45개의 토큰이라는 '업계 최고의' 출력 속도를 가지고 있다고 Google은 밝혔습니다.

기기에서의 AI 경험이 원활하게 실행될 수 있도록 Google은 Pixel 9 시리즈의 메모리를 12GB RAM으로 업그레이드했으며 Pixel 9 Pro 및 Pixel 9 Pro XL에는 16GB RAM이 제공됩니다.

Pixel 시리즈는 항상 Google 기술 애플리케이션의 벤치마크 역할을 해왔습니다. 새 휴대폰에는 Gemini Live가 탑재되어 있으며 8월에 판매될 예정입니다. 구글은 픽셀 9 프로, 픽셀 9 프로 XL, 픽셀 9 프로 폴드 사용자가 휴대폰 구매 후 1년 Gemini Advanced 구독을 즐길 수 있다고 밝혔습니다. OpenAI 대형 모델을 탑재한 아이폰16 시리즈와 비교하면, 이번에는 구글이 한발 앞선 성과를 거둔 것으로 보인다.

Google은 Pixel용 생성 AI 기능 시리즈를 도입했습니다.

그중에서도 Pixel Studio는 아이디어를 휴대전화의 이미지로 변환하는 데 도움을 줄 수 있습니다. 이는 Tensor G4에서 실행되는 장치측 확산 모델과 클라우드의 Imagen 3 텍스트-이미지 모델로 구성됩니다.

Google의 새로운 이미지 모델인 Imagen 3는 지난 5월 I/O 컨퍼런스에서 처음 공개되었습니다. 모델은 디테일 생성, 조명, 간섭 등의 측면에서 최적화 및 업그레이드되었으며 프롬프트 이해 능력이 크게 향상되었습니다. 오늘 기자회견에서 Google DeepMind는 arXiv에 Imagen 3 논문을 제출했습니다.

논문 링크: https://arxiv.org/abs/2408.07009

Pixel Screenshots를 사용하면 나중에 기억하고 싶은 중요한 정보를 저장, 구성 및 불러올 수 있습니다.

다람쥐를 좋아하는 친구가 있는데 곧 그 친구의 생일이 된다고 가정해 보겠습니다. Google Chrome에서는 선물을 검색하고 다람쥐 셔츠, 다람쥐 컵받침, 다람쥐와 관련된 모든 것의 스크린샷을 찍을 수 있습니다. 픽셀 스크린샷은 이러한 모든 이미지의 콘텐츠를 분석하고 앱에서 이 정보를 검색하는 데 도움을 줍니다. 그런 다음 앱을 열고 "다람쥐"를 검색하면 해당 결과가 나타납니다. 또한 귀하가 찾고 있는 콘텐츠에 대한 요약 및 관련 정보뿐만 아니라 귀하가 찾는 모든 것에 대한 링크도 포함됩니다.

사람들이 휴대폰으로 가장 흔히 하는 일 중 하나는 날씨를 확인하는 것입니다. Pixel Weather는 보다 정확한 날씨 정보를 제공할 수 있으며, Gemini Nano는 사람들이 그날의 기상 조건을 이해할 수 있도록 맞춤형 AI 날씨 보고서도 생성합니다.

모든 휴대폰에 필요한 사진 촬영 측면에서 픽셀 9에는 AI 촬영 기능을 추가해 영화 제작 효율성을 높인다.

단체 사진에는 지정된 사진사가 누락되는 경우가 많습니다. Add Me를 사용하면 삼각대를 들고 다니거나 낯선 사람에게 도움을 요청할 필요 없이 방에 있는 모든 사람과 함께 사진을 찍을 수 있습니다.

새롭게 디자인된 파노라마를 사용하면 어두운 조명에서도 상세한 사진을 촬영할 수 있습니다. 이는 모든 스마트폰에서 사용할 수 있는 최고 품질의 저조도 파노라마입니다.

또한 Google 포토의 Magic Editor에는 원하는 사진을 찍을 수 있는 새로운 편집 기능이 있습니다. 자동 프레이밍 기능을 사용하면 사진의 구도를 다시 잡을 수 있으며 보고 싶은 것만 입력하면 됩니다(예: 빈 공간에 야생화 추가). 분야) 즉, 사진을 재구성하고 아이디어를 현실로 만들 수 있습니다.

대형 모델의 스마트 통화 녹음도 이제 Android 시스템에 통합되었습니다. Clear Calling 기능은 오디오 품질을 더욱 향상시키며, 새로운 통화 메모 기능은 사용자가 전화를 끊자마자 개인 요약 및 전체 통화 기록을 보냅니다. 따라서 전화를 받았을 때 메모하기 위해 종이와 펜을 서둘러 찾을 필요가 없습니다. 개인 정보 보호를 위해 통화 녹음은 전적으로 기기 내에서 실행됩니다.

최신 Pixel 9 기기는 새로운 위성 SOS 기능을 갖춘 최초의 Android 휴대전화입니다. 따라서 사용자는 모바일 네트워크가 없을 때에도 긴급 구조원에게 연락하고 위성을 통해 위치를 공유할 수 있습니다. 위성 SOS는 이동통신사 요금제에 관계없이 미국의 Pixel 9 기기에서 먼저 사용할 수 있습니다. 이 기능은 Pixel에서 처음 2년 동안 무료로 제공됩니다.

마지막으로 가격은 Pixel 9, Pixel 9 Pro, Pixel 9 Pro XL 모두 각각 799달러, 999달러, 1,099달러부터 선주문 가능합니다. Pixel 9 및 Pixel 9 Pro XL은 8월 22일부터 Google 스토어와 Google 소매 파트너를 통해 구매할 수 있습니다. Pixel 9 Pro는 9월 4일 미국에서 출시될 예정이며, Pixel 9 Pro Fold는 앞으로 몇 주 안에 다른 시장에서도 출시될 예정입니다.

참고 내용:

https://blog.google/products/pixel/google-pixel-9-pro-xl/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

소식

하룻밤 사이에 Google 버전의 GPT-4o와 AI 휴대폰이 모두 출시되었습니다.

소개

내 연락처 정보