소식

Google, Gemini Live 출시: AI 음성 채팅 지원 및 인터뷰 장면 시뮬레이션 가능

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT하우스는 오늘 열린 구글의 픽셀9 시리즈 휴대폰 출시 컨퍼런스에서,Gemini Live 서비스가 출시되었으며 오늘부터 영어권 Gemini Advanced 가입자에게 제공됩니다.


자연스럽고 원활한 대화를 촉진합니다.

구글은 제미니 라이브(Gemini Live)가 사용자가 제미니와 자유롭게 대화할 수 있는 모바일 대화 경험을 제공한다고 밝혔다.

Gemini Live는 OpenAI ChatGPT가 출시한 최신 고급 음성 모드(제한된 알파 테스트)라고 할 수 있습니다. 향상된 음성 엔진을 채택하고 더욱 일관되고 감정적으로 표현되며 현실적인 다각적 대화를 수행할 수 있습니다.


구글은 사용자가 후속 질문을 하기 위해 말하는 동안 챗봇을 중단할 수 있으며, 챗봇은 실시간으로 사용자의 말하기 패턴에 적응할 것이라고 말합니다.

IT House에서 번역한 Google 블로그 게시물의 일부는 다음과 같습니다.

Gemini Live(Gemini 앱 사용)를 사용하면 사용자는 Gemini와 대화하고 [10가지 새로운] 자연 소리 중에서 응답할 수 있는 소리를 선택할 수 있습니다. 사용자는 마치 인간 대화에서처럼 자신의 속도에 맞춰 말하거나 답변 중간에 중단하여 명확한 질문을 할 수도 있습니다.

구글은 사용자와 채용 관리자(또는 상황에 따라 인공지능) 간의 대화를 시뮬레이션하고 사용자에게 말하기 기술에 대한 추천과 최적화 제안을 제공하는 Gemini Live의 한 장면을 시연했습니다.

구글 대변인은 이렇게 말했습니다.

Live는 Gemini Advanced 모델을 사용하는데, 이를 좀 더 대화적으로 만들 수 있도록 조정했습니다. 모델의 큰 컨텍스트 창은 사용자가 Live로 긴 대화에 참여할 때 사용됩니다.
다중 모드 입력을 지원하지 않습니다.

Gemini Live에는 아직 Google이 I/O에서 선보인 기능 중 하나인 다중 모드 입력이 없습니다.

구글은 지난 5월, 고장난 자전거 부품의 이름을 지정하거나, 컴퓨터 화면의 코드에 대해 설명하는 등 휴대전화 카메라로 촬영한 사진과 영상을 통해 Gemini Live가 사용자 주변을 보고 반응하는 모습을 보여주는 사전 녹화된 영상을 공개했습니다. 하다.

구글은 멀티모달 입력이 "올해 말"에 출시될 것이라고 밝혔지만 구체적인 내용은 공개하지 않았습니다.