다시 활기가 넘쳤어요! openai의 강화 버전 'her' 정식 오픈, gemini '프로덕션급' 업그레이드 능가…

다시 활기가 넘쳤어요! openai의 향상된 버전 'her'가 공식 오픈되어 gemini의 '프로덕션 등급' 업그레이드를 뛰어넘었습니다.

2024-09-25

저자│제시카

오늘은 정말 오랫동안 볼 수 없었던 ai 서클에 활기가 넘치는 날입니다!

어제 울트라맨이 올린 ai 에세이를 보고 혼란스러웠는데, 이제 그의 작전 의도가 명확해졌습니다.

ultraman은 그의 오랜 적 google을 공격하고 싶어합니다. 더 정확하게 말하면 google이 오늘 업데이트한 두 가지 업그레이드된 gemini 모델인 gemini-1.5-pro-002와 gemini-1.5-flash-002입니다.

저격 방법은 간단하고 투박합니다. 많은 기대를 모았던 gpt 음성 기능이 오늘 정식 오픈된다는 사실을 직접 알리는 것입니다.

2시간도 채 안 되어 구글은 힘들게 얻은 하이라이트 순간을 빼앗았습니다. 내가 구글이었다면 정말 화가 났을 것이다.

50개 이상의 언어를 구사하는 gpt 고급 음성이 출시되었습니다.

openai는 chatgpt의 고급 음성 모드가 이번 주에 모든 plus 및 team 사용자에게 점진적으로 출시될 것이라고 밝혔습니다.

사람들이 인내심을 갖고 기다리는 동안 팀은 사용자 정의 명령 추가, 메모리 기능, 5개의 새로운 음성, 향상된 악센트 등 일부 기능을 개선했습니다.

너무 오랫동안 화제가 되었기 때문에 openai는 "50개 이상의 언어로 '미안해요, 늦었어요'라고 말할 수 있다"는 특별한 성명을 발표했습니다.

그리고 영어에서 중국어로 전환하는 예를 들어보세요. "할머니, 죄송해요. 늦어서요. 이렇게 오래 기다리게 하려는 건 아니었는데 어떻게 보상할 수 있나요?"

—— 좋은 사람, 이제 당신은 gpt의 할머니가되어 나에게 당신을 용서하게 만들었습니다.

영상에서 볼 수 있듯이, 음성 모드는 이제 openai가 5월에 기술을 시연할 때 사용한 검은색 애니메이션 점이 아닌 맥동하는 파란색 구체로 표시됩니다.

액세스 권한이 부여되면 앱 내에 메시지가 표시됩니다. 먼저 plus 및 teams 수준 사용자에게 공개되며 다음 주부터 기업 및 교육 사용자에게도 확장될 예정입니다.

chatgpt는 또한 arbor, maple, sol, spruce 및 vale의 5가지 새로운 경험 목소리를 추가합니다. 현재 이전 breeze, juniper, cove 및 ember를 더해 총 chatgpt 음성 수가 9개에 도달했습니다(google의 gemini live 음성 수는 10개입니다).

또한 "단풍나무", "바람"부터 "태양", "계곡"까지 이러한 이름이 모두 자연에서 영감을 받아 사용이 더 자연스럽게 느껴지도록 했다는 점을 눈치채셨을 것입니다. 빠진 목소리 중 하나는 openai가 봄 출시 당시 선보였지만 영화 'her'의 주연인 스칼렛 요한슨과의 법적 분쟁으로 인해 취소된 목소리인 sky였습니다.

openai는 또한 사용자가 응답을 개인화할 수 있는 "사용자 정의 명령" 기능과 chatgpt가 향후 참조를 위해 대화를 기억할 수 있는 메모리 기능을 포함하여 chatgpt의 사용자 정의 기능 중 일부를 고급 음성 모드로 확장했습니다.

예를 들어, 아래 동영상에서 시스템 설정의 사용자 정의 chatgpt 메뉴에 "제 이름은 charlotte이고 저는 san francisco bay area에 살고 있습니다."라고 입력합니다. 주말 야외 활동에 관해 질문을 받으면 gpt는 사용자 charlotte에게 전화를 겁니다. 현지 날씨와 교통상황에 맞는 추천을 제공합니다.

openai는 팀이 일부 외국어의 응답 속도, 유창함 및 억양을 향상했다고 말했습니다. 목소리는 대화의 톤에 맞춰 조정되며, 목소리가 다양한 역할을 맡도록 유도하는 장면을 만들 수 있습니다. 소리 지연이 매우 낮고 이해력이 더 강해졌습니다. 정말 다른 사람과 자연스러운 대화를 나누는 듯한 느낌이 듭니다.

하지만 4개월 전 오픈ai가 시연했던 영상과 화면 공유 기능은 이번에도 업데이트되지 않았다. 당시 직원들은 종이에 적힌 수학 문제와 컴퓨터 화면에 나오는 코드에 대해 gpt에 질문했고, 자연스러운 음성 대화를 통해 실시간 답변을 얻었다. 현재 openai는 이 다중 모드 기능에 대한 출시 일정을 제공하지 않았습니다.

또한 유럽 연합, 영국, 스위스, 아이슬란드, 노르웨이, 리히텐슈타인 및 기타 지역에서는 고급 음성 모드가 일시적으로 공개되지 않습니다.

그럼에도 불구하고 마침내 openai 버전의 "her"를 직접 체험할 수 있게 된 것은 ai 서클에 지친 사람들에게 참으로 흥미로운 일입니다. 열풍을 일으킨 o1-preview와 함께 openai는 일주일 동안 업계를 확고하게 장악했습니다.

이러한 흥분으로 인해 모든 사람은 간헐적인 기억상실증에 시달렸습니다.

그런데 오늘 google은 무엇을 게시했나요?

gemini 1.5는 두 가지 새로운 모델을 업그레이드하고 가격은 절반으로 낮추고 속도는 높입니다.

이번 google의 업데이트는 사실 적어도 개발자에게는 매우 중요합니다.

google 블로그에 따르면 이번에는 gemini-1.5-pro-002 및 gemini-1.5-flash-002라는 두 가지 프로덕션 등급 gemini 모델을 업데이트했습니다. 소위 '생산 수준'이란 ai 모델이 완전히 개발, 테스트 및 최적화되어 상업적 배포 준비가 완료되었음을 의미하며, 수많은 사용자 요청을 처리할 수 있으며 단지 서비스에만 적용할 수는 없습니다. 실험이나 연구.

올해 5월 i/o 컨퍼런스에서 공개된 gemini 1.5 시리즈 모델의 주요 업그레이드인 새 모델은 더욱 빠르고 강력하며 비용 효율적입니다.

주요 내용은 다음과 같이 요약됩니다.

1. 상당한 가격 인하: 1.5 pro의 입력 및 출력 가격이 약 50% 하락하여 특히 128k 토큰보다 작은 팁의 경우 구축 비용이 크게 절감되었습니다.

2. 전반적인 품질 개선: 특히 수학, 코드 생성, 긴 텍스트 컨텍스트 및 시각적 작업의 성능 개선이 상당하며, math 및 hiddenmath와 같은 벤치마크 테스트에서 약 20% 증가하고 2%-7% 증가했습니다. 시각적 및 코드 애플리케이션에서.

3. 속도 제한 증가: 1.5 flash 및 1.5 pro의 속도 제한이 각각 1000rpm(분당 요청 수) 및 360rpm에서 2000rpm 및 1000rpm으로 증가되어 개발자가 작업을 더 빠르게 구축하고 처리할 수 있습니다.

4. 더 빠른 출력 및 더 낮은 대기 시간: 출력 속도는 2배 증가하고 대기 시간은 3배 감소하여 보다 효율적인 애플리케이션 시나리오를 지원합니다.

5. 보다 간결한 응답: 응답 스타일이 보다 간결하고 비용이 저렴하며 출력 길이가 5%-20% 단축됩니다. 또한 많은 주제에 대한 거부 및 회피 횟수가 줄어들고 높은 유용성을 유지합니다.

6. 다중 모드 및 긴 컨텍스트 지원: 1.5 pro의 200만 토큰 긴 컨텍스트 창은 1,000페이지 pdf 또는 긴 비디오의 콘텐츠 생성과 같은 긴 텍스트 및 다중 모드 작업 처리를 지원합니다.

7. 업데이트된 필터링 설정: 모델의 기본 보안 필터는 더 이상 자동으로 적용되지 않으며 개발자는 필요에 따라 모델의 보안 설정을 사용자 정의할 수 있습니다.

개발자는 google ai studio와 gemini api를 통해 두 가지 최신 모델에 무료로 액세스할 수 있습니다. 대규모 조직과 google cloud 고객을 위한 vertex ai에서도 새 모델을 사용할 수 있습니다.

gpt의 그늘에 가려진 쌍둥이자리

그러나 동종업체에 비해 많은 일반 사용자들은 구글의 움직임에 실망감을 표하며 이것이 진정한 '출시'조차 아니라고 느꼈다.

abacus.ai ceo이자 유명 블로거인 bindu reddy는 "아아, openai는 iq 테스트를 통과한 o1을 출시했고 google은 gemini 1.5에 약간의 업데이트를 했습니다. 그들은 100배의 리소스, 10배의 재능, 10배의 리소스를 보유하고 있습니다. 이 모든 일 중에 어떻게 이런 일이 일어날 수 있겠습니까?”

예를 들어 일부 개발자는 여전히 google을 대표하지만 reddit 토론 포럼의 한 네티즌은 다음과 같이 말했습니다.

"이것들은 실제로 애플리케이션을 구축하고 비용을 절감하고 수익을 늘리려고 노력하는 사람들에게 유용한 것입니다. 제가 작업 중인 애플리케이션은 토큰 길이에 따라 결정되는 작업당 고정 비용이 있는데, 이것이 제 수익을 30% 정도 더 많이 줍니다. 이는 대부분의 사람들에게 별 의미가 없을 수도 있습니다. 많은 사람들이 google의 이 "발표"에 대해 화를 낼 것이라는 것을 알고 있습니다. 그러나 이는 실제로 개발자에게는 좋은 업데이트입니다.

가격은 절반으로 줄어들고, 속도는 빨라지고, 지연 시간은 줄어듭니다. 이것이 바로 개발자가 원하는 것입니다. 그러나 모두가 말했듯이 매력은 개발자 커뮤니티로 제한될 수 있습니다.

심지어 일부 개발자들은 "claude나 o1과의 비교가 보이지 않는다. 그리고 우리는 차세대 openai와 anthropic 모델을 선보일 예정이다. deepmind는 실제로 훨씬 뛰어난 모델을 가지고 있지만 기업 라인으로 직접 진출하고 있다. 폭스바겐을 우회하는 제미니는 전혀 인상적이지 않고 그저 실망스럽습니다.”

google의 형편없는 모델 이름 지정 역시 네티즌들로부터 길고 혼란스럽다는 조롱을 받았습니다.

더 인포메이션은 최근 'ai 개발자들이 구글의 제미니를 건너뛰는 이유'라는 제목의 기사를 게재했다. 여러 ai 회사 창립자 및 google 내부 직원과의 인터뷰를 통해 gemini가 개발자에 의해 "버림"된 과정과 chatgpt를 따라잡는 데 직면한 장애물과 어려움에 대한 이야기를 들려줍니다.

예를 들어 경쟁 기술에 비해 gemini를 호출하는 것은 개발자와 기업에게 너무 복잡합니다. 토폴로지 창립자인 aidan mclaughlin은 openai의 api를 처음 사용할 때 30초밖에 걸리지 않았지만 gemini를 사용할 때는 4시간이 걸렸다고 말했습니다. 동시에 google의 대규모 모델 성능은 openai 및 anthropic에 뒤져 있으며 이러한 장애물을 극복할 가치가 없습니다.

chatgpt에 비해 gemini가 개발자들 사이에서 인기가 없다는 것은 현실 세계에서는 공공연한 비밀인 것 같습니다.

엔터프라이즈 소프트웨어 스타트업인 retool이 750명 이상의 기술 직원을 대상으로 한 6월 설문조사에 따르면 응답자의 2.6%만이 ai 애플리케이션 구축에 gemini를 가장 자주 사용한다고 답했으며, 76% 이상이 gpt를 사용하기로 선택했습니다.

유사한 웹(similarweb)이 추적한 웹사이트 트래픽 데이터에 따르면 6월과 8월 사이에 openai의 애플리케이션 개발자 페이지는 8,280만 회에 달하는 페이지 조회수를 기록했고, google의 페이지 조회수는 840만 회에 달했습니다.

소규모 비공식 설문조사도 유사한 증거를 제공합니다. 지난 달 말, finetune 창립자 julian saks는 샌프란시스코에 있는 자신의 공동 작업 공간에서 ai 스타트업 개발자 50명에게 가장 많이 사용하는 대화형 ai 모델이 무엇인지 물었습니다. 거의 모든 사람들이 anthropic이나 openai의 모델을 주로 사용한다고 말했고 gemini에 대해서는 아무도 언급하지 않았습니다.

gemini 모델은 긴 문서나 긴 코드 베이스를 분석할 때 유용하지만 많은 개발자는 google의 모델 옵션이 다양하고 단계가 복잡하며 개발자 시스템이 openai와 다르고 사용하기가 더 어렵다고 말합니다. 그리고 때로는 google의 다양한 서비스가 자체 검색 결과에서 서로 경쟁하기 때문에 사람들이 도구를 알아내려고 애쓰는 일이 쉽사리 발생합니다.

이런 이유로 gemini는 종종 x에 대해 조롱을 받습니다. 보안 스타트업 xbow의 ai 연구원인 brendan dolan-gavitt는 이번 달 초 vertex를 통해 gemini를 시작하기 위해 취한 수많은 단계를 자세히 설명하는 트윗을 게시하면서 입소문을 냈습니다. 다른 개발자들은 댓글 섹션을 통해 동정을 표했습니다.

"세계 최고의 엔지니어들이 openai, claude 또는 cursor를 사용하고 있는" 환경에서 개발자는 실제로 다른 것을 시도할 필요가 없습니다. 반면 사용량 감소로 인해 gemini는 chatgpt만큼 많은 데이터 피드백을 얻을 수 없게 되어 google은 모델 개선에 있어 더욱 모호한 로드맵에 직면하게 됩니다.

사람들이 google에 너무 많은 것을 기대하기 때문에 실망함

google은 x에 대한 gemini에 대한 비판에 대응하고 openai와 같은 회사의 스타 기술 전문가를 더 많이 영입하고 일부 중복되는 개발 기능을 병합하는 등 이러한 인식을 바꾸려고 노력하고 있습니다. 또한 개발자 이벤트를 주최하여 gemini를 홍보합니다.

오늘 gemini-1.5-pro-002 출시와 동시에 gemini for work에 대한 온라인 이벤트도 진행됩니다. google은 best buy, snap, ups capital, 웨이페어 등 어느 정도 '흰 장갑' 서비스를 제공해 더 많은 대기업 고객을 유치하려는 노력을 하고 있는 것으로 알려졌다.

하지만 확고한 시장점유율 앞에서 구글의 반격은 그리 쉽지 않을 수도 있다.

올해 4월 openai에 합류하기 전 openai에서 개발자 관계를 담당했던 ai studio의 제품 책임자인 logan kilpatrick은 "현실적으로 openai는 llm api 개발자 도구 측면에서 google보다 앞서 있습니다. 우리는 openai와 경쟁해야 합니다. 개발자들 사이의 현재 개발 노력은 확고한 시장 점유율을 위해 싸우고 있습니다.”

앞서 ai계의 유명 블로거인 로완 청(rowan cheung)은 ai 모델의 대대적인 업그레이드에 대한 인터뷰를 마쳤다고 예측했다.

해당 트윗에는 “왜 클로드 오푸스 3.5가 아닌가?”라며 아쉬움이 가득한 가운데 로건 킬패트릭의 웃는 표정이 조금 당황스러워 보였다.

보수적이고 논란이 많으며 뒤처지는 것은 ai 거대 기업인 구글이 오늘날 커뮤니티에 남긴 고정관념이다. gemini-1.5-pro-002의 출시는 이러한 교착상태를 해소하지 못하는 것 같습니다.

이 회사에 대한 사람들의 실망은 이 회사에 대한 높은 기대에서 비롯됩니다. 이렇게 강력한 힘과 보유 인재로 인해 모든 사람이 openai에 대한 더 많은 "대체" 옵션을 세상에 제공할 수 없다는 것은 안타까운 일입니다.

소식

다시 활기가 넘쳤어요! openai의 향상된 버전 'her'가 공식 오픈되어 gemini의 '프로덕션 등급' 업그레이드를 뛰어넘었습니다.

소개

내 연락처 정보