소식

어려운 시기 openai, 개발자 예산 아끼기로 결정

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

저자│수호이

편집자|왕보

경영진이 떠나고 apple이 자금 조달 협상을 철회하면서 이번 주는 의심할 여지 없이 openai에게 소란스러운 한 주입니다. 그러나 openai는 여전히 개발자가 ai 모델을 사용하여 애플리케이션을 구축하도록 설득하고 있습니다.

미국 현지 시간으로 10월 1일, openai가 샌프란시스코에서 devday를 개최했습니다. 작년의 그랜드 이벤트와 달리 올해의 이벤트는 좀 더 조용하고 개발자를 위한 로드쇼로 바뀌었습니다.

이번에 openai는 주요 제품을 출시하지 않고 대신 기존 제품을 개발하고 있습니다.일체 포함도구와api키트가 점진적으로 개선되었습니다.

그들은 네 가지 혁신을 공개했습니다.비전 미세 조정, 실시간api(실시간 api), 모델 추출 및 프롬프트 캐싱.

예를 들어 실시간 api의 공개 베타 버전을 사용하면 개발자는 ai 음성 응답을 빠르게 생성할 수 있는 애플리케이션을 만들 수 있습니다. 이 새로운 기술은 반응 속도가 빠를 뿐만 아니라 6가지 사운드 옵션도 제공합니다. 사운드는 모두 openai 자체에서 개발되어 제3자 저작권 문제를 방지합니다. 이 api는 chatgpt의 고급 음성 모드를 "복사"하지 않지만 기능은 기본적으로 유사합니다.

openai의 개발자 경험 담당 이사인 romain huet도 o1을 사용하여 약 30초 만에 프롬프트가 표시되는 iphone ios 애플리케이션을 구축하는 방법을 시연했습니다.

yute는 iphone ios 애플리케이션 구축을 시연합니다. 이미지 크레디트 : romain huet의 x

지난 2년 동안 openai는 meta 및 google과 같은 경쟁업체의 시장 압력에 대응하여 개발자가 api에 액세스하는 데 드는 비용을 99% 줄였습니다. 그리고 새로운 도구의 맥락에서 우리는 다음과 같은 사실을 알 수 있습니다.openai의 전략은 최종 사용자 애플리케이션에서 직접 경쟁하기보다는 개발자 생태계를 강화하는 것을 선호합니다.

행사에 앞서 openai의 최고제품책임자인 케빈 웨일(kevin weil)은 cto 미라 무라티(mira murati)와 최고연구책임자 밥 맥그루(bob mcgrew)의사임은 회사의 장기적인 발전에 영향을 미치지 않습니다.그는 "빈번한 인사 변경"에도 불구하고 openai가 여전히 "개발 모멘텀을 유지할 수 있다"고 말했습니다.

google 및 apple과 같은 기술 그룹이 소위 인공 지능 에이전트를 소비자에게 출시하기 위해 경쟁함에 따라오픈ai는 생각한다일체 포함어시스턴트는 내년에 "주류"가 될 것입니다.복잡한 작업을 추론하고 완료하는 것을 포함한 ai 비서의 기능은 빠르게 발전하는 기술을 활용하여 수익원을 창출하기를 희망하는 기술 회사의 최신 전쟁터가 되었습니다.

위어는 “ai의 상호작용 방식이 인간이 상호작용하는 모든 방식을 포괄할 수 있기를 기대한다”며 “에이전트 시스템의 개발은 이러한 상호작용을 가능하게 할 것”이라고 말했다. 언어적 의사소통, 감정 표현, 비언어적 의사소통 등 그 안에 담긴 방법들은 인간과 ai 사이의 상호작용을 최대한 자연스럽고 원활하게 만들어줍니다.

openai 외에도 microsoft, salesforce, workday와 같은 다른 회사도 ai 계획의 핵심에 에이전트 기능을 배치하고 있으며, google과 meta도 ai 모델을 제품에 통합하는 것이 핵심 초점 영역이라고 밝혔습니다.

작년에 openai는 개발자가 openai 기술을 사용하여 에이전트를 구축할 수 있도록 "assistants api"를 출시했습니다. 그러나 그들은 또한 초기 모델의 제한된 기능으로 인해 계획이 방해를 받았다고 밝혔습니다.

weill은 openai의 최신 모델이 제공하는 사고와 추론의 향상이 chatgpt와 같은 제품과 api를 사용하여 애플리케이션을 구축하는 스타트업 및 개발자에 반영될 것이라고 언급했지만 즉시 자체 개발할 것인지는 밝히지 않았습니다. ai 에이전트.

openai는 현지에서 사용 가능한 제품을 찾고 구매하는 데 도움을 주는 ai 시스템과의 실시간 대화를 시연했습니다. 예를 들어 딸기를 구매하면 ai가 판매자에게 전화를 걸어 사용자의 지시에 따라 주문을 하게 된다.

프롬프트에 따라 ai가 딸기를 구매하는 시연 이미지 출처: ken collins' x

openai는 이 기술을 활용하는 사람은 누구나 자신이 인간이 아닌 ai라는 점과 개발자에게 제한된 사전 설정 옵션만 제공할 뿐 새로운 사운드를 생성하는 기능은 제공하지 않는다는 점을 분명히 해야 한다고 강조합니다.

“우리가 올바르게 한다면 중요한 것에 집중할 수 있는 시간이 더 많아지고 휴대폰을 쳐다보는 시간은 줄어들 것입니다.”라고 ware는 말했습니다.

1. 팁 캐싱: 개발자 예산의 구원자

"힌트 캐시" 기능은 이번 이벤트의 가장 중요한 출시 기능 중 하나이며 개발자의 비용과 대기 시간을 줄이는 데 사용됩니다.

ai 애플리케이션을 구축하는 많은 개발자는 코드 베이스를 편집하거나 챗봇과 길고 다단계 대화를 나눌 때와 같이 여러 api 호출에서 동일한 컨텍스트를 재사용합니다. 힌트 캐시는 가장 최근에 표시된 입력 토큰을 재사용하여 모델에서 가장 최근에 처리한 입력 토큰에 자동으로 50% 할인을 적용합니다.

입력 토큰을 캐싱하면 다양한 gpt 모델에서 캐싱되지 않은 토큰에 비해 최대 50%를 절약할 수 있습니다. 이미지 출처: openai

힌트 캐시 가용성 및 가격 오늘부터 힌트 캐시는 최신 버전의 gpt-4o, gpt-4o mini, o1-preview 및 o1-mini와 이러한 모델의 세부 조정 버전에 자동으로 적용됩니다. 캐시된 팁은 캐시되지 않은 팁에 비해 할인을 제공합니다.

지원되는 모델에 대한 api 호출은 1024개 토큰보다 긴 프롬프트의 경우 프롬프트 캐싱의 이점을 자동으로 활용합니다. api 캐시 이전에 계산된 힌트의 가장 긴 접두사로, 마크 1024에서 시작하여 128마크씩 증가합니다. 사용자가 공통 접두사가 있는 힌트를 자주 사용하는 경우 openai는 사용자가 api 통합을 변경할 필요 없이 자동으로 힌트 캐시 할인을 적용합니다.

캐시는 일반적으로 활동이 없으면 5~10분 후에 지워지며 항상 캐시를 마지막으로 사용한 후 1시간 이내에 제거됩니다. 모든 api 서비스와 마찬가지로 팁 캐싱에는 opai의 기업 개인 정보 보호 약속이 적용됩니다. 팁 캐시는 조직 간에 공유되지 않습니다.

상당한 비용 절감은 다양한 기업이 이전에는 구현하기에는 비용이 너무 많이 들었던 새로운 애플리케이션을 개발할 수 있는 기회를 제공합니다.

openai 플랫폼 제품 책임자인 olivier godement는 openai 샌프란시스코 본사에서 열린 소규모 기자 회견에서 다음과 같이 말했습니다. "우리는 매우 바빴습니다. 2년 전에는 gpt-3가 동급 기술을 선도했지만 지금은 거의 1,000- 단 2년 만에 비슷한 규모의 비용 절감을 달성한 기술은 다른 어떤 기술에서도 찾을 수 없다고 자랑스럽게 말했습니다.

2. 시각적 미세 조정: 시각적 ai의 새로운 지평

또 다른 큰 발표는 openai의 최신 대규모 언어 모델인 gpt-4o에 시각적 미세 조정 기능이 도입되었다는 것입니다. 개발자는 텍스트뿐만 아니라 이미지도 미세 조정할 수 있어 자율주행차, 의료 영상, 시각적 검색 기능 등의 영역을 변화시킬 수 있습니다.

텍스트 미세 조정이 도입된 이후 수십만 명의 개발자가 텍스트 전용 데이터 세트를 활용하여 모델을 최적화하여 특정 작업의 성능을 향상시켰습니다. 그러나 많은 경우 텍스트 미세 조정만으로는 모든 요구 사항을 충족할 수 없습니다. 시각적 미세 조정을 통해 개발자는 최소 100개의 이미지를 업로드하기만 하면 gpt-4o 모델을 최적화하여 특히 대량의 텍스트 및 이미지 데이터를 처리할 때 비전 작업의 성능을 향상시킬 수 있습니다.

openai에 따르면 동남아시아 최고의 음식 배달 및 차량 공유 회사인 grab은 이미 지도 서비스를 개선하기 위해 이 기술을 활용했습니다. grab은 단 100개의 예시를 사용하여 차선 계산 정확도를 20%, 속도 제한 표지판 위치 정확도를 13% 향상시켰습니다.

시각적으로 미세 조정된 gpt-4o 모델을 통해 성공적으로 표시된 속도 제한 표지판의 예 이미지 출처: openai

automat는 스크린샷 데이터 세트를 기반으로 화면의 ui 요소를 인식하도록 gpt-4o를 훈련시키는 시각적 미세 조정을 사용하여 자동화 도구의 성공률을 높입니다. 이로써 오토맷의 로봇 에이전트 성공률은 16.60%에서 61.67%로 높아졌다.

데스크탑 로봇은 웹 사이트 스크린샷을 사용한 시각적 미세 조정을 통해 ui 요소 센터를 성공적으로 식별합니다. 출처: openai

시각적 미세 조정의 실제 적용은 소규모 배치의 시각적 교육 데이터를 사용하여 다양한 산업 분야에서 ai 서비스를 크게 향상시키는 시각적 미세 조정의 가능성을 보여줍니다.

이제 모든 유료 사용자가 시각적 미세 조정 기능을 사용할 수 있으며 최신 gpt-4o 모델을 지원합니다. 개발자는 이러한 기능을 활용하여 이미지 미세 조정을 위해 기존 교육 데이터 세트를 확장할 수 있습니다. 또한 openai는 2024년 10월 31일까지 매일 100만 개의 무료 교육 토큰을 제공합니다. 미세 조정 훈련 및 추론 비용은 추후 조정될 예정입니다.

3. 실시간 api: 대화형 ai 간의 격차 해소

실시간 api는 현재 공개 베타 버전입니다. 이를 통해 개발자는 특히 음성 대 음성 애플리케이션에서 지연 시간이 짧은 다중 모드 환경을 만들 수 있습니다. 이는 개발자가 앱에 chatgpt의 음성 제어 기능을 추가할 수 있음을 의미합니다.

api의 잠재력을 설명하기 위해 openai는 작년 컨퍼런스에서 선보인 여행 계획 앱인 wanderlust의 업데이트 버전을 시연했습니다.

실시간 api를 통해 사용자는 애플리케이션과 직접 대화하고 자연스러운 대화 방식으로 여행 계획을 세울 수 있습니다. 이 시스템은 인간의 대화를 모방하여 말하는 도중에도 중단을 허용합니다.

healthify는 실시간 api를 사용해 ai와 자연스러운 대화를 가능하게 하는 영양 및 피트니스 코칭 앱입니다. 이미지 출처: openai

여행 계획은 하나의 예일 뿐이지만 실시간 api는 다양한 산업 분야에 걸쳐 음성 애플리케이션에 대한 광범위한 가능성을 열어줍니다. 고객 서비스부터 교육 및 접근성 도구에 이르기까지 개발자는 이제 더욱 직관적이고 반응성이 뛰어난 ai 기반 경험을 만들 수 있는 강력하고 새로운 리소스를 갖게 되었습니다.

goldment는 "제품을 디자인할 때마다 기본적으로 스타트업과 기업을 동시에 생각합니다. 따라서 알파 단계에서는 api를 사용하는 기업이 많고 신제품에 대한 새로운 모델도 있습니다."라고 설명했습니다.

실시간 api는 본질적으로 음성 도우미 및 기타 대화형 ai 도구를 구축하는 프로세스를 단순화하므로 전사, 추론 및 텍스트 음성 변환을 위해 여러 모델을 함께 연결할 필요가 없습니다.

영양 및 피트니스 코칭 앱 healthify 및 언어 학습 플랫폼 speak와 같은 얼리어답터들은 자사 제품에 실시간 api를 통합했습니다. api는 의료부터 교육까지 다양한 분야에서 보다 자연스럽고 매력적인 사용자 경험을 창출할 수 있는 잠재력을 가지고 있습니다.

실시간 api의 가격 구조는 저렴하지는 않지만(오디오 입력 분당 0.06달러, 오디오 출력 분당 0.24달러) 음성 기반 애플리케이션을 만들려는 개발자에게 여전히 중요한 가치 제안을 나타냅니다.

4. 모델 증류: 더 접근하기 쉬운 ai를 향하여

아마도 가장 혁신적인 발표는 모델 증류의 도입일 것입니다.

통합 워크플로우를 통해 개발자는 o1-preview 및 gpt-4o와 같은 고급 모델의 출력을 사용하여 gpt-4o mini와 같은 보다 효율적인 모델의 성능을 향상시킬 수 있습니다. 소규모 회사에서도 컴퓨팅 비용 부담에 대한 걱정 없이 고급 모델의 유사한 기능을 사용할 수 있습니다.

미세 조정 데모, 출처: openai

모델 증류는 ai 업계에서 리소스 집약적인 최첨단 시스템과 접근성은 더 높지만 성능은 떨어지는 시스템 간의 오랜 격차를 해결합니다.

소규모 의료 기술 스타트업이 시골 진료소를 위한 ai 진단 도구를 개발하고 있다고 가정해 보겠습니다. 팀은 모델 증류를 사용하여 표준 노트북이나 태블릿에서 실행할 수 있는 작은 모델을 훈련하고 더 큰 모델의 진단 능력 대부분을 포착할 수 있습니다. .

이를 통해 자원이 제한된 환경에 정교한 ai 기능을 도입하여 소외된 지역의 의료 결과를 개선할 수 있습니다.

이번 업데이트에서 openai가 중요한 전략적 변화를 가져왔다는 것을 쉽게 알 수 있습니다. 즉, 단순히 눈길을 끄는 제품 출시를 추구하기보다는 생태계 발전에 더 중점을 두는 것입니다. 비록 전략이 제품만큼 대중에게 직접적이지는 않을 수도 있지만요. 시작합니다.

gpt 스토어와 맞춤형 gpt 도구를 출시한 2023년 흥미로운 개발자 데이와 비교하면 올해 이벤트는 훨씬 덜 중요합니다. ai 분야의 급속한 변화와 경쟁업체의 상당한 발전, 훈련 데이터의 가용성에 대한 우려 증가로 인해 openai는 이러한 변화에 대처하기 위해 기존 도구를 개선하고 개발자 역량을 강화하는 데 더 집중하게 되었습니다.

openai는 모델 효율성을 개선하고 비용을 절감함으로써 치열한 경쟁에서 우위를 유지하고 자원 집약도 및 환경 영향 문제를 해결하기를 희망합니다. openai의 성공은 활발한 개발자 생태계를 효과적으로 육성하는 능력에 크게 좌우될 것입니다.

참고자료:

《실시간 api 소개》, openai

《미세 조정 api 비전 소개》,openai

《api의 신속한 캐싱》,openai

《api의 모델 증류》openai

《openai의 devday 2024: ai를 더욱 쉽게 접근하고 저렴하게 만들 4가지 주요 업데이트》,venturebeat

《openai의 devday는 ai 앱 개발자를 위한 실시간 api 및 기타 혜택을 제공합니다》,techcrunch

(표지 이미지 출처 : openai)