소식

openai 개발자 컨퍼런스에서는 모델 비용 대폭 절감, ai 음성 지원 앱, 대형 모델의 성능을 '향상시키는' 소형 모델 등 선물 팩을 증정합니다.

2024-10-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

이 기사의 저자: li dan

동부 표준시인 10월 1일 화요일에 openai는 연례 개발자 컨퍼런스 devday를 개최했습니다. 올해 컨퍼런스에는 주요 제품 출시가 없었습니다. 작년 컨퍼런스보다 조용했지만 openai는 또한 여러 개의 큰 "선물 패키지"를 배포했습니다. 개발자”, 기존 인공 지능(ai) 도구 및 api 제품군을 개선합니다.

이번 openai devday는 주로 prompt caching, vision fine-tuning, realtime api 및 model distillation의 4가지 주요 혁신을 포함하는 일련의 새로운 도구를 출시합니다. 이는 비용 측면에서 개발자에게 모델의 시각적 이해 수준을 향상시키고, 음성 ai 기능 및 소형 모델 성능 향상.

일부 댓글에서는 올해 devday의 초점이 개발자의 역량을 향상시키고 개발자계의 이야기를 선보이는 것이라고 했는데, 이는 ai 분야의 경쟁이 점점 치열해지면서 openai의 전략이 바뀌었음을 보여줍니다. 위의 새로운 도구는 최종 사용자 애플리케이션에서 직접 경쟁하기보다는 개발자 생태계 강화에 대한 openai의 전략적 초점을 강조합니다.

일부 언론은 데브데이 행사 전 기자회견에서 openai의 최고제품책임자인 케빈 웨일(kevin weil)이 최근 openai의 최고기술책임자(cto) 미라 무라티(mira murati)와 최고연구책임자(cro) 밥 맥그루(bob mcgrew)의 퇴사에 대해 이야기하며 이들의 퇴임이 회사 발전에 영향을 미치지 않을 것이라고 말했다고 언급했다. 속도가 느려질 것입니다.”

프롬프트 캐싱을 사용하면 입력 토큰 비용을 최대 50%까지 줄일 수 있습니다.

프롬프트 단어 캐싱은 이번 devday에서 발표된 가장 중요한 업데이트로 간주됩니다. 이 기능은 개발자 비용을 줄이고 대기 시간을 줄이기 위해 설계되었습니다.

openai가 도입한 프롬프트 단어 캐싱 시스템은 모델에서 최근 처리한 입력 토큰에 대해 자동으로 50% 할인을 제공하므로 컨텍스트를 자주 재사용하는 애플리케이션에 상당한 비용 절감 효과를 가져올 수 있습니다. 이러한 급격한 비용 절감은 기업과 스타트업에게 이전에는 엄청난 비용으로 인해 접근할 수 없었던 새로운 애플리케이션을 탐색할 수 있는 중요한 기회를 제공합니다.

openai 플랫폼 제품 관리자인 olivier godement는 gpt-3가 2년 전 큰 성공을 거두었고 현재 openai가 관련 비용을 거의 1,000배나 절감했다고 말했습니다. 그는 2년 동안 같은 금액만큼 비용이 절감된 다른 사례를 언급할 수 없었습니다.

다음 openai 차트는 프롬프트 단어 캐싱이 ai 모델 적용 비용을 크게 줄일 수 있음을 보여줍니다. 다양한 gdp 모델의 캐싱되지 않은 토큰과 비교하여 입력 토큰 캐싱 비용을 최대 50%까지 줄일 수 있습니다.

비전 미세 조정(vision fine-tuning): 시각적 ai의 새로운 지평

openai devday는 openai의 최신 llm(대형 언어 모델) gpt-4o에 시각적 미세 조정이 도입되었다고 발표했습니다. 이 기능을 통해 개발자는 이미지와 텍스트를 사용하여 모델의 시각적 이해를 맞춤화할 수 있습니다.

이는 시각적 ai의 새로운 지평으로 알려진 대규모 업데이트입니다. 자율주행차, 의료 영상, 시각 검색 기능 등의 분야에 광범위한 영향을 미칠 수 있습니다.

openai는 meituan + didi의 동남아시아 버전인 grab이 지도 서비스를 개선하기 위해 이 기술을 사용했다고 밝혔습니다. grab은 단 100개의 예시를 사용하여 차선 계산 정확도를 20%, 속도 제한 표지판 위치를 13% 향상시켰습니다.

이 실제 앱은 소규모 배치의 시각적 훈련 데이터를 사용하여 다양한 산업 분야에서 ai 서비스를 크게 향상시키는 시각적 미세 조정의 가능성을 보여줍니다.

realtime api는 대화형 ai 격차를 해소합니다.

openai devday는 현재 공개 베타 단계인 실시간 api를 출시했습니다. 실시간 api는 본질적으로 음성 도우미 및 기타 대화형 ai 도구를 구축하는 프로세스를 단순화하므로 전사, 추론 및 텍스트 음성 변환을 위해 여러 모델을 함께 연결할 필요가 없습니다.

이 새로운 제품을 통해 개발자는 특히 음성-음성 앱에서 지연 시간이 짧은 다중 모드 환경을 만들 수 있습니다. 이는 개발자가 chatgpt의 음성 제어 기능을 앱에 추가할 수 있음을 의미합니다.

api의 잠재력을 설명하기 위해 openai는 작년 컨퍼런스에서 시연한 여행 계획 앱인 wanderlust의 업데이트 버전을 선보였습니다.

실시간 api의 도움으로 사용자는 새 버전의 앱과 직접 대화하고 자연스러운 대화를 통해 여행 일정을 계획할 수 있습니다. 이 시스템은 사용자가 문장 중간에 끼어들어 사람의 대화를 흉내낼 수도 있습니다.

여행 계획은 하나의 예일 뿐이며, 실시간 api는 다양한 산업 분야의 음성 앱에 광범위한 가능성을 열어줍니다. 장애인을 위한 고객 서비스, 교육 또는 접근성 도구를 전문으로 하는 개발자는 이제 새로운 리소스를 활용하여 보다 직관적이고 반응성이 뛰어난 ai 기반 경험을 만들 수 있습니다.

영양 및 피트니스 안내 앱인 healthify와 언어 학습 플랫폼인 speak를 포함한 일부 앱은 이미 실시간 api를 자사 제품에 통합하는 데 앞장서고 있습니다.

의견에 따르면 실시간 api는 오디오 입력의 경우 분당 0.06달러, 오디오 출력의 경우 분당 0.24달러를 청구하므로 저렴하지 않지만 음성 기반 앱을 만들려는 개발자에게는 여전히 중요한 가치 제안을 나타낼 수 있습니다.

model distillation을 사용하면 소형 모델이 최첨단 모델 기능을 가질 수 있습니다.

모델 증류는 이번에 openai의 가장 혁신적인 새로운 도구로 간주됩니다. 이 통합 워크플로우를 통해 개발자는 gpt o1-preview 및 gpt-4o와 같은 최첨단 모델의 출력을 사용하여 상대적으로 작고 비용 효율적인 대학 모델을 미세 조정하고 gpt-4o mini와 같은 보다 효율적인 모델을 개선할 수 있습니다. 성능.

이 접근 방식을 사용하면 소규모 회사에서는 이러한 모델을 사용하는 데 드는 계산 비용을 들이지 않고도 최첨단 모델과 유사한 기능을 활용할 수 있습니다. 이는 ai 산업이 오랫동안 리소스 집약적인 최첨단 시스템과 접근성은 더 높지만 성능은 떨어지는 시스템 사이에 존재했던 격차를 해소하는 데 도움이 됩니다.

예를 들어 의료 기술 분야의 소규모 스타트업은 시골 진료소를 위한 ai 기반 진단 도구를 개발하려고 합니다. 모델 증류를 사용하여 회사는 표준 노트북이나 태블릿에서만 실행하면 되면서 대형 모델의 진단 능력을 상당 부분 포착하는 소형 모델을 교육할 수 있습니다.

따라서 모델 증류를 통해 자원이 제한된 환경에서 복잡한 ai 기능을 즐길 수 있으며 잠재적으로 서비스가 부족한 지역의 의료 수준을 향상시킬 수 있습니다.