2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
출처丨chuangyebang (id: ichuangyebang)
작성자丨juny
편집자 하이야오
사진 출처丨bloomberg
샌프란시스코 쇼플레이스 플라자(showplace plaza)에는 한때 에어비앤비 소유였던 상업용 건물이 최근 새 주인을 맞이했습니다. 대부분의 기술 기업이 사업을 축소하고 있는 가운데, 1995년 이후 중국인이 설립한 인공지능 데이터 주석 기업 스케일 ai(scale ai)는 손짓으로 샌프란시스코 시내 약 18만 평방피트 규모의 사무실을 임대했다.
얼마 전 scale ai는 최근 10억 달러의 자금 조달을 완료했으며, 가치 평가액은 138억 달러로 이전 라운드의 73억 달러보다 두 배 증가했습니다. 실리콘 밸리 최고의 펀드인 accel이 주도하는 이번 f 파이낸싱에는 yc, nvidia 등 기존 투자자 외에도 amazon, meta, amd, qualcomm, cisco, intel, qualcomm 등 최대 22개 기관이 참여합니다.
scale ai에 대한 이들 거대 기업의 투자 출발점은 대부분 비슷합니다. 이들은 기본적으로 scale ai의 고객입니다. ai의 급속한 발전으로 단순하고 지루하고 노동집약적이며 문턱이 낮은 사업인 데이터 라벨링이 scale ai에 의해 단계적으로 큰 사업으로 변모해가고 있다.
ai '블루칼라 팩토리'
과거에는 "ai 판매 삽"과 관련하여 nvidia가 가장 많이 언급된 회사였습니다. 하지만 많은 사람들이 scale ai가 동일한 역할을 한다는 사실을 모르고 있습니다. 우리 모두 알고 있듯이 컴퓨팅 파워, 알고리즘, 데이터는 인공 지능의 세 가지 기둥을 구성합니다. nvidia는 ai 컴퓨팅 파워의 정점을 차지하고 있으며, scale ai는 현재 ai에 대한 데이터 지원을 제공하는 주요 서비스 제공업체입니다.
scale ai는 2016년에 설립되었습니다. 설립자는 1997년에 태어난 중국인 alexandr wang입니다. 그는 회사를 설립했을 때 겨우 19세였으며 mit에서 1학년을 막 마쳤습니다. scale이 설립되었을 때 주로 인공 지능 데이터 주석에 중점을 두었습니다. 핵심 사업은 기업이 기계 학습 모델을 훈련하고 최적화하기 위해 대규모 고품질 데이터를 수집, 정리, 주석 처리 및 관리하도록 돕는 것입니다.
실제로 scale ai가 등장하기 전에는 ai 분야에서 데이터 주석이 실제로 오랫동안 '주변' 위치에 있었습니다. 소위 데이터 주석(data annotation)은 머신러닝 모델이 이러한 데이터를 이해하고 학습할 수 있도록 이미지, 텍스트, 비디오, 오디오와 같은 원시 데이터에 구조화된 정보를 추가하는 프로세스를 말합니다. 복잡해 보이나요? 그런데 사실 이건 초등학생도 할 수 있는 일이에요. 예를 들어 사진을 주고 그 사진에 보행자, 차량, 건물 등을 표시하라고 하세요. 당신의 목소리에 감정이나 화자의 정체성 등을 태그할 수 있습니다.
출처: 샤이프
원리는 간단하지만 이렇게 주석이 달린 데이터는 인공지능 발전에 꼭 필요하다. ai 모델이 인식, 분류, 예측 등의 기능을 갖기 위해서는 학습을 위한 주석이 달린 대량의 데이터가 필요합니다.
그러나 많은 ai 회사의 골칫거리는 일부 자동화 도구가 주석 프로세스의 일부 속도를 높일 수 있지만 고품질, 고정밀 주석 데이터를 얻기 위해서는 여전히 처리, 라벨링 및 분석에 많은 양의 수동 작업이 필요하다는 것입니다. 데이터를 확인하세요. 특히 의료 영상, 자율 주행 또는 군사 응용 분야와 같이 정확도가 높은 분야에서 잘못된 라벨링은 심각한 결과를 초래할 수 있습니다. 이 때문에 데이터 주석은 노동집약적인 사업으로 간주되며, 많은 기업에서는 이를 스스로 관리할 의지와 여력이 없어 주석이 달린 데이터를 얻는 과정에 많은 시간과 비용이 소요됩니다.
scale ai가 이 "노력"을 대신했습니다. scale ai의 초기 포지셔닝은 기업이 대규모 데이터 세트를 신속하게 처리하고 주석을 달 수 있도록 자동화된 기술과 인적 검토를 결합하여 효율적이고 정확한 주석 플랫폼을 만드는 것입니다. 비즈니스 모델은 매우 간단합니다. 라벨링이 필요한 회사에 연락하여 데이터의 간단한 전처리 및 정리를 수행한 다음 이를 아프리카, 동남아시아 등의 작업자에게 아웃소싱하여 데이터 라벨링을 수행합니다.
2017년에 scale ai는 remotasks를 내부 아웃소싱 대행사로 설립했으며 케냐, 필리핀, 베네수엘라 및 기타 지역에 수십 개의 기관을 설립했으며 모든 곳에서 수천 명의 데이터 주석자를 교육했습니다. 통화 한 번에 대한 수입은 몇 센트에 불과합니다. 많은 계약직 근로자는 심지어 시간당 1달러도 받지 못합니다. 이러한 "글로벌 공장" 모델에서 scale ai의 총 이익 마진은 오랫동안 65% 이상을 유지할 수 있습니다.
모든 기회를 노려라
데이터 주석은 문턱이 낮은 사업인 것 같지만 2016년경 'ai 침묵기' 당시 시장에서는 거의 공백 상태였다. 구글, 아마존 등 일부 대기업만이 자체 데이터 주석 부서를 갖고 있었다. scale ai의 성공은 주로 이 기회에 대한 정확한 통찰력과 지난 10년 동안 인공 지능 산업 발전의 여러 추세를 포착할 수 있는 능력에 기인합니다.
첫 번째는 자율주행이다. scale ai가 설립된 지 몇 달 후, 그들은 자율주행 분야에서 데이터 주석에 대한 대규모의 엄격한 수요를 발견했습니다. 자율주행 기술의 발전은 도로 장면, 보행자 및 기타 사물의 이미지 데이터와 같은 대량의 고정밀 주석 데이터에 의존합니다. 자동차 회사는 알고리즘을 훈련하고 검증하기 위해 수천 시간의 비디오 데이터가 필요합니다. 업계 관점에서 볼 때 당시 데이터 주석의 90% 이상이 주로 수동이었습니다. scale ai는 효율적인 데이터 주석 플랫폼을 사용하고 모델 지원 주석 및 데이터 전처리를 사용하여 데이터 처리 프로세스를 가속화함으로써 주석 비용과 시간을 크게 줄여 당시 각광을 받았던 waymo, cruise 등의 기업을 유치합니다. 고객이 되어 점차 자율주행 데이터 주석 분야에서 발판을 마련해 나가고 있습니다.
이미지 출처: scale ai
scale ai는 처음 자율주행 분야에서 성공을 거둔 후 aiaas(ai as a service) 시장에 본격 진출하기 시작했습니다. 단순한 데이터 라벨링에서 데이터 서비스까지 확장되어 데이터 라벨링 및 관리, 모델 교육 및 평가, ai 애플리케이션 개발 및 배포에 이르는 전체 프로세스 솔루션을 제공합니다.
또한 일부 산업의 데이터 부족 문제를 해결하기 위해 scale ai는 다운스트림을 합성 데이터 생성까지 확장하여 기존 데이터에서 새로운 데이터 세트를 생성하여 모델을 교육하는 데 도움을 줍니다. 따라서 이후 몇 년 동안 scale ai는 데이터 분야에서 급속도로 성장했으며 고객은 의료, 국방, 전자상거래, 정부 서비스 및 기타 분야로 확장되었습니다. 창립 후 2년이 넘게 scale ai의 수익은 5천만 달러에 육박하고 있습니다.
스케일ai는 제너레이티브 ai 폭발의 기회도 정확하게 파악했다. gpt-2 초기에 scale은 openai를 사용하여 인간 피드백을 이용한 강화 학습에 대한 최초의 공동 실험을 수행한 후 이러한 기술을 instructgpt 및 기타 분야로 확장했습니다. 생성적 ai 모델은 생성되는 콘텐츠의 정확성과 다양성을 향상하기 위해 대규모 교육 데이터가 필요하기 때문에 대규모 언어 모델의 폭발적인 성장으로 인해 고품질 주석 데이터에 대한 전체 업계의 요구가 크게 촉진되었습니다. scale ai는 데이터 주석, 데이터 합성 및 통합을 통합합니다. 다른 서비스는 생성 ai에 필요한 데이터 지원을 제공합니다. 또한 scale ai는 기업이 맞춤형 api를 신속하게 생성하여 자체적으로 훈련 모델의 복잡성과 비용을 줄이는 데도 도움이 됩니다.
이미지 출처: scale ai
생성 ai의 경우 scale은 현재 개발자 도구 플랫폼인 scale spellbook, 합성 데이터 제품인 scale synthetic, 엔터프라이즈급 genai 플랫폼 등을 포함한 전체 프로세스 플랫폼 서비스를 출시했습니다. 모든 시나리오 모델 훈련을 지원하기 위해 데이터 분야의 고유한 장점을 갖춘 scale ai는 openai, meta, aws, nvidia와 같은 거대 기업뿐만 아니라 다음과 같은 신흥 유니콘을 포함하여 지난 2년 동안 고객이 급증했습니다. 응집력 있고 능숙합니다. 그리고 이들 중 다수는 이번 자금 조달에서 scale ai의 투자자가 되었습니다.
scale ai가 돌파구를 찾는 이유
scale ai의 부상에 대해 많은 사람들은 ai 분야의 상류 및 노동 집약적 산업에 대해 왜 유사한 기업이 눈에 띄지 않는지 궁금해합니다. 일반적으로 말하면, 여기에는 두 가지 주요 요인이 있습니다. 하나는 산업이고 다른 하나는 자금 조달입니다.
제너레이티브 ai 붐 이전에는 국내 인공지능 개발이 한때 장면 애플리케이션 분야를 주도하기도 했다. 실제로 데이터 주석 사업은 아주 일찍부터 발전하기 시작했지만 큰 규모를 형성하지는 못했다. 많은 선두 기업들이 데이터 주석 부서를 설립했지만, 이들은 다양한 산업 분야의 리소스와 데이터를 일치시키려고 하기보다는 주로 자체 비즈니스에 봉사하고 있습니다. 동시에, 바로 국가의 인구통계학적 배당금 때문에 라벨링된 데이터를 획득하는 비용이 낮고 기업이 기술 플랫폼을 채택할 인센티브가 없습니다. 오랫동안 국내 데이터 주석 산업의 가격은 매우 투명했습니다. 시간당 임금은 일반적으로 rmb 10-25 정도이며 대부분은 학력이 없습니다.
출처 : boss가 직접 고용함
이에 비해 미국의 인건비는 링크드인, 인디드 등 플랫폼에서 데이터로 표시되는 시간당 임금이 대부분 30~200달러 수준이다. 이는 기업이 객관적으로 해결책을 모색할 것을 요구한다. 기술적 관점. 데이터 생산 문제 또는 관련 서비스 조달.
금융환경 측면에서 볼 때, 국내 데이터 주석 시장은 ai 분야에서 늘 금융의 최전선에 있었다. 연구에 따르면 2021년경 중국의 전체 데이터 주석 시장 규모는 43억 위안에 불과하며 2022년에는 51억 위안으로 성장할 것으로 예상됩니다. 이는 전체 ai 시장의 수조 규모에 비하면 말할 가치도 없는 수치이며, 데이터 주석 기업들에게 자금조달 어려움을 초래하기도 했다. 2021년에 scale ai가 3억 2,500만 달러의 시리즈 e 자금 조달을 완료하고 가치 평가액이 73억 달러에 도달했을 때 중국의 대부분의 유사한 스타트업은 여전히 시리즈 a 라운드에 있습니다.
이전에는 국내 규모가 이토록 작았던 이유는 라벨링 측면만 단순하게 고려했기 때문이다. 실제로 데이터 관리, 데이터 평가, 데이터 주석에서 파생된 데이터 합성 등 전체 프로세스 데이터 서비스는 이 산업의 부가가치 부분입니다.
대규모 언어 모델 개발을 위한 데이터의 중요성에 대해 scale ai의 창립자인 alex wang은 최근 인터뷰에서 사람들이 인터넷에 있는 모든 데이터를 다 써버렸고 gpt-4.5보다 더 강력한 인공지능을 개발하고 싶다고 말했습니다. 그러면 최첨단 데이터가 구축되어야 한다. 소위 "최첨단 데이터"는 애플리케이션 시나리오와 밀접하게 관련되어 있으며 최신 동향과 변화를 적시에 반영할 수 있는 데이터를 말하며, 이는 롱테일 또는 희귀 시나리오를 다수 포함하는 경우가 많습니다. 비정형 상황에서 ai의 성능을 향상하고 인공지능을 촉진합니다. 지능 역량의 경계는 복잡한 추론, 다중 양식 등의 방향으로 발전하고 있습니다.
ai가 심층적으로 발전함에 따라 미래의 데이터 교육은 특정 작업 및 특정 애플리케이션 시나리오와 더 일치해야 합니다. 따라서 더 새롭고 차별화된 데이터를 마이닝하고 생산하는 것도 scale ai가 현재 10억 개에 달하는 이유입니다. 미국 달러 자금 조달 이후 작업의 초점은 데이터 주석의 가상 경계를 더욱 열어주었습니다.