소식

ai 데이터는 부족하고, 대형 제조사들은 값싼 젊은이들에게 눈독을 들이고 있다.

2024-09-03

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

새로운 데이터를 얻고 대규모 ai 모델을 훈련시키기 위해 bytedance와 같은 주요 인터넷 회사는 문제를 직접 해결하고 시간당 300위안에 이르는 가격으로 "ai 레코더"를 모집하여 코퍼스를 맞춤화하고 있습니다.

베이징 dazhong temple에 위치한 byte 사무실 건물에는 byte의 douyin 비즈니스 팀과 volcano engine 비즈니스 팀이 있으며 올해 초부터 doubao 모델을 녹음하기 위해 아마추어를 모집하고 있습니다. 두 사람이 한 팀을 이루고 매회 3시간씩 진행되며 무료 채팅 80분, 프롬프트 단어로 대화 60개 그룹이 진행되며 단일 결제 금액은 300위안입니다.

3시간 동안의 녹음에는 전체 과정에 걸쳐 최소 2명의 name 직원이 동행했습니다. "대화는 너무 길어서는 안 되고, 내용과 정보가 있어야 합니다. 품질이 너무 나쁘면 돈이 적절하게 차감됩니다." "즉각적인 말은 수정할 수 없고, 대형 모델은 이를 이해할 수 없습니다." 오후 6시부터 9시까지 녹음 과정에서 바이트 직원들의 지시를 통해 녹음 품질에 대한 그들의 우려가 더욱 드러났습니다.

캡션: 대중사 녹음실 내부 전경

실제로 청두, 타이위안, 구이저우 등 2급 도시는 이미 바이트댄스, 바이두, 알리바바 등 대기업의 ai 데이터 아웃소싱 도시가 됐다. "지난해에는 전문대생들이 데이터 주석과 사투리 읽기를 할 수 있었는데, 이제는 211, 985에서 아웃소싱을 이끌 인턴을 모집하고 있다"고 한 대형모델 제품담당자는 말했다.

지난 9월 대형 비디오 모델을 출시한 minimax의 창립자 yan junjie는 alphabet과의 인터뷰에서 상하이에서 코퍼스 회사의 고품질 데이터 외에도 minimax가 일부 플랫폼 기반 데이터도 구매할 것이라고 말했습니다.

데이터, 알고리즘, 컴퓨팅 성능은 대형 ai 모델의 세 가지 기둥이며, 그 중 데이터는 대형 모델 훈련의 기초입니다. 그러나 인터넷 데이터는 다양한 플랫폼에 분산되어 있고 장벽으로 둘러싸여 있기 때문에 대규모 ai 모델을 훈련하는 데 사용할 수 있는 공공 데이터가 고갈되고 있습니다.

지난 6월, 연구 기관인 epoch ai는 ai 언어 모델의 공개 훈련에 사용할 수 있는 데이터가 기술 회사에서 2026년에서 2032년 사이에 고갈될 것이라고 예측하는 새로운 연구를 발표했습니다. 이르면 2023년 5월 초 openai ceo 알트만(altman)은 ai 기업이 가까운 미래에 인터넷의 모든 데이터를 소진할 것이라고 공개적으로 인정했습니다.

대규모 모델에 "피드"하기 위한 고품질의 새 데이터를 찾는 방법은 모든 대규모 ai 모델 팀의 공통적인 문제가 되었습니다.

일부 대기업은 제3자 데이터 무단 사용 의혹으로 분쟁에 반복적으로 연루됐다. 지난 8월 openai는 대형 모델을 훈련시키기 위해 수백만 개의 youtube 동영상을 불법적으로 복사했다는 이유로 100명이 넘는 youtube 앵커로부터 고소당했습니다. nvidia, apple, anthropic과 같은 거대 기업도 참여하고 있습니다.

대규모 제조업체의 경우 자체 비공개 소스 고품질 데이터만 보유하면 대규모 모델에 공급되는 데이터의 적시성과 품질을 보장할 수 있습니다. 품질 관리가 불안정한 타사 플랫폼을 건너뛰고 ai용 '스크립트'를 직접 작성하려는 시도는 대형 모델 제조업체에게는 새로운 접근 방식일 수 있습니다.

올해 초 샤오홍슈 등 플랫폼에는 회당 300위안이라는 가격으로 아르바이트를 녹음하는 ai가 조용히 등장했다.

시간당 30~55위안을 지급하는 boss direct employment 등 플랫폼의 ai 녹음 아르바이트와 시간당 300위안을 지급하는 일명 '톱 스튜디오 아르바이트 녹음 스튜디오', 베이징의 다중사(大忠寺)에서 녹음된 이 곡은 꽤 유혹적이다.

지난 8월, 제가 위챗을 통해 녹음 그룹에 들어갔을 때 alphabet list(id: wujicaijing)에 따르면 이미 그룹에 녹음 대기자가 200명이 넘었습니다. 2인 1그룹은 최대 3시간까지 대화를 녹음할 수 있다고 규정하고 있어, 그룹 가입 후 위챗에서는 '파트너 구해요', '나랑 녹음할 수 있는 사람 있나요?' 같은 메시지가 가장 많이 뜬다.

사실 ai 녹음기가 되어 1회 300위안으로 'ai용 스크립트 작성'을 하는 것은 쉽지 않습니다.

우선, 녹음 전 모두가 2~3분 정도의 대화 녹음을 '샘플'로 업로드해야 합니다. 바이트의 심사위원은 해당 샘플의 효과를 토대로 파트타임 녹음 여부를 결정해야 합니다. 그리고본 과정은 3명의 직원이 검토하게 되며, 그 중 2명이 심사를 통과한 경우에만 녹화 시간을 직접 확보할 수 있으며, 그렇지 않은 경우 교차 심사를 진행합니다.

샘플에 대한 두 번째 검토 후 zhang xue는 샘플을 제출한 후 두 번째 주에 오후 6~9시에 녹음 시간을 약속했습니다. 단체채팅에서는 '복습선생님이 채팅을 잘하고 채팅을 좋아하는 사람을 좋아한다'며 많은 분들이 꼼짝 못하게 됐습니다.

참고: dazhong temple recording group 출처: 알파벳 목록 스크린샷

녹음 당일 밤, 장설은 녹음실의 투명 유리를 통해 의자에 앉아 음성이 또렷하게 녹음될 수 있는 최적의 위치에 앉았고, 헤드폰을 통해 바이트 직원들의 지시를 들었다.

첫 번째 세션은 아무 주제 없이 두 사람이 80분간 무료 채팅을 하는 방식이었다. byte 직원의 요구 사항은 채팅이 "소소한 대화"가 되어서는 안 되며, 동시에 각 주제가 10분을 초과할 수 없고, 비교적 균일한 대화가 이루어져서는 안 된다는 것입니다.

zhang xue와 그녀의 파트너는 녹음실에서 거대한 헤드셋을 통해 80분 동안 멈추지 않으려고 노력했습니다. 동시에 몸이 이리저리 움직이거나 녹음 품질을 방해하는 기침, 웃음 소리 및 기타 소리를 내지 않도록 노력해야 합니다.

음성 품질을 보장하기 위해 byte 직원은 때때로 헤드폰을 연결하여 소음이 있거나 채팅이 "부자연스럽고 안내 흔적이 너무 많은 경우" 다시 녹음하도록 요청합니다. -녹음되었습니다. 고품질 음성의 기준은 채팅이 자연스럽고, 주제가 연속적이며, 분위기가 긍정적이지만 대화를 서두르지 않고, 장황하지 않고 내용이 풍부해야 한다는 것입니다. 반복적인 재조정 끝에 첫 번째 세션은 거의 2시간이 걸렸습니다.

두 번째 단계에서는 프롬프트 단어가 포함된 60세트의 대화가 녹음되었습니다. 참고용 스크립트가 있지만 ai 녹음기인 zhang xue는 상황에 따라 대화를 편집해야 할 뿐만 아니라 엄격한 대화 패턴을 보장해야 합니다. 즉, 마지막 대화 세트는 a로 끝나고 다음 세트는 다음 세트입니다. 대화는 b로 시작해야 합니다.

동시에 대형 모델의 디버깅 요구 사항을 충족하기 위해 각 지침에는 "더 자세히 설명할 수 있습니까? 더 자세히 설명할 수 있습니까? 헤드셋에서 더 자세히 설명할 수 있습니까?"라는 프롬프트 단어를 명확하게 명시해야 합니다. 바이트 역시 스크립트는 변경할 수 있지만 프롬프트 단어만 변경할 수는 없다는 점, 즉 ai가 인식하기 어려울 수 있음을 분명히 했습니다.

녹음 품질을 보장하기 위해 녹음이 명확하지 않거나 단어가 삼키거나 분위기가 충분하지 않은 경우 녹음이 다시 녹음됩니다. 녹음이 끝나자 장설은 대중사를 떠났는데, 저녁 10시가 가까워졌다. 3시간짜리 녹음 세션의 경우 바이트 직원은 하루에 세 번씩 녹음을 해야 하는데, 주간 일정이 거의 꽉 찼습니다.

바이트는 베이징 외에도 이미 상하이, 항저우, 충칭, 난징, 청두, 텐진 및 기타 도시에서 녹음원을 모집했습니다.

새로운 데이터에 목마른 대형 모델 제조사에게 '데이터를 얻기 위해 돈을 쓰는' 작전은 새로운 것이 아니다.

2023년에는 ai 대형 모델이 새로운 트렌드로 자리잡으면서 주요 제조사들은 제3자 업체를 통해 직접 데이터를 구매할 뿐만 아니라 '빅데이터 주석자', 'ai 편집자' 등 아웃소싱 포지션도 창출한다.

부전공을 전공한 아를렌은 2023년 대학원 입시 때 boss 다이렉트 채용 등의 웹사이트를 통해 대형 모델 '일'을 시작했다.

alin은 "x data"라는 회사를 통해 대형 모델 이미지에서 인식된 텍스트 내용에 대한 승인 검사, 즉 대형 모델 이미지 인식 후 작은 언어 텍스트가 사진과 일치하는지 확인하는 작업을 수행합니다. "한 단어나 문장은 하나의 계산 상자로 계산되고 각 상자는 1센트로 계산됩니다"의 가격에 따르면 a lin은 수백 개의 항목을 계산하여 한 번에 수십 위안을 벌 수 있습니다.

올해 아린 역시 제3자 데이터 회사를 통해 번역 관련 ai 데이터 주석 작업 주문을 받아 가격이 개당 1위안 이상으로 올랐다. 그러나 대형 모델이 번역한 프랑스어 등 작은 언어가 정확한지 수동으로 판단하려면 주석자는 오류를 찾아낼 뿐만 아니라 다른 색상을 사용해 5~6개의 큰 번역 내용에 주석을 달아야 한다. 모델. "한 작품을 보는 데 10~15분 정도 걸릴 때도 있어요."

ai에서 일한 후 alin은 이러한 대형 모델이 작은 언어의 원래 교과서 코퍼스에서 분리되면 소셜 플랫폼에서 사용되는 새로운 단어나 틈새 그룹에서 일반적으로 사용되는 단어가 자체 데이터베이스에 포함되지 않는다는 사실도 발견했습니다. "저작권의 한계로 인해 새로운 텍스트 내용을 학습할 수 없었고, 번역 효과에도 영향을 미쳤습니다."

제3자 아웃소싱 회사 외에도 주요 제조업체도 자체 데이터베이스를 구축했습니다.

예를 들어 baidu의 데이터베이스는 nanchang, yangquan, taiyuan, guizhou 등과 같은 1급 도시가 아닌 도시에 배포되어 있으며 이러한 도시에서 데이터 주석, 방언 읽기 및 기타 데이터 수집을 완료하려면 다음 단계만 수행하면 됩니다. "컴퓨터를 다룰 수 있는 현지 대학생을 모집하세요." 월급은 보통 3,000~5,000위안 사이입니다. "메이투안은 이미 공장에 자체 ai 트레이너를 두고 있었습니다.

그러나 기꺼이 돈을 쓰려는 대형 제조사에 비해 대형 모델 호랑이는 고품질의 데이터를 얻기가 훨씬 어렵습니다.

"핵심 폐쇄 소스 고품질 데이터는 대기업이 독점하는 경우가 많습니다. ai 스타트업, 심지어 ai 네 마리 호랑이라도 한계 데이터에만 접근할 수 있습니다."대형 모델 제조업체의 알고리즘 직원인 leo는 alphabet에 말했습니다.

고품질 데이터는 오픈 소스 공개 데이터 외에도 모델 성능을 크게 향상시킬 수 있으므로 대형 모델 제조업체는 기술 반복을 달성하기 위해 교육을 완료하기 위해 고품질 데이터가 필요합니다. 하지만 이러한 데이터는 대기업이 관리하는 경우가 많습니다. 예를 들어 국내 뉴스 데이터는 tencent, byte 등 대기업이 관리하는 반면, 해외에서는 common crawl, gdelt, the pile 등이 관리합니다.

해외에서는 유튜브도 6월 말 저작권이 있는 음악을 훈련에 사용하는 대가로 일류 음반사에 라이선스 계약을 제공하겠다고 발표하기도 했다. openai는 politico, the atlantic, time, financial times 등의 뉴스 출판사와 유료 계약을 체결하여 해당 뉴스 자료를 사용하고 인용하고 있습니다.

핵심 데이터는 주로 텐센트, 바이트, 메타 등 '채널 당사자' 내에서 통제됐지만, 핵심 사용자 데이터는 이미 모바일 인터넷 시대부터 분할돼 기술 혁신을 이뤘다. ai 호랑이는 먼저 엄청난 양의 "데이터 요금"을 지불해야 합니다.

제조업체 입장에서는 빅모델 창업 후반부에 '빅데이터 환상'이 빅모델들이 집합적으로 9.11이 더 큰지 9.9가 더 큰지 판단하지 못하는 이유 중 하나이기도 하다.

alphabet이 minimax의 conch ai에 "ragdoll 고양이를 안고 있는 어린 소녀"를 입력했을 때 6초짜리 비디오를 생성하는 데 2분이 걸렸습니다. 고양이를 안고 있는 어린 소녀의 손가락은 디테일이 풍부하지 않습니다. 래그돌 고양이.

생성된 결과를 접한 미니맥스의 영상 모델 직원은 “대형 모델을 훈련하는 데 사용된 데이터에 고양이 바인딩 사진에 랙돌 고양이가 포함되어 있지 않기 때문”이라고 설명했다.

모델에 의해 생성된 콘텐츠가 실제 사실이나 사용자 입력과 일치하지 않는 경우, 즉 대형 모델은 환각 상태가 되어 "말도 안 되는 소리"를 하기 시작합니다.새로운 사용자를 열망하는 대형 모델 제조업체의 경우 세대 효과는 제품이 순환에서 벗어날 수 있는지 여부를 결정합니다.

"입력 명령은 8월의 모든 연예 뉴스를 추출하라는 것이었습니다. 그 결과 ai가 2019년 8월 연예 뉴스 콘텐츠를 생성했습니다." 대형 헤드 모델 제품을 사용할 때 충성 사용자인 kong fang이 ai를 잡았습니다." 넌센스"를 여러 번. "연설"하는 순간 전혀 존재하지 않는 인용문을 편집했거나 지난 2년 동안 새로운 개념을 이해하지 못했기 때문에 kong fang은 대형 모델에 대한 신뢰의 위기를 겪었습니다. .

이제 kong fang은 서로 다른 제조업체의 2-3개 대형 모델을 사용하여 동일한 문제를 동시에 "실행"한 다음 시간, 수량, 문서 등과 같은 주요 정보를 교차 비교하고 두 번 확인합니다. kong fang은 검색 엔진을 통해 "이제 ai는 카드를 뽑는 것과 같으며 효과를 제어할 수 없으며 정신 지체가 되기 쉽습니다"라고 무력하게 말했습니다.

고품질 데이터가 점차 고갈될 수 있습니다. "대형 모델 환상" 문제를 해결하려면 어떤 데이터를 대형 모델에 "공급"할지가 중요합니다.

바이두 측 관계자는 알파벳에 대형 모델 제조사들이 제3자 업체를 통해 직접 데이터를 구매하게 되는데, 이는 시간과 노력을 절약해주지만 텍스트든 녹음이든 영상이든 구매한 데이터의 품질이 떨어지기 때문에 '쉽지'는 않다고 전했다. 완벽합니다.

b-end 고객을 위한 대형 헤드 모델을 적극적으로 개발하는 이들에게는 특정 고객을 위한 대형 모델의 보다 개인화된 커스터마이징이 오늘날 주요 제조업체의 ai 사업의 주요 수입원이 되었습니다. 그러나 이러한 개인화된 모델을 훈련하려면 높은 기준에 따라 필터링된 데이터를 "공급"해야 하며, 심지어 다양한 단계에서 대규모 모델의 학습 효과를 기반으로 데이터 수요를 조정해야 합니다. 목소리를 잔뜩 사서 대형 모델로 배울 수 있어요."

제3자 데이터 회사에서 ai 번역가로 일한 a lin도 "데이터를 제공하는 당사자로서 그녀의 회사는 대형 모델에서 생성된 음성의 품질에 별로 관심을 두지 않는 것 같습니다."라고 밝혔습니다.

프랑스어, 스페인어 및 기타 소수 언어를 전문으로 하는 alin의 경우 소수 언어 음성을 파티 a의 텍스트로 동시에 번역하기 위해 5-6개의 대형 모델의 생성 효과를 비교해야 하지만 대략적인 점수만 필요합니다. 생성된 5~6개의 텍스트. 자세한 언어 차이는 무엇이며 어떻게 개선할 수 있나요? 제3자 회사에서는 묻지 않고 "무관심"합니다.

고품질 데이터의 부족은 많은 사용자가 "어떤 대형 모델에서 생성되는 내용은 거의 동일하다"고 말하는 이유일 수 있으며, 사용자가 "일단 비용을 지불하면 다른 대형 모델로 전환하는 근본적인 이유이기도 합니다." 그것" .

openai를 따라잡으며 기술적으로 계속 반복한다고 주장하는 국내 대형 모델은 사용자 입장에서 큰 차이가 없을 수도 있고 충성도 높은 사용자가 될 수도 없습니다. 이는 light shadow를 상용화하려는 대형 모델 제조업체에게도 혼란을 야기합니다. .

그래서 직접 'ai용 스크립트 작성'을 하는 데 시간이 많이 걸리고 힘들고 비용이 많이 들더라도 바이트 역시 새로운 길을 택했습니다. 상용화와 사용자 확보라는 핵심 문제를 해결하기 위해서는 대규모 예산을 들여 '데이터 구매'가 대형 모델 제조사들의 새로운 경쟁 포인트가 될 수 있을 것으로 예상된다.

(alin, kong fang 및 zhang xue는 기사에서 가명입니다)