minhas informações de contato
correspondência[email protected]
2024-09-30
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
fonte丨chuangyebang (id: ichuangyebang)
autor丨junho
editor | hai yao
fonte da imagem丨bloomberg
no showplace plaza de são francisco, um edifício comercial que pertenceu ao airbnb recentemente recebeu um novo proprietário. numa altura em que a maioria das empresas de tecnologia está a reduzir os seus negócios, a scale ai, uma empresa de anotação de dados de inteligência artificial fundada por chineses nascidos depois de 1995, alugou um escritório de aproximadamente 180.000 pés quadrados no centro de são francisco com um aceno de mão.
não muito tempo atrás, a scale ai concluiu sua última rodada de financiamento de us$ 1 bilhão, com uma avaliação de us$ 13,8 bilhões, o que dobrou em relação à rodada anterior de us$ 7,3 bilhões. nesta rodada de financiamento f liderada pelo principal fundo do vale do silício, accel, além de investidores existentes como yc e nvidia, uma longa lista de novos investidores também foi adicionada, incluindo: amazon, meta, amd, qualcomm, cisco, intel, qualcomm, etc., com até 22 instituições participantes.
a maioria dos pontos de partida desses gigantes para investir em scale ai são semelhantes – eles são basicamente clientes da scale ai. com o rápido desenvolvimento da ia, a rotulagem de dados, um negócio aparentemente simples, enfadonho, trabalhoso e de baixo custo, foi transformada passo a passo em um grande negócio pela scale ai.
ia “fábrica de colarinho azul”
nos últimos tempos, a nvidia é sem dúvida a empresa mais mencionada quando se trata de “pás de venda de ia”. mas o que muitas pessoas não sabem é que a scale ai desempenha o mesmo papel. como todos sabemos, o poder de computação, algoritmos e dados constituem os três pilares da inteligência artificial. a nvidia ocupa o pico do poder de computação da ia, e a scale ai é atualmente o principal fornecedor de serviços que fornece suporte de dados para a ia.
a scale ai foi fundada em 2016. seu fundador é o chinês alexandr wang, nascido em 1997. ele tinha apenas 19 anos quando fundou a empresa e acabava de completar seu primeiro ano no mit. quando a scale foi fundada, ela se concentrava principalmente na anotação de dados de inteligência artificial. seu principal negócio era ajudar as empresas a coletar, limpar, anotar e gerenciar dados de alta qualidade em grande escala, a fim de treinar e otimizar modelos de aprendizado de máquina.
na verdade, antes do surgimento da scale ai, a anotação de dados estava em uma posição "marginal" no campo da ia há muito tempo. a chamada anotação de dados refere-se ao processo de adição de informações estruturadas a dados brutos, como imagens, texto, vídeos ou áudio, para que os modelos de aprendizado de máquina possam compreender e aprender com esses dados. parece complicado? mas na verdade isso é algo que até um aluno do ensino fundamental pode fazer. por exemplo, eu te dou uma foto e peço que marque os pedestres, veículos, edifícios, etc. peça para você marcar quais exclamações e quais são perguntas. uma parte da sua voz pode ser marcada com emoção ou identidade do locutor, etc.
fonte: shaip
embora o princípio seja simples, estes dados anotados são indispensáveis para o desenvolvimento da inteligência artificial. os modelos de ia requerem uma grande quantidade de dados anotados para aprendizagem, a fim de terem funções como reconhecimento, classificação e previsão.
mas a dor de cabeça para muitas empresas de ia é que, embora algumas ferramentas automatizadas possam acelerar parte do processo de anotação, para obter dados de anotação de alta qualidade e precisão, ainda é necessária uma grande quantidade de trabalho manual para processar, rotular e verifique os dados. especialmente em áreas com requisitos de alta precisão, como imagens médicas, condução autônoma ou aplicações militares, a rotulagem incorreta pode levar a consequências graves. por causa disso, a anotação de dados é considerada um negócio que exige muita mão-de-obra e muitas empresas não estão dispostas e não têm energia para gerenciá-la sozinhas, fazendo com que o processo de obtenção de dados anotados seja demorado e caro.
a scale ai assumiu esse “trabalho duro”. o posicionamento inicial da scale ai é criar uma plataforma de rotulagem eficiente e precisa, combinando tecnologia automatizada e revisão humana para ajudar as empresas a processar e rotular rapidamente conjuntos de dados em grande escala. o seu modelo de negócio é muito simples: contacta empresas com necessidades de rotulagem, realiza pré-processamento e limpeza simples dos dados e depois terceiriza-os para trabalhadores em áfrica, sudeste asiático, etc., para rotular os dados.
em 2017, a scale ai estabeleceu a remotasks como sua agência de terceirização interna. ela criou dezenas de instituições no quênia, nas filipinas, na venezuela e em outros lugares, e treinou milhares de anotadores de dados em todos os lugares. peça por peça, e o rendimento de uma única chamada é tão baixo quanto alguns cêntimos. muitos trabalhadores contratados ganham mesmo menos de 1 dólar por hora. sob esse modelo de “fábrica global”, a margem de lucro bruto da scale ai pode permanecer acima de 65% por um longo tempo.
aproveite todas as oportunidades
embora a anotação de dados pareça ser um negócio de baixo limiar, era quase uma lacuna no mercado durante o "período silencioso da ia" por volta de 2016. apenas algumas grandes empresas como google e amazon tinham seus próprios departamentos de anotação de dados. o sucesso da scale ai deve-se em grande parte à sua visão precisa desta oportunidade e à sua capacidade de aproveitar várias tendências no desenvolvimento da indústria de inteligência artificial nos últimos 10 anos.
o primeiro é a condução autônoma. poucos meses após a fundação da scale ai, eles descobriram a demanda rígida e em grande escala por anotação de dados no campo da direção autônoma. o desenvolvimento da tecnologia de direção autônoma depende de uma grande quantidade de dados de anotação de alta precisão, como dados de imagens de cenas de estradas, pedestres e outros objetos. as montadoras precisam de dezenas de milhares de horas de dados de vídeo para anotação para treinar e verificar seus algoritmos. . quanto a toda a condução autônoma do ponto de vista da indústria, mais de 90% da anotação de dados naquela época era principalmente manual. scale ai usa uma plataforma eficiente de anotação de dados e usa anotação assistida por modelo e pré-processamento de dados para acelerar o processo de processamento de dados, reduzindo significativamente os custos e o tempo de anotação, atraindo empresas como waymo e cruise, que estavam no centro das atenções na época, para tornar-se seus clientes e, gradualmente, ganhar uma posição no campo da anotação de dados de direção autônoma.
fonte da imagem: escala ai
depois de inicialmente obter sucesso no campo da direção autônoma, a scale ai começou a entrar totalmente no mercado de aiaas (ia como serviço). ela se estende desde a simples rotulagem de dados até serviços de dados, fornecendo soluções completas de processos, desde rotulagem e gerenciamento de dados, treinamento e avaliação de modelos, até desenvolvimento e implantação de aplicativos de ia.
além disso, para enfrentar o desafio da insuficiência de dados em algumas indústrias, a scale ai também se estende a jusante à geração de dados sintéticos para ajudar a treinar modelos através da criação de novos conjuntos de dados a partir de dados existentes. assim, nos anos seguintes, a scale ai cresceu rapidamente no campo dos dados e os seus clientes expandiram-se para a área médica, defesa nacional, comércio eletrónico, serviços governamentais e outros campos. mais de dois anos após sua fundação, a receita da scale ai está se aproximando de us$ 50 milhões.
a scale ai também aproveitou com precisão a oportunidade da explosão da ia generativa. já no gpt-2, scale conduziu o primeiro experimento colaborativo sobre aprendizagem por reforço com feedback humano com openai e depois estendeu essas tecnologias para o instructgpt e outros campos. como os modelos generativos de ia exigem grandes quantidades de dados de treinamento para melhorar a precisão e a diversidade do conteúdo gerado, o crescimento explosivo de grandes modelos de linguagem promoveu enormemente a demanda da indústria por dados anotados de alta qualidade. a ia em escala integra anotação de dados, síntese de dados e outros. os serviços fornecem suporte de dados necessário para ia generativa. além disso, o scale ai também ajuda as empresas a gerar rapidamente apis personalizadas para reduzir a complexidade e o custo dos modelos de treinamento por conta própria.
fonte da imagem: escala ai
para ia generativa, scale lançou serviços de plataforma de processo completo, incluindo plataforma de ferramentas de desenvolvedor scale spellbook, produto de dados sintéticos scale synthetic, plataforma genai de nível empresarial, etc. treinamento, com suas vantagens exclusivas no campo de dados, a scale ai viu um aumento no número de clientes nos últimos dois anos, incluindo gigantes como openai, meta, aws e nvidia, bem como unicórnios emergentes como cohere e adept. e muitos deles também se tornaram investidores na scale ai nesta rodada de financiamento.
por que a scale ai está avançando
em relação à ascensão da ia em escala, muitas pessoas estão se perguntando: para uma indústria de ia tão upstream e de mão-de-obra intensiva, a china parece ter uma vantagem inata. de modo geral, há dois fatores principais por trás disso: um é a indústria e o outro é o financiamento.
antes do boom generativo da ia, o desenvolvimento da inteligência artificial doméstica já era líder em aplicações de cena. na verdade, o negócio de anotação de dados começou a se desenvolver muito cedo, mas não se formou em grande escala. embora muitas empresas líderes tenham estabelecido departamentos de anotação de dados, eles atendem principalmente aos seus próprios negócios, em vez de procurar combinar dados com recursos em vários setores. ao mesmo tempo, precisamente por causa do dividendo demográfico interno, o custo de obtenção de dados rotulados é baixo e as empresas não têm incentivos para adoptar plataformas tecnológicas. entende-se que, durante muito tempo, os preços na indústria nacional de anotação de dados têm sido muito transparentes. os salários por hora rondam geralmente os 10-25 rmb e a maioria não tem qualificações académicas.
fonte: empregado diretamente por boss
em comparação, o custo da mão de obra nos estados unidos é alto. no linkedin, no even e em outras plataformas, a maioria dos salários por hora de meio período marcados pelos dados estão entre 30 e 200 dólares americanos. isso exige objetivamente que as empresas pensem em soluções de um ponto de vista técnico. perspectiva de produção de dados ou aquisição de serviços relacionados.
do ponto de vista do ambiente de financiamento, o mercado nacional de anotação de dados sempre esteve na vanguarda do financiamento na área de ia. por volta de 2021, a pesquisa estima que o tamanho de todo o mercado de anotação de dados da china seja de apenas 4,3 bilhões de yuans e só crescerá para 5,1 bilhões de yuans em 2022. este número, sem dúvida, não vale a pena ser mencionado em comparação com a escala de trilhões de todo o mercado de ia, e também tem causado dificuldades de financiamento para empresas de anotação de dados. em 2021, quando a scale ai concluiu o financiamento da série e de us$ 325 milhões e sua avaliação atingiu us$ 7,3 bilhões, a maioria das startups semelhantes na china ainda estão na rodada da série a.
a razão pela qual a escala nacional era tão pequena antes era porque apenas o aspecto da rotulagem era simplesmente considerado. na verdade, os serviços de dados de processo completo, como gerenciamento de dados, avaliação de dados e síntese de dados derivados da anotação de dados, são a parte de valor agregado desta indústria.
sobre a importância dos dados para o desenvolvimento de grandes modelos de linguagem, alex wang, o fundador da scale ai, disse em uma entrevista recente que as pessoas esgotaram todos os dados da internet e querem desenvolver uma inteligência artificial mais poderosa que o gpt-4.5, então, dados de ponta devem ser construídos. os chamados "dados de ponta" referem-se a dados que estão intimamente relacionados aos cenários de aplicação e podem refletir as últimas tendências e mudanças em tempo hábil. geralmente contêm um grande número de cenários de cauda longa ou raros, o que ajuda a. melhorar o desempenho da ia em situações atípicas e promover a inteligência artificial os limites das capacidades inteligentes estão a desenvolver-se em direções como o raciocínio complexo e a multimodalidade.
à medida que a ia se desenvolve em profundidade, o treinamento futuro em dados precisa ser mais compatível com tarefas específicas e cenários de aplicação específicos. portanto, também é necessário extrair e produzir mais dados novos e diferenciados. esta é a razão da atual rodada de 1 bilhão de ia. o foco do trabalho após o financiamento em dólares americanos abriu ainda mais os limites imaginativos da anotação de dados.