os dados de ia são escassos, os grandes fabricantes estão de olho nos jovens baratos

2024-09-03

a fim de obter novos dados e treinar grandes modelos de ia, grandes empresas de internet como a bytedance estão resolvendo o problema por conta própria e recrutando "gravadores de ia" a preços que variam de 300 yuans por vez para personalizar o corpus.

o prédio de escritórios da byte localizado no templo dazhong em pequim é o lar da equipe de negócios douyin da byte e da equipe de negócios da volcano engine. desde o início do ano, eles têm recrutado amadores para gravar o modelo doubao. duas pessoas formam uma equipe, cada vez durando 3 horas, incluindo 80 minutos de bate-papo gratuito e 60 grupos de conversas com palavras imediatas, e o valor único de liquidação é de 300 yuans.

a gravação de 3 horas foi acompanhada por pelo menos 2 funcionários da name durante todo o processo. “a conversa não deve ser muito longa, deve ter conteúdo e informação. se a qualidade for muito baixa, o dinheiro será deduzido conforme apropriado.” das 18h às 21h, as instruções dadas pelos funcionários da byte durante o processo de gravação revelaram mais a preocupação com a qualidade da gravação.

legenda: vista interna do estúdio de gravação do templo dazhong

na verdade, cidades de segundo nível, como chengdu, taiyuan e guizhou, já se tornaram cidades de terceirização de dados de ia para grandes empresas como bytedance, baidu e alibaba. "no ano passado, os estudantes universitários juniores podiam fazer anotação de dados e leitura de dialetos. agora estamos recrutando estagiários de 211 e 985 para liderar a terceirização, disse um gerente de produto de um modelo grande."

minimax, que lançou um grande modelo de vídeo em setembro, seu fundador yan junjie disse à alphabet que em xangai, além de dados de alta qualidade de empresas corpus, a minimax também comprará alguns dados baseados em plataforma.

dados, algoritmos e poder computacional são os três pilares dos grandes modelos de ia, entre os quais os dados são a base para o treinamento de grandes modelos. no entanto, como os dados da internet estão espalhados por diferentes plataformas e rodeados por barreiras, os dados públicos que podem ser utilizados para treinar grandes modelos de ia estão a secar.

em junho, a organização de investigação epoch ai divulgou um novo estudo prevendo que os dados disponíveis para a formação pública de modelos de linguagem de ia serão esgotados pelas empresas tecnológicas entre 2026 e 2032. já em maio de 2023, altman, ceo da openai, admitiu publicamente que as empresas de ia esgotarão todos os dados da internet em um futuro próximo.

como encontrar novos dados de alta qualidade para “alimentar” grandes modelos tornou-se um problema comum para todas as grandes equipes de modelos de ia.

algumas grandes empresas têm estado repetidamente envolvidas em disputas devido a suspeitas de utilização não autorizada de dados de terceiros. em agosto, a openai foi processada por mais de 100 âncoras do youtube, acusando-a de transcrever ilegalmente milhões de vídeos do youtube para treinar grandes modelos. gigantes como nvidia, apple e anthropic também estão envolvidas.

para grandes fabricantes, apenas ter seus próprios dados de fonte fechada e de alta qualidade pode garantir a pontualidade e a qualidade dos dados que alimentam grandes modelos. ignorar plataformas de terceiros com controle de qualidade instável e tentar escrever pessoalmente “scripts” para ia pode ser uma nova abordagem para grandes fabricantes de modelos.

no início deste ano, a ia registrando empregos de meio período com um preço de 300 yuans por sessão apareceu discretamente em plataformas como xiaohongshu.

comparado com o trabalho de meio período de gravação de ia em plataformas como boss direct employment, que paga de 30 a 55 yuans por hora, o chamado "estúdio de gravação de meio período no estúdio superior" que paga 300 yuans por hora e está gravado no templo dazhong em pequim é bastante tentador.

em agosto, quando fui puxado para o grupo de gravação via wechat, a alphabet list (id: wujicaijing) descobriu que já havia mais de 200 pessoas esperando para gravar no grupo. como está estipulado que um grupo de duas pessoas pode gravar uma conversa por até três horas, após ingressar no grupo, mensagens do wechat como “procurando um parceiro” e “alguém pode gravar comigo?”

na verdade, não é fácil ser um gravador de ia e “escrever scripts para ia” por 300 yuans por vez.

em primeiro lugar, antes de gravar, todos devem fazer upload de uma gravação de conversa de 2 a 3 minutos como uma "amostra". os revisores do byte decidirão se notificarão os usuários de gravação em tempo parcial com base no efeito da amostra. eeste processo será revisado por 3 funcionários. somente se 2 deles passarem na revisão o tempo de gravação poderá ser reservado diretamente.

após a segunda revisão da amostra, zhang xue marcou um horário de gravação das 18h às 21h na segunda semana após o envio da amostra. no bate-papo em grupo, muitas pessoas ficaram presas na sessão de amostra: “o professor de revisão gosta de quem sabe conversar e adora conversar”. as conversas emocionantes e o conteúdo temático deixaram mais pessoas presas no processo de triagem.

nota: fonte do grupo de gravação do templo de dazhong: captura de tela da lista do alfabeto

na noite da gravação, zhang xue sentou-se em uma cadeira através do vidro transparente do estúdio de gravação, ajustado na melhor posição onde a voz pudesse ser gravada com clareza, e ouviu as instruções dos funcionários da byte através de fones de ouvido.

a primeira sessão foi um bate-papo gratuito de 80 minutos entre os dois, sem qualquer assunto. as exigências da equipe do byte são que o chat não pode ser “conversinha” e deve ser conteúdo. ao mesmo tempo, cada tópico não pode ultrapassar 10 minutos e não pode haver monólogos longos.

zhang xue e seu parceiro conversaram na sala de gravação através de um enorme fone de ouvido, tentando não fazer pausas por 80 minutos. ao mesmo tempo, você também deve tentar impedir que seu corpo se mova e emita tosse, risadas e outros sons que atrapalhem a qualidade da gravação.

para garantir a qualidade da voz, o pessoal da byte conecta fones de ouvido de vez em quando, solicitando que regravem se houver ruído ou se o chat for "antinatural e tiver muitas marcas de orientação", também precisa ser re -gravado. o padrão para voz de alta qualidade é que o chat seja natural, os assuntos sejam contínuos, o clima seja positivo, mas não possa apressar a conversa, e deve ser contente e não prolixo. após repetidos reajustes, a primeira sessão durou quase 2 horas.

na segunda etapa, foram gravados 60 conjuntos de diálogos com palavras-promessa. embora exista um roteiro de referência, como gravador de ia, zhang xue não só tem que compilar os diálogos de acordo com a situação, mas também garante um padrão de diálogo estrito, ou seja, o último conjunto de diálogos termina com a, depois o próximo conjunto dos diálogos deve começar com b .

ao mesmo tempo, para atender às necessidades de depuração de modelos grandes, cada instrução deve indicar claramente as palavras de alerta: "pode ser mais detalhado? pode ser mais detalhado? pode ser mais detalhado no fone de ouvido?" byte a equipe também deixou claro que o script pode ser alterado, mas apenas as palavras do prompt não podem ser alteradas. em outras palavras, pode ser difícil para a ia reconhecê-lo.

para garantir a qualidade da gravação, caso a gravação não seja clara, as palavras sejam engolidas ou o clima seja insuficiente, a gravação será regravada. quando a gravação terminou, zhang xue deixou o templo dazhong. eram quase 10 horas da noite. para uma sessão de gravação de três horas, a equipe da byte precisa gravar três vezes ao dia, e a programação semanal está quase lotada.

além de pequim, a byte já recrutou gravadores em xangai, hangzhou, chongqing, nanjing, chengdu, tianjin e outras cidades.

para grandes fabricantes de modelos ávidos por novos dados, a operação de “gastar dinheiro para obter dados” não é nova.

em 2023, à medida que grandes modelos de ia se tornam uma nova tendência, os principais fabricantes não apenas compram dados diretamente de empresas terceirizadas, mas também criam cargos de terceirização, como "anotador de big data" e "editor de ia".

em 2023, arlene, que se formou em idiomas menores, passou a “trabalhar” para grandes modelos por meio de sites como o boss direct recruitment durante o vestibular da pós-graduação.

por meio de uma empresa chamada “x data”, alin faz inspeção de aceitação do conteúdo do texto reconhecido pela imagem do modelo grande, ou seja, verifica se o texto do idioma pequeno após o reconhecimento da imagem do modelo grande é consistente com a imagem. de acordo com o preço de “uma palavra ou frase conta como uma caixa de cálculo e cada caixa conta como 1 centavo”, a lin pode ganhar dezenas de yuans por vez calculando centenas de itens.

este ano, a lin também recebeu pedidos de uma empresa de dados terceirizada para fazer anotações de dados de ia relacionados à tradução, e o preço subiu para mais de 1 yuan por peça. no entanto, para avaliar manualmente se os idiomas pequenos, como o francês traduzido pelo modelo grande, são precisos, os anotadores devem não apenas encontrar os erros, mas também usar cores diferentes para anotar o conteúdo da tradução de 5 a 6 grandes modelos. "às vezes leva de 10 a 15 minutos para assistir uma peça."

depois de trabalhar para ia, alin também descobriu que, uma vez que esses grandes modelos eram separados do corpus original dos livros didáticos de pequenas línguas, as novas palavras usadas pelas plataformas sociais ou as palavras habituais de pequenos grupos não eram incluídas em seus próprios bancos de dados. sobre isso, "limitado por direitos autorais, não consegui aprender o novo conteúdo do texto e o efeito da tradução também foi afetado."

além de empresas terceirizadas, os principais fabricantes também estabeleceram seus próprios bancos de dados.

por exemplo, os bancos de dados do baidu são distribuídos em cidades não de primeiro nível, como nanchang, yangquan, taiyuan, guizhou, etc., e para completar a coleta de anotação de dados, leitura de dialeto e outros dados nessas cidades, basta “recrute alguns estudantes universitários locais que possam operar computadores.” o salário mensal geralmente fica entre 3.000 e 5.000 yuans.

no entanto, em comparação com os grandes fabricantes que estão dispostos a gastar dinheiro, é muito mais difícil para os grandes tigres modelo obter dados de alta qualidade.

“dados básicos de alta qualidade e de código fechado têm sido frequentemente monopolizados por grandes empresas. as startups de ia, mesmo os quatro tigres de ia, podem ter acesso apenas a dados marginais.”leo, funcionário de algoritmo de um grande fabricante de modelos, disse à alphabet.

como os dados de alta qualidade podem melhorar significativamente o desempenho do modelo, além dos dados públicos de código aberto, os grandes fabricantes de modelos precisam de dados de maior qualidade para concluir o treinamento, a fim de alcançar a iteração da tecnologia. no entanto, estes dados são frequentemente controlados por grandes empresas. por exemplo, os dados de notícias nacionais são controlados por grandes empresas como tencent e byte, enquanto no exterior são controlados por common crawl, gdelt, the pile, etc.

no exterior, até o youtube anunciou no final de junho que forneceria acordos de licenciamento às principais gravadoras em troca de músicas protegidas por direitos autorais para serem usadas em treinamento. a openai tem celebrado acordos pagos com editores de notícias como politico, the atlantic, time e financial times para usar e citar seus materiais noticiosos.

quando os dados principais são controlados principalmente pelas "partes do canal", como empresas como tencent, byte e meta, os dados principais dos usuários foram divididos já na era da internet móvel. se quiserem alcançar um avanço tecnológico, os quatro. os tigres de ia devem primeiro pagar uma grande quantia em dinheiro.

para os fabricantes, na segunda metade do empreendedorismo dos grandes modelos, a "ilusão do big data" é também uma das razões pelas quais os grandes modelos falham colectivamente em determinar se 9.11 ou 9.9 é maior.

quando a alphabet inseriu "uma menina segurando um gato boneca de pano nos braços" no conch ai do minimax, levou 2 minutos para gerar um vídeo de 6 segundos. os dedos da menina segurando o gato eram ricos em detalhes, mas ela estava segurando o gato. em seus braços. aquele que o usa não é um gato boneco de pano.

diante dos resultados gerados, o funcionário do modelo grande de vídeo da minimax explicou: “isso ocorre porque os dados usados para treinar o modelo grande não incluem gatos ragdoll nas imagens de encadernação de gatos”.

quando o conteúdo gerado pelo modelo é inconsistente com os fatos do mundo real ou com a entrada do usuário, ou seja, o grande modelo fica alucinado e começa a “falar bobagens”.para grandes fabricantes de modelos ávidos por novos usuários, o efeito de geração obviamente determina se o produto tem chance de sair do círculo.

“o comando de entrada era extrair todas as notícias de entretenimento em agosto. como resultado, a ia gerou o conteúdo de notícias de entretenimento em agosto de 2019. ao usar um produto de modelo de cabeça grande, o usuário leal kong fang capturou a ia.” absurdo" várias vezes. no momento do "discurso", ou ele compilou citações que não existiam, ou não conseguiu entender novos conceitos nos últimos dois anos, o que fez com que kong fang tivesse uma crise de confiança em grandes modelos .

agora, kong fang usará 2 a 3 modelos grandes de fabricantes diferentes para "executar" o mesmo problema ao mesmo tempo e, em seguida, comparará informações importantes, como tempo, quantidade, documentos, etc., e também confirmará duas vezes por meio de mecanismos de pesquisa, “agora a ia gera é como tirar cartas, o efeito é incontrolável e é fácil ser retardado mental”, disse kong fang, impotente.

os dados de alta qualidade podem se esgotar gradualmente. para resolver o problema da "ilusão do grande modelo", é obviamente crítico usar quais dados para "alimentar" o grande modelo.

uma pessoa próxima ao baidu disse à alphabet que os grandes fabricantes de modelos comprarão dados diretamente de empresas terceirizadas, o que economiza tempo e esforço, mas não é "fácil" porque a qualidade dos dados adquiridos, sejam eles texto, gravação ou vídeo, é impecável.

para aqueles que estão desenvolvendo ativamente modelos de cabeça grande para clientes b-end, a personalização mais personalizada de modelos grandes para um determinado cliente tornou-se a principal fonte de renda para os negócios de ia dos principais fabricantes hoje. mas se você quiser treinar um modelo tão personalizado, precisará “alimentá-lo” com dados filtrados de acordo com padrões elevados e até mesmo ajustar a demanda de dados de acordo com o efeito de aprendizagem do modelo grande em diferentes estágios. comprando um monte de vozes, você pode aprender com um modelo grande."

a lin, que trabalhou como tradutora de ia em uma empresa de dados terceirizada, também descobriu que “como parte que fornece os dados, sua empresa não parece realmente se importar com a qualidade da fala gerada pelo grande modelo”.

para alin, que se especializou em francês, espanhol e outras línguas menores, ela precisa comparar os efeitos de geração de 5 a 6 modelos grandes para traduzir a fala em línguas menores em texto para o partido a ao mesmo tempo, mas precisa apenas de uma pontuação aproximada. os 5 a 6 textos gerados quais são as diferenças linguísticas detalhadas e como podem ser melhoradas. a empresa terceirizada não pergunta e é "indiferente".

a falta de dados de alta qualidade pode ser a razão pela qual muitos usuários dizem que "o conteúdo gerado por qualquer grande modelo é quase o mesmo", e é também a razão pela qual os usuários "simplesmente mudam para outro grande modelo quando cobram por isto" .

para os usuários, os grandes modelos domésticos que afirmam alcançar o openai e continuar a iterar tecnicamente podem não ter diferenças substanciais, nem podem se tornar usuários fiéis. isso também lança uma camada de confusão sobre os grandes fabricantes de modelos que estão ansiosos para comercializar a light shadow. .

portanto, mesmo que seja demorado, trabalhoso e caro “escrever scripts para ia” pessoalmente, a byte também seguiu um novo caminho. é previsível que, para resolver as questões-chave de comercialização e aquisição de utilizadores, a “compra de dados” com um grande orçamento possa tornar-se o novo ponto de competição para grandes fabricantes de modelos.

(alin, kong fang e zhang xue são pseudônimos no artigo)

notícias

os dados de ia são escassos, os grandes fabricantes estão de olho nos jovens baratos

introdução

minhas informações de contato