los datos de ia escasean, los grandes fabricantes miran a los jóvenes baratos

2024-09-03

para obtener nuevos datos y entrenar grandes modelos de ia, las principales empresas de internet como bytedance están tomando el asunto en sus propias manos y contratando "grabadores de ia" a precios que oscilan entre los 300 yuanes por vez para personalizar el corpus.

el edificio de oficinas de byte ubicado en el templo dazhong en beijing es el hogar del equipo comercial douyin y del equipo comercial volcano engine de byte. desde principios de año, han estado reclutando aficionados para grabar el modelo doubao. dos personas forman un equipo, cada vez son 3 horas, incluidos 80 minutos de chat gratuito y 60 grupos de conversaciones con palabras breves, y el monto de liquidación único es 300 yuanes.

la grabación de 3 horas estuvo acompañada por al menos 2 empleados de name durante todo el proceso. "la conversación no debe ser demasiado larga, debe tener contenido e información, si la calidad es demasiado mala, el dinero se deducirá según corresponda". "las palabras clave no se pueden modificar y el modelo grande no puede entenderlas". de 18 a 21 horas, las instrucciones dadas por los empleados de byte durante el proceso de grabación revelaron más su preocupación por la calidad de la grabación.

subtítulo: vista interior del estudio de grabación del templo dazhong

de hecho, ciudades de segundo nivel como chengdu, taiyuan y guizhou ya se han convertido en ciudades de subcontratación de datos de ia para grandes empresas como bytedance, baidu y alibaba. "el año pasado, los estudiantes universitarios podían realizar anotaciones de datos y lectura de dialectos. ahora estamos reclutando pasantes de 211 y 985 para liderar la subcontratación", dijo un gerente de producto de un modelo grande.

minimax, que acaba de lanzar un gran modelo de vídeo en septiembre, su fundador yan junjie dijo a alphabet que en shanghai, además de datos de alta calidad de las empresas de corpus, minimax también comprará algunos datos basados en plataformas.

los datos, los algoritmos y la potencia informática son los tres pilares de los grandes modelos de ia, entre los cuales los datos son la base para entrenar modelos grandes. sin embargo, debido a que los datos de internet están dispersos en diferentes plataformas y rodeados de barreras, los datos públicos que pueden usarse para entrenar grandes modelos de ia se están agotando.

en junio, la organización de investigación epoch ai publicó un nuevo estudio que predice que las empresas de tecnología agotarán los datos disponibles para el entrenamiento público de modelos de lenguaje de ia entre 2026 y 2032. ya en mayo de 2023, el director ejecutivo de openai, altman, admitió públicamente que las empresas de inteligencia artificial agotarán todos los datos en internet en un futuro próximo.

cómo encontrar nuevos datos de alta calidad para "alimentar" modelos grandes se ha convertido en un problema común para todos los grandes equipos de modelos de ia.

algunas grandes empresas se han visto envueltas repetidamente en disputas debido a sospechas de uso no autorizado de datos de terceros. en agosto, openai fue demandada por más de 100 presentadores de youtube, acusándola de transcribir ilegalmente millones de vídeos de youtube para entrenar modelos de gran tamaño. también participan gigantes como nvidia, apple y anthropic.

para los grandes fabricantes, sólo tener sus propios datos de fuente cerrada y de alta calidad puede garantizar la puntualidad y la calidad de los datos que alimentan los modelos grandes. saltarse plataformas de terceros con control de calidad inestable e intentar escribir personalmente "scripts" para la ia puede ser un nuevo enfoque para los grandes fabricantes de modelos.

a principios de este año, la ia que registraba trabajos a tiempo parcial con un precio de 300 yuanes por sesión apareció silenciosamente en plataformas como xiaohongshu.

en comparación con el trabajo a tiempo parcial de grabación con ia en plataformas como boss direct empleo, que paga entre 30 y 55 yuanes por hora, el llamado "estudio de grabación a tiempo parcial en el estudio superior" que paga 300 yuanes por hora y lo que está grabado en el templo dazhong de beijing es bastante tentador.

en agosto, cuando me incorporaron al grupo de grabación a través de wechat, alphabet list (id: wujicaijing) descubrió que ya había más de 200 personas esperando para grabar en el grupo. dado que está estipulado que un grupo de dos personas puede grabar una conversación durante hasta tres horas, después de unirse al grupo, los mensajes de wechat como "buscando pareja" y "¿alguien puede grabar conmigo?"

de hecho, no es fácil ser un grabador de ia y "escribir guiones para ia" por 300 yuanes por vez.

en primer lugar, antes de grabar, todos deben cargar una grabación de conversación de 2 a 3 minutos como una "muestra". los revisores de byte decidirán si notifican a los usuarios de grabación a tiempo parcial en función del efecto de la muestra. yeste proceso será revisado por 3 empleados. solo si 2 de ellos pasan la revisión se podrá reservar directamente el tiempo de grabación. en caso contrario, habrá una revisión cruzada.

después de la segunda revisión de la muestra, zhang xue concertó una cita para un horario de grabación de 6 a 9 p. m. en la segunda semana después de enviar la muestra. en el chat grupal, muchas personas quedaron atrapadas en la sesión de muestra: "al profesor de revisión le gustan los que pueden charlar y les encanta charlar". las conversaciones emocionales y el contenido temático hicieron que más personas se quedaran atrapadas en el primer umbral.

nota: grupo de grabación del templo de dazhong fuente: captura de pantalla de la lista alfabética

la noche de la grabación, zhang xue se sentó en una silla a través del vidrio transparente del estudio de grabación, ajustándose a la mejor posición donde la voz pudiera grabarse con claridad, y escuchó las instrucciones de los empleados de byte a través de auriculares.

la primera sesión fue una charla gratuita de 80 minutos entre ambos sin ningún tema. los requisitos del personal de byte son que el chat no puede ser una "pequeña charla" y debe ser contenido. al mismo tiempo, cada tema no puede exceder los 10 minutos y no puede haber monólogos largos.

zhang xue y su pareja hablaron en la sala de grabación a través de unos auriculares enormes, intentando no hacer pausas durante 80 minutos. al mismo tiempo, también debes intentar evitar que tu cuerpo se mueva y emita tos, risa y otros sonidos que alteren la calidad de la grabación.

para garantizar la calidad de la voz, el personal de byte conecta auriculares de vez en cuando, lo que les solicita que vuelvan a grabar si hay ruido o si el chat es "antinatural y tiene demasiadas marcas de orientación", también es necesario volver a grabar. -grabado. el estándar para una voz de alta calidad es que el chat sea natural, los temas sean continuos, el estado de ánimo sea positivo pero sin prisas por hablar, y debe ser contenido y no prolijo. después de repetidos reajustes, la primera sesión duró casi 2 horas.

en la segunda etapa, se grabaron 60 series de diálogos con palabras clave. aunque hay un guión como referencia, como grabador de ia, zhang xue no solo tiene que compilar los diálogos de acuerdo con la situación, sino que también garantiza un patrón de diálogo estricto, es decir, el último conjunto de diálogos termina con a, luego el siguiente conjunto. de diálogos debe comenzar con b .

al mismo tiempo, para satisfacer las necesidades de depuración de modelos grandes, cada instrucción debe indicar claramente las palabras clave: "¿puede ser más detallado? ¿puede ser más detallado? ¿puede ser más detallado en el auricular?" byte el personal también dejó en claro que el guión se puede cambiar, pero solo las palabras clave no se pueden cambiar. en otras palabras, puede resultar difícil para la ia reconocerlo.

para garantizar la calidad de la grabación, si la grabación no es clara, las palabras se tragan o el estado de ánimo es insuficiente, la grabación se volverá a grabar. cuando terminó la grabación, zhang xue abandonó el templo de dazhong. eran casi las 10 de la noche. para una sesión de grabación de tres horas, el personal de byte tiene que grabar tres veces al día y la agenda semanal está casi llena.

además de beijing, byte ya ha contratado grabadores en shanghai, hangzhou, chongqing, nanjing, chengdu, tianjin y otras ciudades.

para los grandes fabricantes de modelos que están ávidos de nuevos datos, la operación de "gastar dinero para obtener datos" no es nueva.

en 2023, a medida que los grandes modelos de ia se conviertan en una nueva tendencia, los principales fabricantes no solo comprarán datos directamente a través de empresas de terceros, sino que también crearán puestos de subcontratación como "anotadores de big data" y "editores de ia".

en 2023, arlene, que se especializó en idiomas menores, comenzó a "trabajar" para modelos grandes a través de sitios web como boss direct recruitment durante el examen de ingreso de posgrado.

a través de una empresa llamada "x data", alin realiza una inspección de aceptación del contenido del texto reconocido por la imagen del modelo grande, es decir, verifica si el texto en idioma pequeño después del reconocimiento de la imagen del modelo grande es consistente con la imagen. según el precio de "una palabra u oración cuenta como un cuadro de cálculo y cada cuadro cuenta como 1 centavo", a lin puede ganar docenas de yuanes a la vez calculando cientos de artículos.

este año, a lin también recibió pedidos a través de una empresa de datos de terceros para realizar anotaciones de datos de ia relacionados con la traducción, y el precio aumentó a más de 1 yuan por pieza. sin embargo, para juzgar manualmente si los idiomas pequeños, como el francés, traducidos por el modelo grande son precisos, los anotadores no solo deben encontrar errores, sino también usar diferentes colores para anotar el contenido de la traducción de 5 a 6 idiomas grandes. modelos. "a veces se necesitan entre 10 y 15 minutos para ver una pieza".

después de trabajar para ai, alin también descubrió que una vez que estos grandes modelos se separaban del corpus original de los libros de texto de idiomas pequeños, las nuevas palabras utilizadas por las plataformas sociales o las palabras habituales de los grupos pequeños no se incluían en sus propias bases de datos. al respecto, "limitado por los derechos de autor, no pude aprender contenido de texto nuevo y el efecto de traducción también se vio afectado".

además de las empresas de subcontratación de terceros, los principales fabricantes también han creado sus propias bases de datos.

por ejemplo, las bases de datos de baidu se distribuyen en ciudades que no son de primer nivel como nanchang, yangquan, taiyuan, guizhou, etc., y para completar la recopilación de anotaciones de datos, lectura de dialectos y otros datos en estas ciudades, solo necesita "recluta algunos estudiantes universitarios locales que puedan operar computadoras". el salario mensual suele oscilar entre 3.000 y 5.000 yuanes. "meituan ya tiene su propio entrenador de inteligencia artificial en la fábrica.

sin embargo, en comparación con los grandes fabricantes que están dispuestos a gastar dinero, es mucho más difícil para los grandes modelos obtener datos de alta calidad.

"los datos básicos de fuente cerrada y de alta calidad a menudo han sido monopolizados por las grandes empresas. las nuevas empresas de ia, incluso los cuatro tigres de la ia, pueden tener sólo acceso a datos marginales".dijo a alphabet leo, miembro del personal de algoritmos de un gran fabricante de modelos.

dado que los datos de alta calidad pueden mejorar significativamente el rendimiento del modelo, además de los datos públicos de código abierto, los grandes fabricantes de modelos necesitan datos de mayor calidad para completar la capacitación y lograr la iteración tecnológica. sin embargo, estos datos suelen estar controlados por grandes empresas. por ejemplo, los datos de noticias nacionales están controlados por grandes empresas como tencent y byte, mientras que en el extranjero están controlados por common crawl, gdelt, the pile, etc.

en el extranjero, incluso youtube anunció a finales de junio que ofrecería acuerdos de licencia a las principales compañías discográficas a cambio de música protegida por derechos de autor para utilizarla en formación. openai ha celebrado acuerdos pagos con editores de noticias como politico, the atlantic, time y financial times para utilizar y citar sus materiales informativos.

cuando los datos clave se controlan principalmente dentro de las "partes del canal", como empresas como tencent, byte y meta, los datos clave de los usuarios se han dividido ya en la era de internet móvil. si quieren lograr un avance tecnológico, los cuatro. los tigres de ia primero deben pagar una pequeña "tarifa de datos".

para los fabricantes, en la segunda mitad del emprendimiento de los grandes modelos, la "ilusión de los grandes datos" es también una de las razones por las que los grandes modelos en conjunto no logran determinar si 9.11 o 9.9 es más grande.

cuando alphabet ingresó "una niña sosteniendo un gato muñeco de trapo en sus brazos" en conch ai de minimax, tomó 2 minutos generar un video de 6 segundos. los dedos de la niña sosteniendo al gato eran ricos en detalles, pero ella estaba sosteniendo al gato. en sus brazos. el que lo lleva no es un gato muñeco de trapo.

ante los resultados generados, el empleado del modelo de video de minimax explicó: "esto se debe a que los datos utilizados para entrenar el modelo grande no incluyen a los gatos ragdoll en las imágenes vinculantes de los gatos".

cuando el contenido generado por el modelo es inconsistente con los hechos del mundo real o la entrada del usuario, es decir, el modelo grande se vuelve alucinante y comienza a "decir tonterías".para los grandes fabricantes de modelos ansiosos por nuevos usuarios, el efecto generación obviamente determina si el producto tiene posibilidades de salir del círculo.

"el comando de entrada fue extraer todas las noticias de entretenimiento en agosto. como resultado, la ia generó el contenido de noticias de entretenimiento en agosto de 2019". al utilizar un producto modelo de cabeza grande, el usuario leal kong fang captó la ia ". "tonterías" varias veces. en el momento del "discurso", recopiló citas que no existían en absoluto o no pudo comprender nuevos conceptos en los últimos dos años, lo que provocó que kong fang tuviera una crisis de confianza en los modelos grandes. .

ahora, kong fang utilizará 2 o 3 modelos grandes de diferentes fabricantes para "ejecutar" el mismo problema al mismo tiempo y luego comparará información clave como tiempo, cantidad, documentos, etc., y también lo confirmará dos veces. a través de los motores de búsqueda, "ahora la ia genera es como robar cartas, el efecto es incontrolable y es fácil tener retraso mental", dijo kong fang impotente.

los datos de alta calidad pueden agotarse gradualmente. para resolver el problema de la "ilusión del modelo grande", es obviamente fundamental utilizar qué datos "alimentan" el modelo grande.

una persona cercana a baidu dijo a alphabet que los grandes fabricantes de modelos comprarán datos directamente a través de terceras empresas, lo que ahorra tiempo y esfuerzo pero no es "fácil" porque la calidad de los datos adquiridos, ya sea texto, grabación o vídeo, es impecable. controlado.

para aquellos que están desarrollando activamente modelos de cabeza grande para clientes de gama b, una personalización más personalizada de modelos grandes para un determinado cliente se ha convertido en la principal fuente de ingresos para el negocio de ia de los principales fabricantes en la actualidad. pero si desea entrenar un modelo tan personalizado, debe "alimentarlo" con datos filtrados de acuerdo con altos estándares e incluso ajustar la demanda de datos de acuerdo con el efecto de aprendizaje del modelo grande en diferentes etapas. comprando un montón de voces puedes aprenderlo con un modelo grande”.

a lin, que trabajó como traductora de ia en una empresa de datos de terceros, también descubrió que “como parte que proporciona los datos, a su empresa no parece importarle realmente la calidad del discurso generado por el modelo grande”.

para alin, que se especializa en francés, español y otros idiomas menores, necesita comparar los efectos de generación de 5 a 6 modelos grandes para traducir el habla de un idioma menor a texto para el partido a al mismo tiempo, pero solo necesita una puntuación aproximada. los 5 o 6 textos generados ¿cuáles son las diferencias de idioma detalladas y cómo se pueden mejorar? la empresa externa no pregunta y se muestra "indiferente".

la falta de datos de alta calidad puede ser la razón por la que muchos usuarios dicen que "el contenido generado por cualquier modelo grande es casi el mismo", y también es la razón fundamental por la que los usuarios "simplemente cambian a otro modelo grande una vez que cobran por él" .

para los usuarios, los grandes modelos nacionales que afirman estar al día con openai y continuar iterando técnicamente pueden no tener diferencias sustanciales y no pueden convertirse en usuarios leales. esto también genera una capa de confusión sobre los grandes fabricantes de modelos que están ansiosos por comercializar light shadow. .

por lo tanto, incluso si "escribir guiones para ia" en persona requiere mucho tiempo, es laborioso y costoso, byte también ha tomado un nuevo camino. es previsible que para solucionar los problemas clave de comercialización y adquisición de usuarios, la "compra de datos" con una gran cantidad de dinero probablemente se convierta en el nuevo punto de competencia para los grandes fabricantes de modelos.

(alin, kong fang y zhang xue son seudónimos en el artículo)

noticias

los datos de ia escasean, los grandes fabricantes miran a los jóvenes baratos

introducción

mi información de contacto