noticias

trabajando para empresas de inteligencia artificial, los chinos posteriores al 95 han alcanzado una valoración de 13.800 millones de dólares

2024-09-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

fuente: chuangyebang (id: ichuangyebang)

autor 丨juny

editor | hai yao

fuente de la imagen: bloomberg

en showplace plaza de san francisco, un edificio comercial que alguna vez perteneció a airbnb recientemente dio la bienvenida a un nuevo propietario. en un momento en que la mayoría de las empresas de tecnología están reduciendo su negocio, scale ai, una empresa de anotación de datos de inteligencia artificial fundada por chinos nacidos después de 1995, alquiló una oficina de aproximadamente 180.000 pies cuadrados en el centro de san francisco con un gesto de mano.

no hace mucho, scale ai completó su última ronda de financiación de mil millones de dólares, con una valoración de 13.800 millones de dólares, el doble que la ronda anterior de 7.300 millones de dólares. en esta ronda de financiación f liderada por el principal fondo de silicon valley, accel, además de los inversores existentes como yc y nvidia, también se ha añadido una larga lista de nuevos inversores, entre los que se encuentran: amazon, meta, amd, qualcomm, cisco, intel, qualcomm, etc., con hasta 22 instituciones participantes.

los puntos de partida de la mayoría de estos gigantes para invertir en scale ai son similares: básicamente son clientes de scale ai. con el rápido desarrollo de la ia, el etiquetado de datos, un negocio aparentemente simple, aburrido, que requiere mucha mano de obra y de bajo umbral, se ha convertido paso a paso en un gran negocio gracias a scale ai.

“fábrica de cuello azul” de ia

en el último período, nvidia es sin duda la empresa más mencionada cuando se trata de "palas de venta de ia". pero lo que mucha gente no sabe es que scale ai desempeña el mismo papel. como todos sabemos, la potencia informática, los algoritmos y los datos constituyen los tres pilares de la inteligencia artificial. nvidia ocupa la cima de la potencia informática de la ia, y scale ai es actualmente el principal proveedor de servicios que brinda soporte de datos para la ia.

scale ai se fundó en 2016. su fundador es el chino alexandr wang, que nació en 1997. tenía solo 19 años cuando fundó la empresa y acababa de completar su primer año en el mit. cuando se fundó scale, se centró principalmente en la anotación de datos de inteligencia artificial. su negocio principal es ayudar a las empresas a recopilar, limpiar, anotar y gestionar datos de alta calidad a gran escala para entrenar y optimizar modelos de aprendizaje automático.

de hecho, antes del surgimiento de scale ai, la anotación de datos había estado en una posición "marginal" en el campo de la ia durante mucho tiempo. la llamada anotación de datos se refiere al proceso de agregar información estructurada a datos sin procesar, como imágenes, texto, videos o audio, para que los modelos de aprendizaje automático puedan comprender y aprender de estos datos. ¿suena complicado? pero, de hecho, esto es algo que incluso un estudiante de primaria puede hacer. por ejemplo, les doy una imagen y les pido que marquen los peatones, vehículos, edificios, etc. en la imagen. pedirle que marque qué exclamaciones y cuáles son preguntas. una parte de su voz puede etiquetarse con emoción o identidad del hablante, etc.

fuente: shaip

aunque el principio es sencillo, estos datos anotados son indispensables para el desarrollo de la inteligencia artificial. los modelos de ia requieren una gran cantidad de datos anotados para aprender a tener funciones como reconocimiento, clasificación y predicción.

pero el dolor de cabeza para muchas empresas de ia es que, aunque algunas herramientas automatizadas pueden acelerar parte del proceso de anotación, para obtener datos de anotación de alta calidad y precisión, todavía se requiere una gran cantidad de trabajo manual para procesar, etiquetar y verificar los datos. especialmente en campos con requisitos de alta precisión, como imágenes médicas, conducción autónoma o aplicaciones militares, un etiquetado incorrecto puede tener consecuencias graves. debido a esto, la anotación de datos se considera un negocio que requiere mucha mano de obra y muchas empresas no están dispuestas y no tienen la energía para administrarlo por sí mismas, lo que hace que el proceso de obtención de datos anotados sea lento y costoso.

scale ai se hizo cargo de este “trabajo duro”. el posicionamiento inicial de scale ai es crear una plataforma de etiquetado eficiente y precisa combinando tecnología automatizada y revisión humana para ayudar a las empresas a procesar y etiquetar rápidamente conjuntos de datos a gran escala. su modelo de negocio es muy simple: contacta empresas con necesidades de etiquetado, realiza un preprocesamiento y una limpieza simples de los datos y luego los subcontrata a trabajadores en áfrica, el sudeste asiático, etc. para etiquetar los datos.

en 2017, scale ai estableció remotasks como su agencia de subcontratación interna. ha creado docenas de instituciones en kenia, filipinas, venezuela y otros lugares, y ha capacitado a miles de anotadores de datos en todas partes. la mayor parte del trabajo de estos anotadores es remunerado. pieza por pieza, y el ingreso por una sola llamada es tan bajo como unos pocos centavos. muchos trabajadores subcontratados incluso ganan menos de 1 dólar por hora. bajo este modelo de "fábrica global", el margen de beneficio bruto de scale ai puede permanecer por encima del 65% durante mucho tiempo.

aprovecha cada oportunidad

aunque la anotación de datos parece ser un negocio de bajo umbral, estuvo casi en blanco en el mercado durante el "período silencioso de la ia" alrededor de 2016. solo algunas grandes empresas como google y amazon tenían sus propios departamentos de anotación de datos. el éxito de scale ai se debe en gran medida a su conocimiento preciso de esta oportunidad y su capacidad para aprovechar varias tendencias en el desarrollo de la industria de la inteligencia artificial en los últimos 10 años.

el primero es la conducción autónoma. unos meses después de la fundación de scale ai, descubrieron la rígida y a gran escala de la demanda de anotación de datos en el campo de la conducción autónoma. el desarrollo de la tecnología de conducción autónoma se basa en una gran cantidad de datos de anotaciones de alta precisión, como datos de imágenes de escenas de carreteras, peatones y otros objetos. las empresas de automóviles necesitan decenas de miles de horas de datos de vídeo para que las anotaciones entrenen y verifiquen sus algoritmos. en cuanto a toda la conducción autónoma, desde la perspectiva de la industria, más del 90% de la anotación de datos en ese momento era principalmente manual. scale ai utiliza una plataforma de anotación de datos eficiente y utiliza anotaciones asistidas por modelos y preprocesamiento de datos para acelerar el proceso de procesamiento de datos, reduciendo así significativamente los costos y el tiempo de anotación, atrayendo a empresas como waymo y cruise, que estaban en el centro de atención en ese momento, a conviértase en sus clientes y luego gane gradualmente un punto de apoyo en el campo de la anotación de datos de conducción autónoma.

fuente de la imagen: escala ai

después de disfrutar inicialmente del éxito en el campo de la conducción autónoma, scale ai ha comenzado a entrar de lleno en el mercado de aiaas (ai como servicio). se extiende desde el simple etiquetado de datos hasta los servicios de datos, proporcionando soluciones de proceso completo, desde el etiquetado y la gestión de datos, la capacitación y evaluación de modelos, hasta el desarrollo y la implementación de aplicaciones de ia.

además, para abordar el desafío de la insuficiencia de datos en algunas industrias, scale ai también se extiende a la generación de datos sintéticos para ayudar a entrenar modelos mediante la creación de nuevos conjuntos de datos a partir de datos existentes. entonces, en los años siguientes, scale ai creció rápidamente en el campo de los datos y sus clientes se expandieron a los campos médico, de defensa nacional, comercio electrónico, servicios gubernamentales y otros campos. más de dos años después de su fundación, los ingresos de scale ai se acercan a los 50 millones de dólares.

scale ai también aprovechó con precisión la oportunidad de la explosión de la ia generativa. ya en gpt-2, scale realizó el primer experimento colaborativo sobre aprendizaje reforzado con retroalimentación humana con openai, y luego extendió estas tecnologías a instructgpt y otros campos. dado que los modelos de ia generativa requieren cantidades masivas de datos de entrenamiento para mejorar la precisión y diversidad del contenido generado, el crecimiento explosivo de los grandes modelos de lenguaje ha promovido en gran medida la demanda de la industria de datos anotados de alta calidad. scale ai integra anotación de datos, síntesis de datos y otros. los servicios proporcionan el soporte de datos necesario para la ia generativa. además, scale ai también ayuda a las empresas a generar rápidamente api personalizadas para reducir la complejidad y el costo de los modelos de capacitación por sí mismos.

fuente de la imagen: escala ai

para la ia generativa, scale ha lanzado servicios de plataforma de proceso completo, incluida la plataforma de herramientas para desarrolladores scale spellbook, el producto de datos sintéticos scale synthetic, la plataforma genai de nivel empresarial, etc. el objetivo es permitir que las empresas tengan suficientes datos en cada escenario para respaldar el modelo. capacitación, con sus ventajas únicas en el campo de los datos, scale ai ha experimentado un aumento de clientes en los últimos dos años, incluidos gigantes como openai, meta, aws y nvidia, así como unicornios emergentes como cohere y adept. y muchos de ellos también se convirtieron en inversores de scale ai en esta ronda de financiación.

por qué scale ai se está abriendo paso

en cuanto al auge de la ia en escala, mucha gente se pregunta por qué china parece tener una ventaja innata para una industria tan avanzada y que requiere mucha mano de obra. en general, hay dos factores principales detrás de esto, uno es la industria y el otro es la financiación.

antes del auge de la ia generativa, el desarrollo de la inteligencia artificial nacional alguna vez fue líder en aplicaciones de escena. el negocio de anotación de datos en realidad comenzó a desarrollarse muy temprano, pero no alcanzó una gran escala. aunque muchas empresas líderes han establecido departamentos de anotación de datos, se dedican principalmente a su propio negocio en lugar de buscar hacer coincidir los datos con los recursos de diversas industrias. al mismo tiempo, precisamente debido al dividendo demográfico interno, el costo de obtener datos etiquetados es bajo y las empresas no tienen incentivos para adoptar plataformas tecnológicas. se entiende que durante mucho tiempo, los precios en la industria nacional de anotación de datos han sido muy transparentes. los salarios por hora suelen oscilar entre 10 y 25 rmb y la mayoría no tiene calificaciones académicas.

fuente: empleado directo de boss

en comparación, el coste de la mano de obra en estados unidos es elevado. en linkedin, indeed y otras plataformas, la mayoría de los salarios por hora marcados por los datos oscilan entre 30 y 200 dólares estadounidenses. esto obliga objetivamente a las empresas a pensar en soluciones desde un punto de vista técnico. desde el punto de vista de la producción de datos o la contratación de servicios relacionados.

desde la perspectiva del entorno financiero, el mercado nacional de anotación de datos siempre ha estado al borde de la financiación en el campo de la ia. alrededor de 2021, las investigaciones estiman que el tamaño de todo el mercado de anotación de datos de china será de sólo 4.300 millones de yuanes, y sólo crecerá hasta 5.100 millones de yuanes en 2022. sin duda, no vale la pena mencionar este número en comparación con los billones de escala de todo el mercado de la ia, y también ha causado dificultades financieras a las empresas de anotación de datos. en 2021, cuando scale ai haya completado la financiación de la serie e de 325 millones de dólares y su valoración alcance los 7.300 millones de dólares, la mayoría de las nuevas empresas similares en china todavía se encuentran en la ronda de la serie a.

la razón por la que antes la escala nacional era tan pequeña era porque simplemente se consideraba simplemente el aspecto del etiquetado. de hecho, los servicios de datos de proceso completo, como la gestión de datos, la evaluación de datos y la síntesis de datos derivados de la anotación de datos, son la parte de valor agregado de esta industria.

en cuanto a la importancia de los datos para el desarrollo de grandes modelos de lenguaje, alex wang, fundador de scale ai, dijo en una entrevista reciente que la gente ha agotado todos los datos en internet y quiere desarrollar una inteligencia artificial más poderosa que gpt-4.5. entonces se deben construir datos de vanguardia. los llamados "datos de vanguardia" se refieren a datos que están estrechamente relacionados con escenarios de aplicación y pueden reflejar las últimas tendencias y cambios de manera oportuna. a menudo contienen una gran cantidad de escenarios raros o de cola larga, lo que ayuda a mejorar el rendimiento de la ia en situaciones atípicas y promover la inteligencia artificial. los límites de las capacidades inteligentes se están desarrollando en direcciones como el razonamiento complejo y la multimodalidad.

a medida que la ia se desarrolla en profundidad, la capacitación de datos futura debe coincidir más con tareas específicas y escenarios de aplicación específicos. por lo tanto, también es necesario extraer y producir más datos nuevos y diferenciados. esta es la razón de la ronda actual de mil millones de scale ai. el enfoque del trabajo después de la financiación en dólares estadounidenses ha abierto aún más los límites imaginativos de la anotación de datos.