noticias

Li Mu: Un año para iniciar un negocio, tres años para estar vivo

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Publicado con permiso de Heart of the Machine

Autor: Li Mu

  • Permítanme informar a mis amigos sobre los avances, las luchas y las reflexiones de LLM en el primer año de emprendimiento.

Cuando estuve en Amazon por quinto año, pensé en iniciar un negocio, pero la epidemia lo retrasó. Al séptimo año y medio, sentí que me picaba demasiado, así que renuncié. Ahora que lo pienso, si hay algo que tengo que probar en mi vida, lo haría temprano. Porque una vez que realmente comienzas, encontrarás que hay tantas cosas nuevas que aprender y siempre te preguntarás por qué no empezaste antes.

Nombre: Origen del bosón AI

Antes de iniciar un negocio, realicé una serie de proyectos que llevaban el nombre de Gluon. En física cuántica, Gluon es un bosón que une los quarks, lo que simboliza que este proyecto comenzó como un proyecto conjunto entre Amazon y Microsoft. En ese momento, el gerente del proyecto le dio unas palmaditas en la cabeza y salió el nombre, pero nombrarlos era muy difícil para los programadores. Luchamos con varios nombres de archivos y variables todos los días. Al final, la nueva empresa simplemente le puso el nombre de Boson. Espero que todos sonrían con complicidad cuando reciban el meme "Bosones y fermiones forman el mundo". Pero no esperaba que mucha gente pensara que era Boston.

"Estoy en Boston. ¿Nos vemos alguna vez?" "¿Eh? Pero estoy en el Área de la Bahía".

Financiación: el principal inversor se escapó el día antes de firmar

A finales de 2022, se me ocurrieron dos ideas sobre el uso de modelos de lenguaje grandes (LLM) como herramientas de productividad. Me encontré con Zhang Yiming y le pedí consejo. Después de la discusión, preguntó: ¿Por qué no hacer el LLM? Inconscientemente me estremecí: nuestro equipo en Amazon había estado haciendo esto durante varios años, con decenas de miles de tarjetas y muchas dificultades como blabla. Yiminghehe dijo: Se trata de dificultades a corto plazo y debemos adoptar una visión a largo plazo.

Mi ventaja es que escuché los consejos y realmente decidí convertirme en LLM. El equipo fundador reunió a las personas responsables de los datos, la capacitación previa, la capacitación posterior y la arquitectura, y fue a recaudar fondos. Con suerte, rápidamente recibí una inversión inicial. Pero el dinero no alcanza para comprar la tarjeta, así que tengo que conseguir la segunda ronda. El líder de esta ronda era una organización muy grande, que tardó varios meses en documentar y negociar los términos. Pero el día antes de la firma, el dirigente dijo que no invertiría, lo que provocó directamente la retirada de varios inversores. Estoy muy agradecido con los inversores restantes por completar esta ronda y conseguir el billete para realizar un LLM.

Si reflexiono sobre ello hoy, con el entusiasmo del mercado de capitales todavía presente en ese momento, podría seguir recaudando fondos. Tal vez, como otros amigos, ahora tenga mil millones en efectivo en mis manos. En ese momento, me preocupaba que si recaudaba demasiado dinero, sería difícil salir o me arrojarían al cielo. Ahora que lo pienso, iniciar un negocio es cambiar tu vida contra viento y marea. ¿Cuál es la salida?

Máquinas: las primeras personas en comer cangrejos

Cuando tengas dinero, compra una GPU. Pregunté a varios proveedores y la respuesta unánime fue que el H100 se entregaría un año después. Tuve una idea y le escribí un correo electrónico directamente a Lao Huang. Lao Huang respondió al instante y dijo que echaría un vistazo. Una hora más tarde llamó el director general de Supermicro. Pagué un poco más, hice cola y obtuve la máquina 20 días después. Tuve el honor de comer cangrejos temprano.

Después de comer cangrejos, dudé de mi vida y me encontré con todo tipo de bichos increíbles. Por ejemplo, la fuente de alimentación de la GPU era insuficiente, lo que provocaba inestabilidad. Más tarde, los ingenieros de Supermicro modificaron el código del BIOS y lo parchearon; por ejemplo, el ángulo de corte de la fibra óptica era incorrecto, lo que provocó una comunicación inestable, por ejemplo, el diseño de red recomendado por Nvidia; no era óptimo, así que hicimos un nuevo plan y, más tarde, Nvidia también adoptó este plan. Todavía no lo entiendo. Compramos menos de mil tarjetas, por lo que se nos puede considerar pequeños compradores. Pero, ¿los grandes compradores no han encontrado estos problemas que nosotros encontramos? ¿Por qué necesitamos nuestra depuración?

Al mismo tiempo, también alquilamos la misma cantidad de H100 y había todo tipo de errores. La GPU tenía problemas todos los días, e incluso nos preguntamos si éramos los únicos en esta nube. Más tarde, vi el informe técnico de Llama 3 que decía que después de que cambiaron a H100, el modelo fue interrumpido cientos de veces durante el entrenamiento. Puedo simpatizar con el dolor entre líneas.

Si se compara la autoconstrucción y el arrendamiento, el coste del alquiler durante tres años es casi el mismo que el coste de la autoconstrucción. La ventaja de alquilar una tarjeta es la tranquilidad. La autoconstrucción tiene dos beneficios. Primero, si la tecnología de Nvidia todavía está muy por delante en tres años, puede controlar los precios para que las GPU aún puedan mantener su valor. Otro es el bajo costo del almacenamiento de datos de construcción propia. El almacenamiento debe estar cerca de la GPU, ya sea una nube grande o una nube de GPU pequeña, el precio del almacenamiento es alto. Sin embargo, un modelo de entrenamiento puede utilizar varios TB de espacio para almacenar puntos de control y el almacenamiento de datos de entrenamiento comienza en 10 PB. Si utiliza AWS S3, 10 PB cuestan dos millones al año. Si este dinero se utiliza para la autoconstrucción, puede llegar a los 100 PB.

Negocios: Gracias a los clientes, alcanzamos el punto de equilibrio en el primer año

Tuvimos mucha suerte de que nuestros ingresos y gastos estuvieran nivelados durante el primer año. Nuestros gastos son principalmente en mano de obra y potencia informática. Gracias a los recursos financieros de Openai y la gran ventaja de Nvidia, ambos gastos son bastante grandes. Nuestra fuente de ingresos es la fabricación de modelos personalizados para grandes clientes. La mayoría de las empresas que ingresaron a LLM muy temprano se debían a que sus directores ejecutivos tenían mucha capacidad de toma de decisiones. No se dejaron intimidar por la alta potencia informática y los costos laborales, y presionaron decisivamente a sus equipos internos para que cooperaran en la prueba de nuevas tecnologías. Estoy muy agradecido al cliente por darnos tiempo para respirar, de lo contrario habría estado corriendo hacia varios inversores en los últimos meses.

A continuación, más empresas deberían intentar utilizar LLM, ya sea para actualizar sus propios productos o reducir costos y aumentar la eficiencia. La razón es que, por un lado, los costos de la tecnología están disminuyendo y, por otro lado, los líderes de la industria (como nuestros clientes) lanzarán sucesivamente productos basados ​​​​en LLM, haciendo avanzar la industria.

También estamos prestando atención a la implementación de LLM en toC. Los principales actores de la ola anterior, como c.ai y perplexity, todavía están buscando modelos de negocio, pero también hay una docena de pequeñas aplicaciones nativas LLM con buenos ingresos. Proporcionamos un modelo para una empresa de nueva creación que juega un papel. Se centran en jugadores profundos y equilibran los ingresos y los gastos, lo cual también es fantástico. Las capacidades del modelo aún están evolucionando y se están integrando más modalidades (voz, música, imágenes, videos). Creo que habrá aplicaciones más imaginativas en el futuro.

En general, la industria y el capital siguen impacientes. Este año, varias empresas que llevan más de un año establecidas pero que han recaudado miles de millones han optado por salir. De la tecnología al producto es un proceso largo, y lo normal es que tarde 2 o 3 años. Teniendo en cuenta la aparición de necesidades de los usuarios, puede llevar más tiempo. Nos centramos en el presente, exploramos el camino en la niebla y seguimos siendo optimistas sobre el futuro.

Tecnología: cuatro etapas de la cognición LLM

La comprensión de LLM ha pasado por cuatro etapas. La primera etapa es de Bert a GPT3. Parece que se puede realizar la nueva arquitectura y los big data. Cuando estábamos en Amazon, también entramos inmediatamente para realizar capacitación e implementación de productos a gran escala.

La segunda etapa fue cuando se lanzó GPT4 cuando comencé mi negocio y quedé muy sorprendido. La mayor parte del motivo se debe al hecho de que la tecnología no se hace pública. Según los rumores, se estima que el tiempo de entrenamiento de un modelo es de 100 millones y el costo de datos estándar es de decenas de millones. Muchos inversores me preguntaron cuánto costaría reproducir GPT4 y dije entre 300 y 400 millones. Más tarde, uno de ellos invirtió cientos de millones.

La tercera etapa es el primer medio año de iniciar un negocio. No podemos crear GPT4, así que comencemos por problemas específicos. Entonces comencé a buscar clientes, incluidos aquellos del sector de juegos, educación, ventas, finanzas y seguros. Entrenar modelos basados ​​en necesidades específicas. Al principio no había buenos modelos de código abierto en el mercado, por lo que entrenamos desde cero. Más tarde, salieron muchos buenos modelos, lo que redujo nuestros costos. Luego, diseñe un método de evaluación basado en el escenario empresarial, marque los datos, vea dónde no funciona el modelo y mejórelo en consecuencia.

A finales de 2023, nos sorprendió gratamente descubrir que nuestros modelos de la serie Photon (un tipo de bosón) superaron a GPT4 en aplicaciones de clientes. La ventaja de personalizar el modelo es que el costo de inferencia es 1/10 de llamar a la API. Aunque las API son mucho más baratas hoy en día, nuestra propia tecnología también está mejorando y sigue siendo una décima parte del coste. Además, QPS, retrasos, etc. están mejor controlados. Lo que entendemos en esta etapa es que, para aplicaciones específicas, podemos superar a los mejores modelos del mercado.

La cuarta etapa es el segundo semestre después de iniciar un negocio. Aunque el cliente obtuvo el modelo que solicitaba en el contrato, no era lo que esperaba porque GPT4 no era suficiente. A principios de año, descubrimos que era difícil que el modelo diera otro salto si estaba entrenado para una sola aplicación. Mirando hacia atrás, si AGI quiere alcanzar el nivel de los humanos comunes, lo que los clientes quieren es el nivel de los profesionales. Los juegos requieren planificadores y actores profesionales, la educación requiere maestros con medalla de oro, las ventas requieren ventas con medalla de oro y las finanzas y los seguros requieren analistas experimentados. Todo esto es AGI más capacidades profesionales de la industria. Aunque en ese momento estábamos asombrados por AGI, sentimos que era inevitable.

A principios de año diseñamos una serie de modelos de Higgs (Partícula Divina, un tipo de bosón). La principal habilidad general es seguir el mejor modelo, pero destacar en una determinada habilidad. Las competencias que elegimos fueron juegos de rol: interpretar a un personaje virtual, jugar a ser profesor, jugar a ventas, jugar a analista, etc. Se repitió a la segunda generación a mediados de 2024. En Arena-Hard y AlpacaEval 2.0, que prueban capacidades generales, V2 es comparable a los mejores modelos, y no se queda atrás en MMLU-Pro, que prueba conocimientos.



Higgs-V2 se basa en la base Llama3 y luego completa el entrenamiento posterior. No podemos gastar mucho dinero para etiquetar datos como Meta, por lo que V2 es mejor que Llama3 Instruct. La razón debería provenir principalmente de la innovación del algoritmo.

Luego hicimos un conjunto de revisión para evaluar el juego de roles, incluido el juego según el personaje y el juego según el escenario. Lamento que mi modelo ocupara el primer lugar en mi lista. Sin embargo, no se utilizan datos para la evaluación durante el entrenamiento del modelo. Debido a que este conjunto de evaluación está destinado para uso personal desde el principio y espera reflejar verdaderamente las capacidades del modelo, es necesario evitar conjuntos de datos sobreajustados del modelo. Pero los estudiantes que hacían la evaluación querían escribir un informe técnico, así que lo publicaron. Curiosamente, la muestra de prueba de juego de roles proviene de c.ai, pero las capacidades de su modelo están en la parte inferior.



La cuarta etapa de comprensión es que un buen modelo vertical no debe tener capacidades generales débiles. Por ejemplo, el razonamiento y el seguimiento de instrucciones también son necesarios verticalmente. A largo plazo, tanto los modelos generales como los verticales tendrán que avanzar hacia la AGI. Es solo que el modelo vertical puede estar un poco más orientado a las materias, con puntajes altos en cursos profesionales y buenos cursos generales, por lo que los costos de investigación y desarrollo son ligeramente más bajos y los métodos de investigación y desarrollo serán diferentes.

¿Qué pasa con la quinta etapa de comprensión? Todavía es un trabajo en progreso y espero compartirlo pronto.

Visión: compañerismo humano

Es vergonzoso decir que nos cubrimos la cabeza con tecnología y personalización para los clientes, y luego pensamos lentamente en qué visión perseguimos. Observamos lo que quieren los clientes, lo que queremos y lo que podemos necesitar en el futuro. Hablando por mí, hace muchos años anhelaba una niñera robot que me ayudara a cuidar a mis hijos y acompañarlos, porque me resultaba difícil hacerlo y no entendía bien la cognición y los pensamientos actuales de mis hijos. Ojalá tuviera un asistente virtual realmente increíble en el trabajo que pudiera inventar cosas nuevas conmigo. Cuando sea mayor, también quiero tener robots interesantes que me acompañen. Mi predicción para el futuro es que las herramientas de producción se desarrollarán cada vez más y una persona podrá completar cosas que antes solo podían ser completadas por un equipo, lo que hará que los seres humanos sean más independientes individualmente. más solitario.

Al unirlos, hemos establecido nuestra visión como "agentes inteligentes que acompañan a los humanos". Un agente inteligente con alta inteligencia emocional y coeficiente intelectual online. Si fuera una persona real, sería un equipo profesional. Por ejemplo, si quieres que juegue contigo, entonces es un planificador + actor profesional. Acompañarte en el ejercicio, luego animar al profesor + entrenador deportivo profesional. Si estudio contigo, puedo explicarte lo que no entiendes. La ventaja de un modelo es que puede acompañarte durante mucho tiempo y entenderte realmente. Y puedo "ser sinceramente para ti".

Sin embargo, la tecnología actual todavía está lejos de la visión. La tecnología actual puede acompañarte a charlar. En muchas situaciones, la conversación no es tan buena, falta contenido y el IQ y el EQ a veces no están en línea. Todos estos son problemas que deben resolverse ahora. Si tiene amigos que quieran realizar esta solicitud en el extranjero, no dude en contactarnos.

Equipo: Las cosas desafiantes deben depender del equipo

Sólo después de iniciar un negocio me di cuenta realmente de la importancia de un equipo. Cuando estaba en una gran fábrica, me sentía como si fuera un tornillo, los miembros de mi equipo eran unos tornillos, e incluso el equipo era un tornillo. Pero el equipo emprendedor es un coche. El coche es más pequeño, pero puede circular, transportar cargas, girar con flexibilidad y recorrer todas las curvas. Poco después de que se estableciera la empresa, MiHoYo Lao Cai echó un vistazo y vio a todos en una habitación. Dijo con emoción que un equipo pequeño es genial.

Por supuesto, hay algunos inconvenientes. Hay que comprobar si hay aceite en todo momento y hay que tener cuidado de no sacudir el coche en carreteras difíciles. Cada miembro es importante y no hay redundancia. Si una persona no es eficaz, puede ser un pinchazo. Las personas también son valiosas. Una persona puede perder un neumático.

En el pasado, cuando elegía proyectos, elegía proyectos cuyo desarrollo podía liderar. Pero eso también significa que las preguntas no son muy desafiantes. Iniciar un negocio es un gran problema y todo depende del equipo. Aunque se utiliza mucho "yo" en este artículo, de hecho el trabajo lo realiza el equipo. Sin el equipo, quizás tendría que cambiar mi carrera para vender cursos.

Búsqueda personal: ¿fama o fortuna?

Hasta ahora, he dependido de mi voz interior para tomar decisiones. Después de trabajar, estudiaré un doctorado, haré vídeos y empezaré un negocio. El emprendimiento requiere el apoyo de una fuerte motivación para superar un sinfín de dificultades. Esto requiere un análisis más profundo de sus propias motivaciones.

La motivación proviene del deseo o del miedo. Hace diez años, podría haberme apasionado más la fama y la fortuna, pero a mi edad actual siento que la utilidad marginal del dinero ya no es alta y el valor emocional que aporta la fama también es muy pequeño. Mi motivación más profunda proviene del miedo a que la vida no tenga sentido. Dejando de lado la inmensidad del universo, incluso en la larga historia de la humanidad, el hombre es sólo un grano de arena. Llega inesperadamente y desaparece rápidamente. Ha habido 100 mil millones de personas viviendo en la Tierra y la mayoría de ellas no dejarán ningún rastro en la historia. Apenas reconozco los miles de nombres de mi árbol genealógico.

Entonces, ¿cuál es el significado de la existencia de una persona? Cuando era niña, estaba deprimida porque no podía pensar con claridad sobre este problema. Entonces, inconscientemente, quiero crear valor y ganar significado a la existencia. Elijo "avanzar" para mejorar mi capacidad de crear valor; elijo grabar videos largos y escribir materiales didácticos para crear valor educativo; elijo escribir resúmenes de mis estudios de doctorado, mi trabajo y mi emprendimiento. enredos y dificultades involucradas, y creando el valor de los ejemplos; Elija iniciar un negocio y unir los esfuerzos de muchas personas para crear mayor valor.

posdata

Su Hua y yo estábamos caminando en Stanford el año pasado. Me dio una palmada en el hombro y me dijo: "Dime la verdad, ¿por qué quieres iniciar un negocio?". En ese momento, no lo pensé: "Simplemente". Quiero cambiar mi carrera." Entonces Su Hua sonrió.

Ahora lo entiendo, porque ha vivido los altibajos del emprendimiento. Si tuviera que responder a esta pregunta hoy, diría: "Simplemente perdí la cabeza". Pero me alegro de no haber esperado que fuera tan fácil en ese momento, así que salté de cabeza. De lo contrario, lo que todos podrán ver es "la reflexión sobre diez años de trabajo". Creo que la historia que escribí hoy es más interesante.

Saludo a todos los emprendedores.

(Finalmente, la información de contratación de nuestra empresa (Área de la Bahía y Vancouver) que aparece en el anuncio es https://jobs.lever.co/bosonai. Si tiene solicitudes en el extranjero, contáctenos en [email protected])