Mi información de contacto
Correo[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Esta es casi la revisión más sincera e informativa sobre modelos empresariales a gran escala hasta la fecha.
En la noche del 14 de agosto de 2024, Li Mu publicó un artículo de revisión sobre un año de inicio de un negocio en sus propias columnas Bilibili y Zhihu: "Un año para iniciar un negocio, tres años en el mundo", compartiendo su experiencia a gran escala. modelo de creación de un negocio Los avances, luchas y reflexiones del primer año.
En el artículo, repasó su trayectoria empresarial:
Desde la idea inicial de iniciar un negocio como herramienta de productividad para modelos grandes, hasta conocer a Zhang Yiming y ser "despertado" por él, decidió construir directamente el modelo en sí;
Me "soltaron" durante el proceso de financiación y, como estaba iniciando un negocio por primera vez, era un poco "costoso" y no pude "obtener mil millones en efectivo" como algunos de mis compañeros;
Me comuniqué directamente con Jen-Hsun Huang para obtener el H100 directamente "arreglado" por la otra parte, pero descubrí que estas tarjetas tenían muchos errores durante el entrenamiento;
Entonces finalmente encontramos una manera de alcanzar el punto de equilibrio en la comercialización y continuar avanzando hacia el objetivo de "agentes inteligentes acompañados por humanos".
Si bien Li Mu compartió los obstáculos que había pisado directamente, también se preguntó durante este año: "¿Por qué debería iniciar un negocio?". Su Hua lo "cuestionó" y se inspiró en los comentarios casuales de Cai Haoyu sobre su empresa. Al final, la respuesta que dio a esta pregunta fue muy Li Mu:
Si tuviera que responder a esta pregunta hoy de nuevo, diría: "Simplemente perdí la cabeza".
Pero también dijo: "Mi motivación más profunda proviene del miedo a que la vida no tenga sentido".
"Entonces, ¿cuál es el significado de la existencia de una persona? Cuando era niño, estaba deprimido porque no podía resolver este problema. Por eso quiero crear valor y obtener el significado de la existencia. Elijo "seguir adelante". mejorar mi capacidad para crear valor; elegir grabar videos largos y escribir materiales didácticos para crear valor educativo; elegir escribir resúmenes de estudios de doctorado, trabajos y emprendimiento, describir los enredos y dificultades, y crear el valor de casos reales; iniciar un negocio y unir el poder de muchas personas para crear mayor valor."
El siguiente es el texto completo de la reseña de Li Mu., el artículo es una reproducción de Li Mu.La nota del editor entre paréntesis contiene información adicional:
Informa a tus amigosMáster en DerechoAvances, luchas y reflexiones en el primer año de emprendimiento
Cuando estuve en Amazon por quinto año, pensé en iniciar un negocio, pero la epidemia lo retrasó. Al séptimo año y medio, sentí que me picaba demasiado, así que renuncié. Ahora que lo pienso, si hay algo que tengo que probar en mi vida, lo haría temprano. Porque una vez que realmente comienzas, encontrarás que hay tantas cosas nuevas que aprender y siempre te preguntarás por qué no empezaste antes.
Antes de iniciar un negocio, realicé una serie de proyectos que llevaban el nombre de Gluon. En física cuántica, Gluon es un bosón que une los quarks, lo que simboliza que este proyecto fue originalmente un proyecto conjunto entre Amazon y Microsoft. En ese momento, el director del proyecto le dio unas palmaditas en la cabeza y salió el nombre, pero nombrarlos era muy difícil para los programadores. Luchamos con varios nombres de archivos y variables todos los días. Al final, la nueva empresa simplemente le puso el nombre de Boson. Espero que todos sonrían con complicidad cuando reciban el meme "Los bosones y los fermiones forman el mundo". Pero no esperaba que mucha gente pensara que era Boston.
"Estoy en Boston. ¿Nos vemos alguna vez?" "¿Eh? Pero estoy en el Área de la Bahía".
Financiación: el principal inversor se escapó el día antes de firmar
A finales de 2022, se me ocurrieron dos ideas sobre el uso de modelos de lenguaje grandes (LLM) como herramientas de productividad. Me encontré con Zhang Yiming y le pedí consejo. Después de la discusión, preguntó: ¿Por qué no hacer el LLM? Inconscientemente me estremecí: nuestro equipo en Amazon había estado haciendo esto durante varios años, con decenas de miles de tarjetas y muchas dificultades como blabla.
Yiminghehe dijo: Se trata de dificultades a corto plazo y debemos adoptar una visión a largo plazo.
Mi ventaja es que escuché los consejos y realmente opté por un LLM.El equipo fundador reunió a las personas responsables de los datos, la capacitación previa, la capacitación posterior y la arquitectura, y fue a recaudar fondos. Con suerte, rápidamente recibí una inversión inicial. Pero el dinero no alcanza para comprar la tarjeta, así que tengo que conseguir la segunda ronda. El líder de esta ronda era una organización muy grande, que tardó varios meses en documentar y negociar los términos. Pero el día antes de la firma, el dirigente dijo que no invertiría, lo que provocó directamente la retirada de varios inversores.Estoy muy agradecido con los inversores restantes por completar esta ronda y conseguir el billete para realizar un LLM.
Si reflexiono sobre ello hoy, podría haber seguido recaudando fondos mientras el entusiasmo en el mercado de capitales todavía estaba ahí.Quizás como otros empresarios, ahora tenga mil millones en efectivo.En ese momento, me preocupaba que si recaudaba demasiado dinero, sería difícil salir o me arrojarían al cielo. Ahora que lo pienso, iniciar un negocio es cambiar tu vida contra viento y marea. ¿Cuál es la salida?
Máquinas: las primeras personas en comer cangrejos
Cuando tengas dinero, compra una GPU. Pregunté a varios proveedores y la respuesta unánime fue que el H100 se entregaría en un año.Tuve una idea y le escribí un correo electrónico directamente a Lao Huang. Lao Huang respondió al instante y dijo que echaría un vistazo. Una hora más tarde llamó el director general de Supermicro. Pagué un poco más, hice cola y obtuve la máquina 20 días después. Tuve el honor de comer cangrejos temprano.
Después de comer cangrejos, dudé de mi vida y me encontré con todo tipo de bichos increíbles. Por ejemplo, el suministro de energía insuficiente a la GPU causó inestabilidad y, posteriormente, los ingenieros de Super Micro modificaron el código del BIOS para parchearlo, por ejemplo, el ángulo de corte de la fibra óptica era incorrecto, lo que resultó en una comunicación inestable, por ejemplo, el diseño de red recomendado por Nvidia; no era óptimo, así que hicimos un nuevo plan y, más tarde, Nvidia también adoptó este plan. Todavía no lo entiendo. Compramos menos de mil tarjetas, por lo que se nos puede considerar pequeños compradores. Pero, ¿los grandes compradores no han encontrado estos problemas que nosotros encontramos? ¿Por qué necesitamos nuestra depuración?
Al mismo tiempo, también alquilamos la misma cantidad de H100 y había todo tipo de errores. La GPU tenía problemas todos los días, e incluso nos preguntamos si éramos los únicos que usábamos esta nube. Más tarde, vi el informe técnico de Llama 3 que decía que después de que cambiaron a H100, el modelo fue interrumpido cientos de veces durante el entrenamiento. Me sentí muy comprensivo con el dolor entre líneas.
Si se compara la autoconstrucción y el arrendamiento, el coste del alquiler durante tres años es casi el mismo que el coste de la autoconstrucción. La ventaja de alquilar una tarjeta es la tranquilidad. La autoconstrucción tiene dos beneficios. Primero, si la tecnología de Nvidia todavía está muy por delante en tres años, puede controlar los precios para que las GPU aún conserven su valor. Otro es el bajo costo del almacenamiento de datos de construcción propia. El almacenamiento debe estar cerca de la GPU, ya sea una nube grande o una nube de GPU pequeña, el precio del almacenamiento es alto. Sin embargo, un modelo de entrenamiento puede utilizar varios TB de espacio para almacenar puntos de control, y el almacenamiento de datos de entrenamiento comienza en 10 PB. Si utiliza AWS S3, 10 PB costarán dos millones al año. Si este dinero se utiliza para la autoconstrucción, puede llegar a los 100 PB.
Negocios: Gracias a los clientes, alcanzamos el punto de equilibrio en el primer año
Tuvimos mucha suerte de que nuestros ingresos y gastos estuvieran nivelados durante el primer año.
Nuestros gastos son principalmente en mano de obra y potencia informática. Gracias a los recursos financieros de Openai y la gran ventaja de Nvidia, ambos gastos son bastante grandes. Nuestra fuente de ingresos es la fabricación de modelos personalizados para grandes clientes. La mayoría de las empresas que ingresaron a LLM muy temprano se debían a que sus directores ejecutivos tenían mucha capacidad de toma de decisiones. No se dejaron intimidar por la alta potencia informática y los costos laborales, y presionaron decisivamente a sus equipos internos para que cooperaran en la prueba de nuevas tecnologías. Estoy muy agradecido al cliente por darnos tiempo para respirar, de lo contrario habría estado corriendo hacia varios inversores en los últimos meses.
A continuación, más empresas deberían intentar utilizar LLM, ya sea para actualizar sus propios productos o reducir costos y aumentar la eficiencia. La razón es que, por un lado, los costos de la tecnología están disminuyendo y, por otro lado, los líderes de la industria (como nuestros clientes) lanzarán sucesivamente productos basados en LLM, haciendo avanzar la industria.
También estamos prestando atención a la implementación de LLM en toC. Los principales actores de la ola anterior, como c.ai y perplexity, todavía están buscando modelos de negocio, pero también hay una docena de pequeñas aplicaciones nativas LLM que generan buenos ingresos. Proporcionamos un modelo para una empresa de nueva creación que juega un papel. Se centran en jugadores profundos y equilibran los ingresos y los gastos, lo cual también es fantástico. Las capacidades del modelo aún están evolucionando y se están integrando más modalidades (voz, música, imágenes, videos). Creo que habrá aplicaciones más imaginativas en el futuro.
En general, la industria y el capital siguen impacientes. Este año, varias empresas que llevan más de un año establecidas pero que han recaudado miles de millones han optado por salir. De la tecnología al producto es un proceso largo, lo normal es que tarde 2 o 3 años. Teniendo en cuenta la aparición de necesidades de los usuarios, puede llevar más tiempo. Nos centramos en el presente, exploramos el camino en la niebla y seguimos siendo optimistas sobre el futuro.
Tecnología: cuatro etapas de la cognición LLM
La comprensión de LLM ha pasado por cuatro etapas. La primera etapa es de Bert a GPT3. Parece que se puede realizar la nueva arquitectura y los big data. Cuando estábamos en Amazon, también realizamos inmediatamente capacitación e implementación de productos a gran escala.
La segunda etapa fue cuando se lanzó GPT4 cuando comencé mi negocio, lo cual fue un gran impacto.La mayor parte del motivo se debe al hecho de que la tecnología no se hace pública. Según los rumores, se estima que un modelo de entrenamiento cuesta 100 millones y el costo de datos estándar es de decenas de millones.. Muchos inversores me preguntaron cuánto costaría reproducir GPT4 y dije entre 300 y 400 millones. Más tarde, uno de ellos invirtió cientos de millones.
La tercera etapa es el primer medio año de iniciar un negocio.No podemos crear GPT4, así que comencemos por problemas específicos.. Entonces comencé a buscar clientes, incluidos aquellos del sector de juegos, educación, ventas, finanzas y seguros. Entrenar modelos basados en necesidades específicas.Al principio no había buenos modelos de código abierto en el mercado, así que los entrenamos desde cero. Posteriormente salieron muchos buenos modelos, lo que redujo nuestros costos.Luego, diseñe un método de evaluación basado en el escenario empresarial, marque los datos, vea dónde no funciona el modelo y mejórelo en consecuencia.
A finales de 2023, nos sorprendió gratamente descubrir que nuestros modelos de la serie Photon (un tipo de bosón) superaron a GPT4 en aplicaciones de clientes. La ventaja de personalizar el modelo es que el costo de inferencia es 1/10 de llamar a la API. Aunque las API son mucho más baratas hoy en día, nuestra propia tecnología también está mejorando y sigue siendo una décima parte del coste. Además, se pueden controlar mejor los retrasos, etc. Lo que entendemos en esta etapa es que, para aplicaciones específicas, podemos superar a los mejores modelos del mercado.
La cuarta etapa es el segundo semestre después de iniciar un negocio.Aunque el cliente obtuvo el modelo que solicitaba en el contrato, no era lo que esperaba porque GPT4 no era suficiente. A principios de año, descubrimos que era difícil que el modelo diera otro salto si estaba entrenado para una sola aplicación.Mirando hacia atrás, si AGI alcanza el nivel de los humanos comunes, lo que los clientes quieren es el nivel de los profesionales. Los juegos requieren planificadores y actores profesionales, la educación requiere maestros con medalla de oro, las ventas requieren ventas con medalla de oro y las finanzas y los seguros requieren analistas experimentados. Todo esto es AGI más capacidades profesionales de la industria. Aunque en ese momento estábamos asombrados por AGI, sentimos que era inevitable.
A principios de año diseñamos una serie de modelos de Higgs (Partícula Divina, un tipo de bosón). Centrarse en las habilidades generales sigue los mejores modelos, pero destaca en una determinada habilidad. Las competencias que elegimos fueron juegos de rol: interpretar a un personaje virtual, jugar a ser profesor, jugar a ventas, jugar a analista, etc. Fue actualizado a mediados de 2024.segunda generación, en Arena-Hard y AlpacaEval 2.0, que prueban capacidades generales, V2 es comparable al mejor modelo, y no se queda atrás en MMLU-Pro, que prueba conocimientos.
Higgs-V2 se basa en la base Llama3 y luego completa el entrenamiento posterior. No tenemos los recursos para gastar mucho dinero para etiquetar datos como Meta, por lo que V2 es mejor que Llama3 Instruct. La razón debería provenir principalmente de la innovación del algoritmo.
Luego hicimos unConjunto de evaluación de juegos de roles., incluyendo actuaciones basadas en personajes y actuaciones basadas en escenas. Lamento que mi modelo ocupara el primer lugar en mi lista. Sin embargo, no se utilizan datos para la evaluación durante el entrenamiento del modelo. Debido a que este conjunto de evaluación es para uso personal y espera reflejar verdaderamente las capacidades del modelo, es necesario evitar conjuntos de datos sobreajustados del modelo. Pero los estudiantes que hicieron el conjunto de evaluación querían escribir un informe técnico, así que simplemente lo publicaron. Curiosamente, la muestra de prueba de juego de roles proviene de c.ai, pero las capacidades de su modelo están en la parte inferior.
La cuarta etapa de comprensión es que un buen modelo vertical no debe ser débil en capacidades generales, como el razonamiento y el seguimiento de instrucciones. Estas capacidades también son necesarias verticalmente. A largo plazo, tanto los modelos generales como los verticales tendrán que avanzar hacia la AGI. Es solo que el modelo vertical puede estar un poco más orientado a las materias, con puntajes altos en cursos profesionales y buenos cursos generales, por lo que los costos de investigación y desarrollo son ligeramente más bajos y los métodos de investigación y desarrollo serán diferentes.
¿Qué pasa con la quinta etapa de comprensión? Todavía es un trabajo en progreso y espero compartirlo pronto.
Visión: compañerismo humano
Es vergonzoso decir que nos cubrimos la cabeza con tecnología y personalización para los clientes, y luego pensamos lentamente en qué visión perseguimos. Observamos lo que quieren los clientes, lo que queremos y lo que podemos necesitar en el futuro. Hablando por mí, hace muchos años anhelaba una niñera robot que me ayudara a cuidar a mis hijos y acompañarlos, porque me resultaba difícil hacerlo y no entendía bien la cognición y los pensamientos actuales de mis hijos.
Ojalá tuviera un asistente virtual realmente increíble en el trabajo que pudiera inventar cosas nuevas conmigo. Cuando sea mayor, también quiero tener robots interesantes que me acompañen. Mi predicción para el futuro es que las herramientas de producción se desarrollarán cada vez más y una persona podrá completar cosas que antes solo podían ser completadas por un equipo, lo que hará que los seres humanos se vuelvan más individuales e independientes. haciéndolos aún más solos.
Al unirlos, hemos establecido nuestra visión como "agentes inteligentes que acompañan a los humanos". Un agente inteligente con alta inteligencia emocional y coeficiente intelectual online. Si fuera una persona real, sería un equipo profesional. Por ejemplo, si quieres que juegue contigo, entonces es un planificador + actor profesional. Acompañarte en el ejercicio, luego animar a profesores + entrenadores deportivos profesionales. Si estudio contigo, puedo explicarte lo que no entiendes. La ventaja de un modelo es que puede acompañarte durante mucho tiempo y entenderte realmente. Y puedo "ser sinceramente para ti".
Sin embargo, la tecnología actual todavía está lejos de la visión. La tecnología actual puede acompañarte a charlar. En muchas situaciones, la conversación no es tan buena, falta contenido y el IQ y el EQ a veces no están en línea. Todos estos son problemas que deben resolverse ahora. Si tiene amigos que quieran realizar esta solicitud en el extranjero, no dude en contactarnos.
Equipo: Las cosas desafiantes deben depender del equipo
Sólo después de iniciar un negocio me di cuenta realmente de la importancia de un equipo. Cuando estaba en una gran fábrica, me sentía como si fuera un tornillo, los miembros de mi equipo eran unos tornillos, e incluso el equipo era un tornillo. Pero el equipo emprendedor es un coche. El coche es más pequeño, pero puede circular, transportar cargas, girar con flexibilidad y recorrer todas las curvas.Poco después de que se estableciera la empresa, MiHoYo Lao Cai echó un vistazo y vio a todos en la misma sala. Dijo con emoción que un equipo pequeño es genial.
Por supuesto, hay algunos inconvenientes. Hay que comprobar si hay aceite en todo momento y hay que tener cuidado de no sacudir el coche en carreteras difíciles. Cada miembro es importante y no hay redundancia. Si una persona no es eficaz, puede ser un pinchazo. Las personas también son valiosas. Una persona puede perder un neumático.
En el pasado, cuando elegía proyectos, elegía proyectos cuyo desarrollo podía liderar. Pero también significa que el problema no estará mucho más allá de mis capacidades. Iniciar un negocio es un gran problema y todo depende del equipo. Aunque se utiliza mucho "yo" en este artículo, de hecho el trabajo lo realiza el equipo. Sin el equipo, podría tener que cambiar de carrera y dedicarme a vender cursos (aquí no se necesitan aplausos).
Búsqueda personal: ¿fama o fortuna?
Hasta ahora, he dependido de mi voz interior para tomar decisiones. Después de trabajar, estudiaré un doctorado, haré vídeos y empezaré un negocio. El emprendimiento requiere el apoyo de una fuerte motivación para superar un sinfín de dificultades. Esto requiere un análisis más profundo de sus propias motivaciones.
La motivación proviene del deseo o del miedo. Hace diez años, podría haberme apasionado más la fama y la fortuna, pero a mi edad actual siento que la utilidad marginal del dinero ya no es alta y el valor emocional que aporta la fama también es muy pequeño. Mi motivación más profunda proviene del miedo a que la vida no tenga sentido. Dejando de lado la inmensidad del universo, incluso en la larga historia de la humanidad, el hombre es sólo un grano de arena. Llega inesperadamente y desaparece rápidamente. Ha habido 100 mil millones de personas viviendo en la Tierra, y la gran mayoría de ellas no dejarán rastro alguno en la historia. Apenas reconozco ninguno de los miles de nombres de mi árbol genealógico.
Entonces, ¿cuál es el significado de la existencia de una persona? Cuando era niña, estaba deprimida porque no podía pensar con claridad sobre este problema. Por eso quiero crear valor y ganar sentido a la existencia. Elegí "avanzar" para mejorar mi capacidad de crear valor; elegí grabar videos largos y escribir materiales didácticos para crear valor educativo; elegí escribir resúmenes de mis estudios de doctorado, mi trabajo y mi emprendimiento. enredos y dificultades involucradas, y casos reales de creación de Valor; optar por iniciar un negocio y unir los esfuerzos de muchas personas para crear mayor valor.
posdata
Su Hua y yo estábamos caminando en Stanford el año pasado. Me dio una palmada en el hombro y me dijo: "Dime la verdad, ¿por qué quieres iniciar un negocio?". En ese momento, no lo pensé: "Simplemente". Quiero cambiar mi carrera." Entonces Su Hua sonrió.
Ahora lo entiendo, porque ha vivido los altibajos del emprendimiento. Si tuviera que responder a esta pregunta hoy de nuevo, diría: "Simplemente perdí la cabeza". Pero me alegro de no haber esperado que fuera tan fácil en ese momento, así que salté de cabeza. De lo contrario, lo que todos podrán ver es "Reflexión sobre diez años de trabajo”. Creo que la historia que escribí hoy es más interesante.
Saludo a todos los emprendedores.
Finalmente, Li Mu también anunció que BosonAI tiene actualmente su sede en Santa Clara y el reclutamiento incluye el Área de la Bahía de San Francisco y Vancouver.