Revelando DeepSeek: una historia más extrema del idealismo tecnológico chino 36Kr noticias

Revelando DeepSeek: una historia más extrema del idealismo tecnológico chino Exclusivo de 36Kr |

2024-07-22

Texto | Yu Lili
Editor | Liu Jing

Entre las siete grandes empresas emergentes de China, DeepSeek es la menos famosa, pero siempre puede ser recordada de maneras inesperadas.

Hace un año, esta sorpresa se debió al hecho de que el gigante cuantitativo del capital privado Huan Fang fue la única empresa fuera de los principales fabricantes que reservó 10.000 chips A100. Un año después, se debió al hecho de que fue la fuente del. Guerra de precios para los modelos grandes de China.

En mayo, que fue bombardeado continuamente por la IA, DeepSeek se hizo famoso. La razón es que lanzaron un modelo de código abierto llamado DeepSeek V2, que proporciona una rentabilidad sin precedentes: el costo de inferencia se reduce a solo 1 yuan por millón de tokens, que es aproximadamente una séptima parte de Llama3 70B, GPT-4 One- septuagésimo de Turbo.

Si bien DeepSeek fue rápidamente apodado el "Pinduoduo de la industria de la inteligencia artificial", los principales fabricantes como ByteDance, Tencent, Baidu y Alibaba tampoco pudieron soportarlo y redujeron los precios uno tras otro. La gran guerra de precios de los modelos en China está a punto de estallar.

El humo de los disparos en realidad oculta el hecho de que, a diferencia de muchas grandes empresas que gastan dinero en subsidios, DeepSeek es rentable.

Detrás de esto está la innovación integral de DeepSeek en arquitectura de modelos. Propone un nuevo MLA (Un nuevo mecanismo potencial de atención para los alcistas), lo que reduce el uso de memoria al 5% -13% de la arquitectura MHA más utilizada en el pasado. Al mismo tiempo, su estructura original DeepSeekMoESparse también reduce la cantidad de cálculo al extremo, todo lo cual, en última instancia, contribuye a la reducción de costos.

En Silicon Valley, DeepSeek es llamado "el poder misterioso del Este". El analista jefe de SemiAnalysis cree que el artículo de DeepSeek V2 "puede ser el mejor de este año". El ex empleado de OpenAI, Andrew Carr, calificó el artículo como "lleno de sabiduría asombrosa" y aplicó sus configuraciones de entrenamiento a su propio modelo. Jack Clark, ex director de políticas de OpenAI y cofundador de Anthropic, cree que DeepSeek "emplea a un grupo de magos impredecibles" y cree que los grandes modelos fabricados en China "se volverán tan importantes como los drones y los coches eléctricos que no pueden ignorarse". fortaleza."

Esta es una situación poco común en la ola de IA en la que Silicon Valley básicamente está impulsando la historia.Muchos expertos de la industria nos dijeron:Esta fuerte respuesta surge de la innovación a nivel arquitectónico, que es un intento poco común por parte de las grandes empresas de modelos nacionales e incluso de los grandes modelos globales de código abierto. Un investigador de IA dijo que la arquitectura de Atención se ha propuesto durante muchos años, pero casi nunca se ha modificado con éxito, y mucho menos una verificación a gran escala. "Es incluso una idea que queda excluida de la toma de decisiones porque la mayoría de la gente carece de confianza".

Por otro lado, los grandes modelos domésticos rara vez se han involucrado en la innovación a nivel arquitectónico, también porque pocas personas toman la iniciativa de romper con este estereotipo:Estados Unidos es mejor en innovación tecnológica de 0 a 1, mientras que China es mejor en innovación de aplicaciones de 1 a 10. Es más, este tipo de comportamiento es muy antieconómico: naturalmente, alguien producirá una nueva generación de modelos en unos pocos meses, y las empresas chinas sólo necesitan seguirlo y aplicarlo bien. Innovar en la estructura del modelo significa que no hay camino a seguir, se deben experimentar muchos fracasos y los costos de tiempo y económicos son enormes.

DeepSeek es claramente un rebelde. En medio del clamor de que las grandes tecnologías modelo inevitablemente convergerán y seguirán un atajo más inteligente, DeepSeek valora el valor acumulado en los "desvíos" y cree que además de la innovación de aplicaciones, los grandes empresarios modelo de China también pueden unirse a la innovación tecnológica global. el torrente.

Muchas de las opciones de DeepSeek son únicas. Hasta ahora, entre las 7 nuevas empresas modelo a gran escala en China, es la única que ha renunciado a la ruta de "necesidad y deseo" y se ha centrado en la investigación y la tecnología sin realizar aplicaciones toC. que no ha considerado completamente la comercialización y ha elegido firmemente Hay empresas que ni siquiera han recaudado capital en la ruta del código abierto. Esto hace que a menudo se olvide fuera de las mesas de póquer, pero en el otro extremo, los usuarios de la comunidad a menudo lo difunden como "agua del grifo".

¿Cómo se hace DeepSeek? Para ello, entrevistamos a Liang Wenfeng, el fundador de DeepSeek que rara vez aparece.

Este fundador posterior a los 80, que ha estado estudiando la tecnología entre bastidores desde la era del Cuadrado Mágico, todavía continúa con su estilo discreto en la era DeepSeek. Como todos los investigadores, "lee artículos, escribe códigos y participa en discusiones grupales". cada día.

A diferencia de muchos fundadores de fondos cuantitativos que tienen experiencia en fondos de cobertura extranjeros y se especializan principalmente en física, matemáticas, etc., Liang Wenfeng siempre ha sido de origen local y estudió inteligencia artificial en el Departamento de Ingeniería Electrónica de la Universidad de Zhejiang en sus primeros años. .

Muchos expertos de la industria e investigadores de DeepSeek nos dijeron que Liang Wenfeng es una persona muy rara en la actual industria china de IA que "tiene fuertes capacidades de ingeniería de infraestructura y de investigación de modelos, y puede movilizar recursos", "puede hacer juicios precisos desde un lugar elevado". , y puede ser alguien que es "mejor que los investigadores de primera línea en detalles", tiene una "capacidad de aprendizaje aterradora" y, al mismo tiempo, "no es como un jefe en absoluto, sino más bien como un geek".

Esta es una entrevista particularmente rara. En la entrevista, este idealista técnico brindó una voz que es particularmente escasa en los círculos científicos y tecnológicos de China:Es una de las pocas personas que antepone la "visión del bien y del mal" a la "visión de los intereses", nos recuerda la inercia de los tiempos y pone la "innovación original" en la agenda.

Hace un año, cuando DeepSeek acababa de llegar a su fin, entrevistamos a Liang Wenfeng por primera vez: "Crazy Magic Square: El camino hacia grandes modelos de un gigante invisible de IA".Si dices esa frase en ese momento"Hay que ser increíblemente ambicioso, pero también increíblemente sincero".Sigue siendo un bonito eslogan, pero un año después se ha convertido en una acción.

Lo siguiente es parte de la conversación:

¿Cómo empezó el primer disparo de la guerra de precios?

"Undercurrent": después del lanzamiento del modelo DeepSeek V2, rápidamente desencadenó una sangrienta guerra de precios de modelos a gran escala. Algunas personas dijeron que eres un bagre en la industria.

Liang Wenfeng: No quisimos ser un bagre, simplemente nos convertimos en uno accidentalmente.

"Undercurrent": ¿Te sorprende este resultado?

Liang Wenfeng : Muy inesperado. No esperaba que el precio hiciera que todos fueran tan sensibles. Simplemente hacemos las cosas a nuestro propio ritmo y calculamos el precio de costo. Nuestro principio es no dar dinero ni obtener grandes beneficios. Este precio también supone una ligera ganancia por encima del coste.

"Undercurrent": Zhipu AI siguió 5 días después, seguida por Byte, Alibaba, Baidu, Tencent y otras empresas importantes.

Liang Wenfeng : Zhipu AI es un producto básico y los modelos del mismo nivel que el nuestro siguen siendo muy caros. Byte fue realmente el primero en seguirlo. El modelo insignia bajó al mismo precio que el nuestro, lo que provocó que otros fabricantes importantes redujeran sus precios. Debido a que el costo de los modelos de los principales fabricantes es mucho más alto que el nuestro, no esperábamos que alguien perdiera dinero haciendo esto y, al final, se convirtió en la lógica de los subsidios para quemar dinero en la era de Internet.

"Undercurrent": Desde fuera, los recortes de precios parecen intentar captar usuarios, como suele ocurrir en las guerras de precios en la era de Internet.

Liang Wenfeng : Atrapar usuarios no es nuestro objetivo principal. Por un lado, bajamos el precio porque estamos explorando la estructura del modelo de próxima generación y el costo bajó primero. Por otro lado, también creemos que tanto la API como la IA deberían ser universales y asequibles para todos.

"Undercurrent": antes de esto, la mayoría de las empresas chinas copiaban directamente esta generación de estructura Llama para su aplicación. ¿Por qué partiste de la estructura modelo?

Liang Wenfeng : Si el objetivo es crear aplicaciones, utilizar la estructura Llama y productos cortos, planos y rápidos también es una opción razonable. Pero nuestro destino es AGI, lo que significa que necesitamos estudiar nuevas estructuras de modelos para lograr capacidades de modelo más sólidas con recursos limitados. Este es uno de los estudios básicos necesarios para ampliar a un modelo más grande. Además de la estructura del modelo, también hemos realizado muchas otras investigaciones, incluido cómo estructurar los datos, cómo hacer que el modelo se parezca más a los humanos, etc., todo lo cual se refleja en los modelos que publicamos. Además, se estima que la estructura de Llama está dos generaciones por detrás de los niveles avanzados extranjeros en términos de eficiencia de capacitación y costo de inferencia.

"Undercurrent": ¿De dónde viene principalmente esta brecha generacional?

Liang Wenfeng : En primer lugar, existe una brecha en la eficiencia de la formación. Estimamos que la estructura del modelo y la dinámica de entrenamiento pueden ser dos veces más diferentes entre los mejores modelos nacionales y los mejores modelos extranjeros. Solo por esto, tenemos que consumir el doble de potencia informática para lograr el mismo efecto. Además, puede haber una brecha que se duplica en la eficiencia de los datos, lo que significa que tenemos que consumir el doble de datos de entrenamiento y potencia informática para lograr el mismo efecto. En total, consume 4 veces más potencia informática. Lo que tenemos que hacer es seguir reduciendo estas brechas.

"Undercurrent": la mayoría de las empresas chinas optan por tener modelos y aplicaciones. ¿Por qué DeepSeek actualmente elige solo investigar y explorar?

Liang Wenfeng : Porque sentimos que lo más importante ahora es participar en la ola de innovación global. En los últimos años, las empresas chinas se han acostumbrado a que otros hagan innovaciones tecnológicas y que nosotros las utilicemos para monetizar aplicaciones, pero esto no es algo natural. En esta ola, nuestro punto de partida no es aprovechar la oportunidad de hacer una fortuna, sino ir a la vanguardia de la tecnología para impulsar el desarrollo de todo el ecosistema.

"Corriente subterránea": La percepción inercial que le queda a la mayoría de la gente en la era de Internet y de la Internet móvil es que Estados Unidos es bueno en innovación tecnológica, mientras que China es mejor en aplicaciones.

Liang Wenfeng: Creemos que con el desarrollo económico,China también debe convertirse gradualmente en un contribuyente en lugar de ser siempre un aprovechado.Durante la ola de TI de los últimos treinta años, básicamente no hemos participado en una innovación tecnológica real. Nos hemos acostumbrado a que la Ley de Moore caiga del cielo y aparecerán mejores hardware y software después de sólo 18 meses en casa. La ley de escala también se trata de esta manera.

Pero, de hecho, esto es algo en lo que la comunidad tecnológica dominada por Occidente ha trabajado incansablemente durante generaciones, simplemente porque no participamos en este proceso antes, por lo que ignoramos su existencia.

La verdadera brecha no es uno o dos años, sino la diferencia entre originalidad e imitación.

"Undercurrent": ¿Por qué DeepSeek V2 sorprendería a mucha gente en Silicon Valley?

Liang Wenfeng : Entre la gran cantidad de innovaciones que ocurren todos los días en los Estados Unidos, esta es una muy común.La razón por la que se sorprendieron fue que se trataba de una empresa china conÚnase a su juego como colaborador innovador.Después de todo, la mayoría de las empresas chinas están acostumbradas a seguir en lugar de innovar.

"Undercurrent": Pero en el contexto chino, esta elección es demasiado extravagante. El gran modelo es un juego de grandes inversiones, y no todas las empresas tienen el capital para investigar únicamente la innovación sin considerar primero la comercialización.

Liang Wenfeng : El costo de la innovación definitivamente no es bajo, y la pasada inercia del apropiacionismo también está relacionada con las condiciones nacionales pasadas. Pero ahora, ya sea que se mire el tamaño económico de China o las ganancias de grandes empresas como Byte y Tencent, no son bajas en el mundo. Lo que nos falta en innovación definitivamente no es capital, sino falta de confianza y no saber cómo organizar una alta densidad de talentos para lograr una innovación efectiva.

"Undercurrent": ¿Por qué las empresas chinas, incluidas las grandes a las que no les falta dinero, consideran tan fácilmente la rápida comercialización como la primera prioridad?

Liang Wenfeng : En los últimos treinta años, sólo hemos enfatizado la ganancia de dinero e ignorado la innovación. La innovación no está impulsada exclusivamente por las empresas, sino que también requiere curiosidad y creatividad. Simplemente estamos atados por la inercia del pasado, pero también es una fase.

"Undercurrent": Pero después de todo, usted es una organización comercial, no una institución de investigación científica de bienestar público. ¿Elige innovar y compartirlo a través de código abierto? Innovaciones como la arquitectura MLA de mayo pronto serán copiadas por otras empresas, ¿verdad?

Liang Wenfeng:existir Frente a las tecnologías disruptivas, el foso formado por el código cerrado es de corta duración. Incluso si OpenAI es de código cerrado, no puede evitar que otros lo superen.Por eso, depositamos valor en el equipo. Nuestros compañeros crecen en el proceso, acumulan mucho know-how y forman una organización y una cultura que pueden innovar, que es nuestro foso.

De hecho, no se pierde nada con el código abierto y la publicación de artículos. Para el personal técnico, ser seguido es una gran sensación de logro. De hecho, el código abierto se parece más a un comportamiento cultural que a un comportamiento comercial. Dar es en realidad un honor adicional. Una empresa que haga esto también tendrá un atractivo cultural.

"Undercurrent": ¿Qué opinas de los creyentes del mercado como Zhu Xiaohu?

Liang Wenfeng: Zhu Xiaohu es consistente, pero su estilo de juego es más adecuado para empresas que ganan dinero rápidamente. Y si nos fijamos en las empresas más rentables de Estados Unidos, todas son empresas de alta tecnología con una profunda acumulación.

"Undercurrent": Pero cuando se trata de modelos a gran escala, es difícil obtener una ventaja absoluta simplemente liderando en tecnología. ¿Cuál es la apuesta más importante?

Liang Wenfeng：Lo que vemos es que la IA china no siempre puede estar en posición de seguirle. A menudo decimos que hay una brecha de uno o dos años entre la IA de China y la de Estados Unidos, pero la verdadera brecha es la diferencia entre originalidad e imitación. Si esto no cambia, China siempre será su seguidora, por lo que algunas exploraciones son inevitables.

El liderazgo de NVIDIA no es sólo el esfuerzo de una empresa, sino el resultado de los esfuerzos conjuntos de toda la industria y la comunidad tecnológica occidental. Pueden ver la próxima generación de tendencias tecnológicas y tener una hoja de ruta en mano. El desarrollo de la IA en China también requiere un ecosistema de este tipo. Muchos chips nacionales no pueden desarrollarse debido a la falta de comunidades técnicas de apoyo y sólo de información de segunda mano. Por lo tanto, China debe tener a alguien a la vanguardia de la tecnología.

Más inversión no necesariamente conduce a más innovación

"Undercurrent": el DeepSeek actual tiene una especie de temperamento idealista de los primeros días de OpenAI y también es de código abierto. ¿Elegirás el código cerrado en el futuro? Tanto OpenAI como Mistral han pasado por el proceso de pasar del código abierto al código cerrado.

Liang Wenfeng : No cerraremos la fuente. Creemos que es más importante tener primero un ecosistema técnico sólido.

"Undercurrent": ¿Tienen un plan de financiación? Según informes de los medios, Huanfang tiene planes de escindir y cotizar en bolsa las nuevas empresas de inteligencia artificial de DeepSeek en Silicon Valley que, al final, inevitablemente estarán vinculadas a los principales fabricantes.

Liang Wenfeng: No hay ningún plan de financiación a corto plazo. El problema al que nos enfrentamos nunca ha sido el dinero, sino el embargo de chips de alta gama.

"Subcurrente": Mucha gente cree que hacer AGI y hacer cuantificación son dos cosas completamente diferentes. La cuantificación se puede hacer silenciosamente, pero AGI puede requerir más esfuerzos y alianzas de alto nivel, lo que puede aumentar su inversión.

Liang Wenfeng : Más inversión no necesariamente produce más innovación. De lo contrario, los grandes fabricantes pueden hacerse cargo de todas las innovaciones.

"Undercurrent": No haces aplicaciones ahora, ¿será porque no tienes los genes para operar?

Liang Wenfeng : Creemos que la etapa actual es un período de explosión de innovación tecnológica, no un período de explosión de aplicaciones. A largo plazo, esperamos formar un ecosistema en el que la industria utilice directamente nuestra tecnología y producción. Solo somos responsables de los modelos básicos y las innovaciones de vanguardia, y luego otras empresas construyen negocios toB y toC basados en DeepSeek. Si podemos formar una industria upstream y downstream completa, no necesitaremos crear aplicaciones nosotros mismos. Por supuesto, si es necesario, no hay obstáculo para que lo apliquemos, pero la investigación y la innovación tecnológica siempre serán nuestra primera prioridad.

"Undercurrent": Pero cuando se trata de elegir API, ¿por qué elegir DeepSeek en lugar de los grandes fabricantes?

Liang Wenfeng: Es probable que el mundo futuro sea un mundo de división especializada del trabajo. Los modelos básicos a gran escala requieren una innovación continua. Los grandes fabricantes tienen sus propios límites de capacidad y pueden no ser necesariamente adecuados.

"Undercurrent": ¿Pero puede realmente la tecnología ampliar la brecha? También dijo que no existen secretos técnicos absolutos.

Liang Wenfeng : No hay ningún secreto en la tecnología, pero restablecerla requiere tiempo y dinero. En teoría, las tarjetas gráficas de NVIDIA no tienen ningún secreto técnico y son fáciles de copiar, pero lleva tiempo reorganizar el equipo y ponerse al día con la tecnología de próxima generación, por lo que el foso real sigue siendo muy amplio.

"Undercurrent": Después de bajar el precio, Byte hizo el seguimiento primero, lo que demuestra que todavía sienten algún tipo de amenaza. ¿Qué opinas de la nueva solución para que las startups compitan con las grandes empresas?

Liang Wenfeng : Para ser honesto, no nos importa mucho este asunto, simplemente lo hicimos por cierto. Proporcionar servicios en la nube no es nuestro principal objetivo. Nuestro objetivo sigue siendo lograr AGI.

Hasta ahora no he visto ninguna solución nueva, pero los grandes fabricantes tampoco tienen una ventaja clara. Los grandes fabricantes tienen usuarios ya preparados, pero su negocio de flujo de caja también es una carga, lo que los hace vulnerables a la subversión en cualquier momento.

"Undercurrent": ¿Qué opinas del resultado de las seis grandes empresas emergentes además de DeepSeek?

Liang Wenfeng : Quizás sobrevivan 2 o 3 familias. Todavía estamos en la etapa de quema de dinero, por lo que aquellos con un autoposicionamiento claro y operaciones más refinadas tienen más posibilidades de sobrevivir. Otras empresas pueden reinventarse. Las cosas de valor no desaparecerán, pero sí cambiarán.

"Undercurrent": En la era del cuadrado mágico, la actitud frente a la competencia se evaluaba como "seguir el propio camino" y rara vez se prestaba atención a las comparaciones horizontales. Respecto a la competencia, ¿cuál es el punto de partida de su pensamiento?

Liang Wenfeng : Lo que a menudo pienso es si algo puede hacer que la sociedad sea más eficiente y si puedes encontrar una posición en la que seas bueno en su cadena de división industrial del trabajo. Siempre que el resultado final sea hacer la sociedad más eficiente, es válido. Hay muchas etapas intermedias y una atención excesiva inevitablemente te mareará.

Un grupo de jóvenes que hacen cosas "insondables"

"Undercurrent": Jack Clark, ex director de políticas de OpenAI y cofundador de Anthropic, cree que DeepSeek contrató a "un grupo de magos impredecibles". ¿Qué tipo de personas crearon DeepSeek v2?

Liang Wenfeng: No hay genios misteriosos, todos son recién graduados de las mejores universidades, pasantes con doctorados 4 y 5 que no se han graduado y algunos jóvenes que se graduaron hace solo unos años.

"Undercurrent": muchas grandes empresas modelo persisten en cazar gente en el extranjero. Mucha gente piensa que los 50 mejores talentos en este campo pueden no estar en empresas chinas.

Liang Wenfeng : No hay personas que regresaron del extranjero en el modelo V2, todos son locales. Puede que los 50 mejores talentos no estén en China, pero tal vez podamos formar esas personas nosotros mismos.

"Undercurrent": ¿Cómo surgió esta innovación de MLA? ¿Escuché que la idea surgió por primera vez del interés personal de un joven investigador?

Liang Wenfeng : Después de resumir algunos cambios principales en la arquitectura de Atención, de repente quiso diseñar una alternativa. Sin embargo, es un largo proceso desde la idea hasta la implementación. Formamos un equipo para esto y nos llevó varios meses lograrlo.

"Undercurrent": El nacimiento de esta inspiración divergente está estrechamente relacionado con la estructura de su organización completamente innovadora. En la era del Cuadrado Mágico, rara vez se asignan objetivos o tareas de arriba a abajo. Pero, ¿la AGI, una exploración de fronteras llena de incertidumbre, requiere más acciones de gestión?

Liang Wenfeng : DeepSeek también es totalmente ascendente. Además, generalmente no preconizamos la división del trabajo, sino la división natural del trabajo. Cada uno tiene su propia experiencia de crecimiento única y viene con sus propias ideas, por lo que no hay necesidad de presionarlas. Durante el proceso de exploración, cuando encuentre problemas, invitará a otros a discutirlos. Pero cuando una idea muestra potencial, asignaremos recursos de arriba a abajo.

"Undercurrent": Escuché que DeepSeek es muy flexible a la hora de movilizar tarjetas y personas.

Liang Wenfeng : Cada uno de nosotros no tiene un límite superior en la transferencia de tarjetas y personas. Si tiene una idea, todos pueden llamar a la tarjeta del grupo de formación en cualquier momento sin aprobación. Al mismo tiempo, debido a que no hay jerarquías ni departamentos cruzados, se puede llamar a todos de manera flexible siempre que la otra parte también esté interesada.

"Undercurrent": un método de gestión flexible también depende de que usted seleccione un grupo de personas impulsadas por un fuerte amor. Escuché que eres muy bueno reclutando personas basándose en los detalles y que puedes seleccionar algunas personas destacadas basándose en indicadores de evaluación no tradicionales.

Liang Wenfeng : Nuestro criterio para seleccionar personas siempre ha sido el amor y la curiosidad, por eso mucha gente vivirá experiencias únicas, lo cual es muy interesante. Muchas personas desean investigar mucho más de lo que les importa el dinero.

"Undercurrent": Transformer nació en el AI Lab de Google y ChatGPT nació en OpenAI. ¿Cuál cree que es la diferencia en el valor de la innovación entre el AILab de una gran empresa y una empresa emergente?

Liang Wenfeng : Ya sean Google Labs, OpenAI o incluso los AI Labs de las principales empresas chinas, todos son valiosos. Al final, OpenAI lo logró, y también fue un accidente histórico.

"Undercurrent": ¿Es la innovación en gran medida un accidente? Veo que la fila de salas de conferencias en el medio del área de su oficina tiene puertas a izquierda y derecha que se pueden abrir a voluntad. Sus colegas dijeron que esto es para dejar espacio al azar. En el nacimiento de Transformer, hubo una historia en la que las personas que pasaban por casualidad se enteraron de él y se unieron, convirtiéndolo finalmente en un marco universal.

Liang Wenfeng : Creo que la innovación es ante todo una cuestión de creencia. ¿Por qué Silicon Valley es tan innovador? La primera es atreverse. Cuando salió Chatgpt, todo el país carecía de confianza en la innovación de vanguardia, desde los inversores hasta los grandes fabricantes, todos sintieron que la brecha era demasiado grande, por lo que simplemente deberían presentar aplicaciones. Pero la innovación requiere primero confianza. Esta confianza suele ser más pronunciada en las personas más jóvenes.

"Undercurrent": pero usted no participa en la financiación, rara vez habla con el mundo exterior y su voz social definitivamente no es tan buena como la de las empresas que participan activamente en la financiación. ¿Cómo puede asegurarse de que DeepSeek sea la primera opción? ¿Personas que quieren construir modelos grandes?

Liang Wenfeng: Porque estamos haciendo lo más difícil.Lo que atrae más a los mejores talentos es, sin duda, resolver los problemas más difíciles del mundo. De hecho, en China se subestiman los mejores talentos. Como hay muy pocas innovaciones fundamentales en todo el nivel social, no tienen ninguna posibilidad de ser identificadas. Estamos haciendo lo más difícil, lo que les resulta atractivo.

"Undercurrent": El lanzamiento de OpenAI hace algún tiempo no esperó a GPT5. Mucha gente piensa que la curva de la tecnología obviamente se está desacelerando y mucha gente está comenzando a cuestionar la Ley de escala.

Liang Wenfeng : Somos optimistas y toda la industria parece estar en línea con las expectativas. OpenAI no es un dios y no siempre puede estar a la vanguardia.

"Undercurrent": ¿Cuánto tiempo cree que llevará realizar AGI? Antes de lanzar DeepSeek V2, lanzó la generación de código y los modelos matemáticos, y también cambió de modelos densos a MOE. Entonces, ¿cuáles son las coordenadas de su hoja de ruta AGI?

Liang Wenfeng : Pueden ser 2 años, 5 años o 10 años. En resumen, se realizará durante nuestra vida. En cuanto a la hoja de ruta, ni siquiera dentro de nuestra empresa hay consenso. Pero sí apostamos en tres direcciones. Uno son las matemáticas y el código, el segundo es la multimodalidad y el tercero es el propio lenguaje natural. Las matemáticas y el código son el campo de pruebas natural para AGI. Es un poco como Go. Es un sistema cerrado y verificable, y es posible lograr una alta inteligencia mediante el autoaprendizaje. Por otro lado, el aprendizaje multimodal que involucre a humanos en el mundo real también puede ser necesario para la AGI. Estamos abiertos a todas las posibilidades.

"Undercurrent": ¿Cómo crees que será el final de la gran modelo?

Liang Wenfeng : Habrá empresas especializadas que proporcionarán modelos y servicios básicos, y habrá una larga cadena de división profesional del trabajo. Más personas pueden satisfacer las diversas necesidades de la sociedad en su conjunto.

Todas las rutinas son productos de la generación anterior.

"Undercurrent": el año pasado, hubo muchos cambios en el gran modelo empresarial de China, por ejemplo, Wang Huiwen, que estaba activo a principios del año pasado, se retiró de la empresa a medio plazo y de las empresas a las que se unió más tarde. comenzó a mostrar diferenciación.

Liang Wenfeng : Wang Huiwen asumió todas las pérdidas él mismo y dejó que otros escaparan ilesos. Tomó una decisión que fue muy perjudicial para él mismo pero mejor para todos, por lo que es una persona muy amable, lo cual admiro mucho.

"Undercurrent": ¿Dónde concentras la mayor parte de tu energía ahora?

Liang Wenfeng : El objetivo principal es investigar la próxima generación de modelos grandes. Todavía quedan muchas preguntas sin respuesta.

"Undercurrent": Varias otras grandes empresas emergentes insisten en tener ambos. Después de todo, la tecnología no traerá un liderazgo permanente. También es importante aprovechar la ventana de tiempo para poner las ventajas técnicas en los productos. ¿Es porque la capacidad del modelo no es suficiente?

Liang Wenfeng : Todas las rutinas son productos de la generación anterior y pueden no ser válidas en el futuro. Utilice la lógica empresarial de Internet para discutir el modelo de ganancias futuro de la IA, tal como cuando Ma Huateng comenzó su negocio, habló sobre General Electric y Coca-Cola. Probablemente sea una especie de talla de un barco para buscar una espada.

"Undercurrent": En el pasado, Huanfang tenía fuertes genes de tecnología e innovación, y su crecimiento fue relativamente fluido. ¿Es por eso que es optimista?

Liang Wenfeng : Magic Square ha mejorado hasta cierto punto nuestra confianza en la innovación impulsada por la tecnología, pero no siempre es un camino fácil. Hemos pasado por un largo proceso de acumulación. Lo que vemos desde fuera es la parte del Cuadrado Mágico posterior a 2015, pero en realidad llevamos 16 años haciéndolo.

"Undercurrent": Volviendo al tema de la innovación original. Ahora que la economía ha entrado en una recesión y el capital ha entrado en un ciclo frío, ¿traerá esto más limitaciones a la innovación original?

Liang Wenfeng : No me parece. El ajuste de la estructura industrial de China dependerá más de la innovación en tecnologías básicas. Cuando muchas personas descubran que ganar dinero rápido en el pasado probablemente se debió a la suerte de la época, estarán más dispuestas a apoyarse y realizar innovaciones reales.

"Undercurrent": ¿Entonces usted también es optimista sobre este asunto?

Liang Wenfeng : Crecí en una ciudad de quinto nivel en Guangdong en los años 1980. Mi padre es maestro de escuela primaria. En la década de 1990, había muchas oportunidades de ganar dinero en Guangdong. En ese momento, muchos padres venían a mi casa y la mayoría pensaba que estudiar era inútil. Pero ahora, mirando hacia atrás, mis ideas han cambiado. Como es difícil ganar dinero, es posible que ni siquiera tenga la posibilidad de conducir un taxi. Eso cambia en una generación.

En el futuro habrá cada vez más innovaciones radicales. Puede que no sea fácil de entender ahora porque es necesario educar a todo el grupo social sobre los hechos. Cuando esta sociedad permita que personas innovadoras acérrimas tengan éxito, el pensamiento grupal cambiará.Sólo necesitamos un montón de hechos y un proceso.

noticias

Revelando DeepSeek: una historia más extrema del idealismo tecnológico chino Exclusivo de 36Kr |

Introducción

Mi informacion de contacto