noticias

Una conversación con el equipo de Qi Peng en el Instituto de Investigación de IA de Chongqing de la Universidad Jiao Tong de Shanghai: El nivel actual de modelos grandes solo equivale al de un niño de cinco años |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Fuente de la imagen: unsplash)

Recientemente, una noticia sobre "El modelo grande no puede determinar si 9.11 o 9.9 es más grande" generó discusión.

Cuando un usuario preguntó a 12 grandes modelos de IA nacionales y extranjeros, incluido GPT-4o, una pregunta matemática que es difícil para los estudiantes de primaria: "¿Cuál es más grande, 9.11 o 9.9?", el resultado final resultó ser solo Alibaba Tongyi. Qianwen y Baidu Wenxin, Minimax y Tencent Yuanbao dieron 4 respuestas correctas, mientras que 8 modelos grandes, incluido ChatGPT-4o, dieron respuestas incorrectas.

Esto significa que las capacidades matemáticas de los modelos grandes son deficientes y hay muchos problemas que deben resolverse.

En una conversación exclusiva anterior con TMTpost AGI, el Dr. Qi Peng, director del Centro de Modelos Grandes de IA del Instituto de Inteligencia Artificial Chongqing de la Universidad Jiao Tong de Shanghai (Instituto de Inteligencia Artificial Shanghai-Chongqing), dijo que aunque los modelos grandes tienen grandes potencial y puede manejar problemas complejos y tiene la capacidad de aprender la capacidad de generalización. Sin embargo, los modelos de lenguaje grandes pueden parecerse más a "estudiantes de artes liberales" debido a las limitaciones de la arquitectura del modelo y la falta de habilidades científicas. Además, la potencia informática limitada actual es insuficiente, los datos de texto son insuficientes, la precisión y la confiabilidad están sesgadas y la escala del modelo no es lo suficientemente grande. Su nivel de inteligencia todavía está en el nivel de un niño, más como un "niño de cinco años". ", y es difícil manejar tareas complejas. , la "ilusión" existe desde hace mucho tiempo.

Qi Peng se graduó de la Universidad de Tsinghua con una licenciatura y completó un doctorado en la Universidad de Wisconsin en los Estados Unidos. Actualmente trabaja en el Instituto de Investigación de Inteligencia Artificial de Chongqing de la Universidad Jiao Tong de Shanghai. Qi Peng ha estado profundamente involucrado en la ciencia de datos, la inteligencia artificial y otros campos durante muchos años, participó en muchos proyectos nacionales de ciencia y tecnología y posee varios derechos de propiedad intelectual.

A medida que ChatGPT se ha vuelto popular en todo el mundo, durante el último año, Qi Peng ha liderado el equipo del centro de grandes modelos de IA de la Universidad Jiao Tong de Shanghai y el Instituto de Investigación de Inteligencia Artificial de Chongqing para desarrollar de forma independiente el modelo de lenguaje grande "Zhaoyan". y en marzo de este año, la evaluación de agentes modelo grandes chinos SuperCLUE ocupó el tercer lugar a nivel mundial y el segundo a nivel nacional en los puntos de referencia.

Al mismo tiempo, en julio de este año, Qi Peng llevó a Zhuang Shaobin, un estudiante de doctorado de la Universidad Jiao Tong de Shanghai, y a otros a participar en un proyecto comunitario de código abierto y reprodujo con éxito un modelo de video Wensheng similar a Sora utilizando el Latte avanzado. Después de un entrenamiento cuidadoso, la arquitectura de atención de desacoplamiento espaciotemporal pudo generar un video de 16 segundos (128 cuadros) en el conjunto de datos de video de InternVid. En comparación con el modelo de código abierto anterior, que solo puede generar 3 segundos (24). -frame) video, el rendimiento mejora 5 veces (500%).

El 12 de julio, Qi Peng y Zhuang Shaobin tuvieron una conversación exclusiva con TMTpost durante aproximadamente dos horas, enfocándose en el estado actual de desarrollo de Sora y los desafíos que enfrenta el desarrollo de modelos grandes, la implementación de la industria y las direcciones de desarrollo futuras.

Hablando del impacto de la tecnología Sora, Qi Peng le dijo a TMTpost AGI que Sora es más como un nuevo "martillo" que puede resolver una variedad de problemas. Además de la generación de vídeo, el modelo de vídeo de Sora Vincent también puede desempeñar un papel en muchos campos, como la conducción autónoma y la simulación del mundo físico. La aplicación más intuitiva es la generación de video. Los usuarios solo necesitan ingresar una descripción de texto para generar rápidamente contenido de video que cumpla con los requisitos, mejorando la eficiencia y la conveniencia de la producción de video.

Cuando se trata de implementación industrial, Qi Peng señaló que los modelos grandes se utilizan ampliamente en múltiples industrias verticales, pero hay relativamente pocos casos de implementación real. Hay dos razones principales: primero, la falta de capacidades matemáticas y de ingeniería de los modelos grandes; segundo, como parte de la categoría de aprendizaje automático, la naturaleza de los modelos grandes basados ​​en métodos estadísticos determina que no pueden alcanzar el 100% de precisión.

Esperando con interés el desarrollo futuro de AGI, Qi Peng enfatizó que la sociedad humana se encuentra en un período crítico que conduce a la AGI. Aunque las capacidades del modelo actual no cumplen con los estándares AGI, un día en el futuro, cuando las personas miren hacia atrás en este período de la historia, pueden darse cuenta de que ChatGPT nos ha colocado en un nodo histórico importante.

"Un objetivo importante del instituto es lograr la comercialización de tecnología. El Large Model Center se centra actualmente en la implementación de AIGC, especialmente en la cuestión de la 'última milla', cómo transformar los resultados de la investigación en productos o servicios reales para satisfacer el mercado. Demanda Aunque la inteligencia de los modelos grandes puede seguir mejorando, desde los cinco a los diez años hasta los dieciocho años, e incluso alcanzar el nivel de los mejores expertos, dichos sistemas siempre requerirán instalaciones y herramientas de soporte para respaldar su operación y aplicación. Los costos de desarrollo pueden ser altos y relativamente bajos, pero desempeñan un papel crucial en la promoción de la aplicación práctica y el valor social de los modelos grandes", afirmó Qi Peng.


Dr. Qi Peng, Director del Centro de Modelos Grandes de IA del Instituto de Inteligencia Artificial de Chongqing, Universidad Jiao Tong de Shanghai

El siguiente es un resumen de la conversación entre TMTpost Media AGI, Qi Peng y Zhuang Shaobin:TMTpost Media AGI: En comparación con otros modelos de video, ¿cuáles son las diferencias principales del modelo de video recurrente Sora Vincent desarrollado conjuntamente por el Instituto de Investigación de Inteligencia Artificial de Chongqing de la Universidad Jiao Tong de Shanghai?

Qi Peng: Este proyecto fue desarrollado por un equipo dirigido por el Dr. Zhuang Shaobin. El equipo decidió utilizar todos los datos de código abierto para el entrenamiento de modelos. El equipo no sólo abrió los datos, sino que también hizo público el proceso de formación. De esta manera, otros investigadores o desarrolladores pueden reproducir el proceso de entrenamiento del modelo en su propio entorno basándose en los mismos pasos y configuraciones de parámetros, y verificar la efectividad y estabilidad del modelo.

Las diferencias fundamentales se reflejan principalmente en tres aspectos:

Primero, el equipo utiliza todos los datos de código abierto para la capacitación del modelo, lo que significa que todo el proceso de capacitación se basa en conjuntos de datos de acceso público. Este enfoque garantiza la transparencia y repetibilidad del proceso de formación, y cualquiera que esté interesado puede utilizar el mismo conjunto de datos para reproducir o mejorar el modelo.

En segundo lugar, el equipo adoptó un método de entrenamiento indirecto, que puede entrenar el modelo de manera eficiente a un costo computacional menor. Este enfoque es adecuado para conjuntos de datos a gran escala y modelos complejos, ya que requieren tiempos de entrenamiento más prolongados y mayores recursos informáticos. Al utilizar capacitación indirecta, el tiempo de capacitación se puede acortar aumentando el número de nodos informáticos sin aumentar el costo de la potencia informática de un solo nodo informático.

En tercer lugar, el equipo también llevó a cabo algunos trabajos de optimización subyacente, especialmente la optimización de la sobrecarga de la memoria de video. Estas optimizaciones permiten que el modelo entrene de manera estable videos largos en un clúster o servidor, mejorando la eficiencia del entrenamiento y la escalabilidad del modelo.

TMTpost AGI: ¿Cuál es la lógica y las razones detrás de la elección del modelo de código abierto?

Qi Peng: A diferencia de los proyectos comerciales, la ventaja de utilizar el modelo de código abierto para proyectos de investigación en los que colaboran equipos y comunidades de código abierto es que pueden atraer a más personal de I+D para participar. Dado que no existen restricciones de derechos de autor ni de comercialización, cualquier persona interesada en este proyecto puede obtener y utilizar fácilmente el modelo, proponer sus propias sugerencias de mejora o contribuir con código nuevo. Este modelo puede ayudar con la mejora y optimización continua de los modelos, y también puede fortalecer la comunicación y cooperación interdisciplinaria y entre campos.

TMTpost AGI: Este modelo de video recurrente similar a Sora utiliza la arquitectura de atención de acoplamiento espaciotemporal Latte ¿Cuál es la razón por la cual no está conectado con la arquitectura DiT?

Qi Peng: la arquitectura del modelo similar a Sora desarrollada por el equipo no abandona por completo Transformer u otros modelos tradicionales. Se expande sobre la base de DiT y agrega la dimensión del tiempo para admitir el procesamiento de video. La consideración de esta nueva arquitectura puede ser adaptarse mejor a las características de los datos de video y mejorar el rendimiento del modelo en tareas de generación o procesamiento de video.

Titanium Media AGI: La arquitectura DiT tiene limitaciones para generar videos largos. ¿Puede la arquitectura de atención acoplada espaciotemporal de Latte resolver estos problemas?

Zhuang Shaobin: El mejor modelo que el equipo está entrenando actualmente puede generar videos de hasta 16 segundos de duración. Esta es una gran mejora con respecto a los modelos anteriores basados ​​en la arquitectura unet, que normalmente sólo podía generar de dos a tres segundos de vídeo. 16 segundos no es mucho tiempo, pero sí un récord relativamente largo en el campo de la generación de vídeo.

Problemas de continuidad y coherencia en la generación de vídeo, que se ven afectados principalmente por la calidad de los datos. Si hay situaciones incoherentes, como saltos de cuadros en los datos del video, es probable que el modelo entrenado también genere videos incoherentes. Además, la velocidad de cuadros y la resolución durante el entrenamiento del modelo tienen un impacto en la calidad de la generación de video. Si el modelo solo se entrena con datos de menor resolución y velocidad de fotogramas, es posible que no pueda generar videos fluidos y de alta resolución.

¿Por qué no puedo generar un vídeo de un minuto o dos de duración de principio a fin? Un vídeo de extremo a extremo de uno o dos minutos significa miles de fotogramas o incluso dos o tres mil fotogramas de datos, lo que requiere cientos o miles de veces el consumo de recursos informáticos. Aunque la arquitectura de atención acoplada espaciotemporal de Latte puede extenderse teóricamente a tal duración, actualmente ninguna institución tiene suficiente potencia informática y datos para respaldar dicha capacitación.

TMTpost AGI: Actualmente, ¿quién utiliza Sora? ¿Qué problemas se resuelven? ¿Qué valor aporta?

Zhuang Shaobin: En el lado C, para los productores de video no profesionales, como los usuarios domésticos comunes, los modelos de generación de video como Sora pueden reducir en gran medida la dificultad de la producción de video. Los usuarios solo necesitan ingresar descripciones de texto para generar hermoso contenido de video, lo que facilita la participación en la creación de videos.

En el lado B, para creativos y editores de video profesionales, Sora puede generar materiales de video complejos o imaginativos. Los profesionales pueden ajustar y optimizar en función de los materiales proporcionados por el modelo, mejorando así la eficiencia del trabajo y la calidad de la creación.

Sora no solo se utiliza en la producción de videos, sino que también tiene una serie de exploraciones en múltiples campos, como la conducción autónoma, la generación y modelado 3D y la investigación en física. El sistema de conducción autónoma necesita predecir con precisión los cambios dinámicos de los objetos circundantes, y Sora, como "simulador mundial", puede simular y predecir las trayectorias de movimiento de los objetos, proporcionando modelos ambientales más precisos para el sistema de conducción autónoma.

Por ejemplo, en el campo de la conducción autónoma, la solución de conducción autónoma de Tesla y sistemas avanzados de asistencia a la conducción similares han logrado avances tecnológicos significativos. Pueden detectar el entorno circundante en tiempo real, incluidos vehículos, peatones, obstáculos, etc., que es la clave. para realizar la conducción autónoma. Los fundamentos de la conducción. Sora ayuda a los sistemas de conducción autónoma a tomar decisiones con antelación para evitar situaciones potencialmente peligrosas, como colisiones y colisiones por alcance. Al mismo tiempo, al predecir el movimiento de objetos, el sistema también puede optimizar las rutas y velocidades de conducción, mejorar la eficiencia del tráfico y reducir la congestión y las emisiones.

En general, Sora reduce el umbral para la producción de vídeos y permite que más personas participen en la creación de vídeos. Tanto los usuarios no profesionales del lado C como los productores de vídeos profesionales del lado B pueden beneficiarse de ello.

Qi Peng: Sora es más como un "martillo", una nueva herramienta que puede resolver una variedad de problemas. Además de la generación de vídeo, el modelo de vídeo de Sora Vincent también puede desempeñar un papel en muchos campos, como la conducción autónoma y la simulación del mundo físico. La aplicación más intuitiva es la generación de video. Los usuarios solo necesitan ingresar una descripción de texto para generar rápidamente contenido de video que cumpla con los requisitos, mejorando la eficiencia y la conveniencia de la producción de video.

Muchas veces, la tecnología no se desarrolla para resolver un problema específico, sino que accidentalmente se descubren soluciones poderosas durante el proceso de investigación. Una vez que este método madure, podrá utilizarse ampliamente en muchos campos para resolver una serie de problemas.

Actualmente, Sora todavía se encuentra en versión beta y no está ampliamente disponible para el público. En China, puede haber algunos casos de aplicación para versiones beta internas o externas, pero el número es relativamente pequeño y se limita principalmente a generar videos cortos o clips de películas. Dado que se trata de una versión beta, es posible que esté disponible de forma gratuita en muchos casos. Si el cobro comienza en el futuro, el costo será una parte muy pequeña de los costos actuales de producción de video, como unos pocos cientos de yuanes, lo que reducirá en gran medida el costo de producción de video.

TMTpost AGI: ¿Qué desafíos encontró el equipo durante el desarrollo del modelo Sora? ¿Cómo superar estos desafíos?

Qipeng : Este proyecto coopera principalmente con la comunidad de código abierto. El trabajo principal de investigación y desarrollo lo lleva a cabo el Dr. Zhuang Shaobin y uno o dos miembros del personal de investigación y desarrollo. El proyecto en su conjunto se divide en cuatro grupos, que son responsables de la recopilación y el etiquetado de datos, el entrenamiento de modelos, la evaluación de modelos, la aceleración del entrenamiento y la optimización de la máquina.

Zhuang Shaobin: Durante el proceso de capacitación del modelo, el mayor desafío que enfrenta el equipo son los recursos informáticos insuficientes. Especialmente cuando se procesan datos a gran escala y modelos complejos, la demanda de recursos informáticos es muy alta. Para utilizar los recursos limitados de la máquina de manera más eficiente, el equipo de algoritmos del equipo del proyecto realizó una gran cantidad de trabajo de optimización.

Estas optimizaciones incluyen estrategias de optimización avanzadas, como el paralelismo de modelos y el paralelismo de tuberías, así como optimización de la memoria de video para modelos individuales.

Además, el equipo también optimizó el campo de video, para que el proyecto pueda tener escenarios de aplicación claros y áreas objetivo para satisfacer mejor las necesidades reales de la aplicación del proyecto.

TMTpost Media AGI: El Instituto de Investigación de Inteligencia Artificial de Chongqing de la Universidad Jiao Tong de Shanghai y el Instituto de Investigación de Revitalización Rural (Chongqing) publicaron anteriormente un gran modelo de agricultura de revitalización rural llamado “Zhaoyan·Zhaofeng”.

Qi Peng: Como único municipio con escenas rurales, Chongqing ofrece escenas ricas y un amplio espacio para la aplicación de modelos agrícolas a gran escala. El modelo de revitalización rural a gran escala utiliza datos masivos en línea y datos agrícolas de la Academia de Ciencias Agrícolas. Estos datos proporcionan una base para la construcción y la capacitación del modelo y pueden reflejar con mayor precisión la situación real de la producción agrícola. Actualmente, este proyecto se desarrolla conjuntamente con agencias gubernamentales, el Instituto de Investigación de Revitalización Rural (Chongqing) y otras partes. Este modelo de cooperación ayuda a integrar recursos, tecnología y fondos para impulsar conjuntamente la investigación, el desarrollo y la aplicación de modelos agrícolas a gran escala.

El modelo grande de revitalización rural planea crear 14 modelos, y actualmente hay entre 3 y 4 productos relacionados. El modelo grande transforma el conocimiento experto en información popular y fácil de entender, resuelve problemas en la producción agrícola, la gestión y los medios de vida de las personas, y ayuda. Los trabajadores pueden acceder y utilizar el conocimiento agrícola tan fácilmente como los residentes urbanos, lo que ayudará a reducir la brecha de información entre las áreas urbanas y rurales y mejorará la eficiencia y eficacia de la producción agrícola.

TMTpost AGI: En esta etapa, ¿cuáles son los obstáculos en el desarrollo de tecnología de modelos grandes?

Qipeng: En primer lugar, está claro lo que el equipo define como modelo grande, que es un modelo de lenguaje grande. El modelo de lenguaje grande es la corriente principal y su núcleo radica en el conocimiento y la lógica. A medida que los grandes modelos de lenguaje continúan desarrollándose, su nivel de inteligencia puede aumentar gradualmente desde el coeficiente intelectual de un niño de cinco años hasta el nivel de un niño de diez años, uno de dieciocho años o incluso un superhombre. Este proceso se basa principalmente en el dominio y la aplicación del conocimiento y la lógica del modelo.

A diferencia del modelo de lenguaje grande, el modelo de video de Vincent es otra línea del modelo grande. No implica conocimiento ni lógica complejos, sino que se centra más en la comprensión y simulación de las leyes del mundo físico. Modelos como Vincent Video Modeling pueden predecir y responder a cambios en el mundo físico basándose en la percepción y la experiencia, pero carecen de comprensión lógica de alto nivel y capacidades de resumen de conocimientos.

Además, existen modelos multimodales, que pueden codificar y procesar múltiples formas de información, como texto, imágenes, sonidos, etc., de forma unificada. Los modelos multimodales son una de las direcciones de desarrollo futuras, que pueden comprender y procesar de manera más integral información compleja en el mundo real.

Actualmente, los modelos grandes están entrando en un período de estancamiento y parece difícil lograr un salto cualitativo en términos de inteligencia. Seguimos creyendo que los modelos más grandes tienden a ser capaces de manejar problemas más complejos y tener mayores capacidades de aprendizaje y generalización. Una vez que un modelo pueda alcanzar una precisión del 99,9%, este modelo de gran tamaño se convertirá en una nueva herramienta de productividad capaz de realizar diversas tareas.

El desarrollo de modelos grandes tiene problemas como potencia informática insuficiente, datos de texto insuficientes, desviaciones en la precisión y confiabilidad y escala del modelo insuficiente. De esta manera, el "CI" del modelo grande no es lo suficientemente alto, más parecido al nivel de CI de un niño de cinco o seis años. La capacidad del modelo grande para manejar tareas complejas es limitada y no puede alcanzar el nivel de las personas. esperar.

En segundo lugar, debido a las limitaciones de la arquitectura del modelo de lenguaje grande, el modelo grande es un poco como un "estudiante de artes liberales". Maneja muy bien el lenguaje, pero no es bueno en matemáticas ni en ingeniería. El modelo grande se puede comparar con el "CEO o COO" de la empresa. Aunque este "CEO o COO" puede no saber mucho sobre tecnología, puede movilizar varios componentes de alta tecnología.

Al mismo tiempo, los grandes fabricantes nacionales y las empresas emergentes encuentran dificultades para desarrollar modelos grandes, principalmente porque el costo de inversión es enorme y la comercialización no es suficiente para respaldar la inversión continua en potencia informática y datos.

Si el nivel de inteligencia de modelos grandes no se puede mejorar significativamente en un corto período de tiempo, entonces el desarrollo de aplicaciones se convierte en una opción factible. En la etapa actual de desarrollo de modelos a gran escala, los clientes necesitan explorar y mejorar en la práctica en diferentes escenarios de aplicación. A través de la comercialización de aplicaciones, se pueden generar ingresos para respaldar el desarrollo y la optimización continuos de modelos grandes. Esto no sólo garantiza la sostenibilidad económica del proyecto, sino que también brinda la posibilidad de futuras innovaciones tecnológicas.

Además, las grandes empresas modelo también pueden apoyar el desarrollo de proyectos mediante financiación. Sin embargo, la financiación no es fácil. Depende de si el mercado reconoce el potencial y el valor del proyecto.

TMTpost AGI: El mercado está muy entusiasmado con los modelos grandes, pero la aplicación de modelos grandes ha avanzado lentamente, lo que va por detrás de las expectativas del mercado.

Qi Peng: Hay dos razones:

En primer lugar, la actual falta de capacidades técnicas da como resultado una mejora limitada, lo que reduce el entusiasmo por las actualizaciones proactivas;

En segundo lugar, la aplicación de nuevas tecnologías requiere nuevo hardware y soporte de potencia informática, pero varias empresas están mal preparadas y carecen de suficientes salas de informática y recursos informáticos inteligentes para implementar y ejecutar modelos grandes, lo que dificulta la implementación de modelos grandes en industrias verticales. El segundo problema en realidad puede resolverse mediante políticas correspondientes. Si las empresas pueden confiar en la garantía de seguridad de los datos de los institutos de investigación o centros de potencia informática con inversión gubernamental, pueden comenzar a desarrollar soluciones modelo a gran escala antes de construir sus propias salas de computación inteligentes.

Los modelos grandes, especialmente aquellos capaces de generar texto, imágenes, etc. de alta calidad, a menudo requieren importantes recursos informáticos para funcionar. Por ejemplo, cuando 1 millón de usuarios utilizan un modelo grande al mismo tiempo, el costo anual de la potencia informática puede exceder los cientos de millones, lo que dificulta su comercialización. Para los usuarios comunes, estos productos de aplicaciones de modelos grandes y de alto costo pueden resultar inasequibles, lo que también limita la promoción de aplicaciones de extremo C.

En esta etapa, las soluciones pueden incluir la adopción de algoritmos más eficientes, la optimización de las estructuras del modelo para reducir la cantidad de cálculos o la utilización de recursos informáticos distribuidos, como la computación en la nube, para distribuir los costos.

En algunos aspectos, el agente inteligente de modelo grande actual todavía es como un "niño de cinco años". Tiene problemas como un "CI" insuficiente, un rendimiento inestable y es propenso a alucinaciones, lo que afecta gravemente la experiencia y la confianza del usuario. Estos problemas son inaceptables en escenarios de aplicaciones que requieren alta precisión, como escenarios de servicio al cliente financiero o gubernamental. Incluso en algunos campos de consultoría u operación y mantenimiento donde los requisitos de precisión no son tan altos, la tasa de precisión actual del 80% o 60% aún no ha alcanzado el punto crítico para una aplicación generalizada.

Mejorar el rendimiento y la estabilidad de los agentes requiere una optimización continua de los algoritmos, aumentar la diversidad y la cantidad de datos de entrenamiento e introducir arquitecturas de modelos más complejas. Al mismo tiempo, también es necesario fortalecer los mecanismos de monitoreo y manejo de errores en tiempo real para garantizar la estabilidad de modelos grandes en entornos complejos.

El reconocimiento de imágenes es un campo muy importante en la aplicación de modelos grandes multimodales. Basado en modelos previamente entrenados, se pueden desarrollar nuevos modelos de reconocimiento de imágenes a muy bajo costo, que cubren muchos escenarios de cola larga y tienen un gran potencial de mercado. Aunque el reconocimiento de imágenes tiene muchos escenarios de aplicación, los modelos actuales de reconocimiento de imágenes grandes todavía tienen el problema de una baja precisión y requisitos de potencia informática relativamente altos.

Además, debido a que la generación anterior de inteligencia artificial ha sido relativamente madura en la comprensión de imágenes, la gente no ha aceptado completamente el valor adicional que pueden producir los modelos grandes, lo que también afecta la velocidad de su promoción.

TMTpost AGI: ¿Cómo ve la innovación industrial actual de los grandes modelos de industrias verticales? ¿Por qué se han implementado tan pocos casos de industrias verticales?

Qi Peng: En términos de implementación en la industria vertical, tomando como ejemplo los robots humanoides en la industria manufacturera, pueden pasar de cinco a diez años hasta que los robots humanoides sean utilizables en familias. Esto se debe principalmente a que sus capacidades de generalización en el software aún son limitadas. No es suficiente y el hardware también necesita más investigación, desarrollo y mejora.

Una dirección de investigación más práctica es centrarse en el problema de generalización de los brazos robóticos en escenarios de fabricación. Aunque los brazos robóticos en sí son muy maduros y están ocupados por los principales fabricantes nacionales y extranjeros del mercado, los brazos robóticos existentes carecen de capacidades de generalización suficientes y no pueden adaptarse de manera flexible a una variedad de tareas laborales diferentes. Esto da como resultado la necesidad de reprogramar cada vez que se requiere que el brazo robótico realice una nueva tarea en aplicaciones prácticas, lo cual no es práctico cuando las tareas cambian con frecuencia.

La clave para resolver el problema de la generalización del brazo robótico radica en el desarrollo de software, especialmente aquellos que permitan al brazo robótico manejar una gama más amplia de escenarios. Se espera que dentro de uno o dos años, mediante la optimización y el desarrollo del software, las capacidades de generalización del brazo robótico mejoren significativamente.

Por supuesto, existen algunos desafíos para lograr el objetivo de generalizar las capacidades del brazo robótico, a saber, la falta de datos. Para entrenar un brazo robótico que pueda manejar una variedad de escenarios, se necesita una gran cantidad de datos de alta calidad para respaldar el aprendizaje y la optimización de algoritmos.

De hecho, los modelos grandes se pueden utilizar como agentes inteligentes en la industria manufacturera y pueden llamar a diferentes software en su conjunto. Esto significa que en sistemas complejos de la industria manufacturera, varios software que originalmente requerían operación manual o conexión de programación ahora pueden automatizarse e integrarse teóricamente a través de modelos grandes.

Los usuarios solo necesitan interactuar con el modelo grande a través del lenguaje o las ideas, y el modelo grande puede ejecutar automáticamente los programas correspondientes y completar diversas tareas. Sin embargo, debido a que diferentes empresas de fabricación tienen diferentes entornos de producción, sistemas y API, la adaptabilidad de modelos grandes en diferentes escenarios se ha convertido en un desafío importante. Incluso un modelo grande que esté bien sintonizado en una escena puede no funcionar correctamente en otro entorno. Por lo tanto, los desarrolladores empresariales necesitan ajustar escenarios específicos para mejorar el rendimiento y la precisión de modelos grandes.

Esta limitación afecta directamente a la aplicación generalizada y al desarrollo en profundidad de modelos grandes en la fabricación. Porque la fabricación a menudo implica operaciones muy complejas y refinadas, que requieren cálculos y control de alta precisión. Si un modelo grande no está a la altura de estas tareas, no alcanzará su potencial en la fabricación.

Además de las limitaciones de capacidad de los propios modelos grandes, los problemas de compatibilidad entre sistemas también son un factor importante que restringe la aplicación de modelos grandes en la fabricación. Diferentes empresas o unidades de producción pueden utilizar sistemas completamente diferentes, incluidos software, hardware y API diferentes. Esto hace que sea difícil aplicar directamente un modelo grande ajustado en un escenario a otro escenario porque los entornos del sistema de los dos escenarios pueden ser completamente diferentes. Esta variabilidad entre sistemas aumenta la complejidad y el costo de aplicar modelos grandes en la fabricación.

En realidad hay una solución. Para industrias verticales como la manufactura o las finanzas y el comercio minorista, se pueden definir interfaces para modelos grandes estandarizados. Estas interfaces aclararán las capacidades específicas que el modelo grande puede proporcionar, de modo que todos los sistemas puedan llamar a las funciones del modelo grande a través de estas interfaces. La ventaja de esto es que no importa cómo cambie el entorno del sistema, siempre que sigan estas especificaciones de interfaz estandarizadas, se pueden conectar sin problemas con modelos grandes.

Por lo tanto, al definir interfaces estandarizadas, los desarrolladores empresariales pueden reducir en gran medida la dificultad de hacer coincidir modelos grandes con diferentes sistemas, lo que permite que los modelos grandes se adapten a diferentes entornos de producción más rápidamente. Las interfaces estandarizadas ayudan a garantizar que los modelos grandes puedan ejecutarse de manera estable en varios sistemas y reducir los problemas de compatibilidad causados ​​por las diferencias entre sistemas.

En general, los modelos grandes se utilizan ampliamente en múltiples industrias verticales, pero hay relativamente pocos casos de implementación real. Hay dos razones principales: en primer lugar, las capacidades matemáticas y de ingeniería insuficientes dificultan que los modelos grandes alcancen suficiente precisión y estabilidad en aplicaciones prácticas. En segundo lugar, el modelo grande en sí mismo es parte de la categoría de aprendizaje automático y su naturaleza basada en métodos estadísticos determina que no puede ser 100% correcto.

De hecho, la estructura del cerebro humano no es 100% precisa, pero el juicio humano suele ser lo suficientemente preciso como para satisfacer las necesidades de la mayoría de los escenarios reales. Por el contrario, incluso después del entrenamiento, la precisión de un modelo grande puede seguir siendo de alrededor del 95%, lo que puede no ser suficiente en algunos escenarios que requieren una precisión extremadamente alta. Además, las capacidades matemáticas de los modelos grandes son relativamente pobres, lo que también limita su aplicación en ciertos campos.

Si desea superar estas limitaciones, debe darse cuenta de la importancia de contar con instalaciones de soporte para modelos grandes. Al proporcionar las instalaciones y herramientas de soporte necesarias para modelos grandes, puede compensar su falta de capacidades matemáticas y de ingeniería, de modo que pueda adaptarse mejor a las necesidades de los escenarios de aplicación reales. Dichas instalaciones de soporte pueden incluir conjuntos de datos más precisos, algoritmos más eficientes, plataformas de hardware más estables, etc.

TMTpost AGI: ¿Por qué los modelos grandes crean alucinaciones?

Qi Peng: A veces, debido a que faltan los datos originales o hay problemas, el modelo de lenguaje grande no puede aprender el conocimiento correcto durante el proceso de capacitación y, por lo tanto, no puede hacer inferencias correctas. Este error no se debe a fallas en el modelo de lenguaje grande en sí, sino a imprecisiones en los datos de entrada.

Si un modelo grande se entrena en un entorno hipotético donde toda la información apunta a conclusiones erróneas, entonces el modelo grande también emitirá juicios erróneos basándose en esta información errónea. Esto enfatiza la importante influencia de los datos y el entorno en el desempeño de los agentes y los grandes modelos.

A veces, los modelos grandes pueden generar respuestas que parecen lógicas y reflexivas, pero que en realidad no son verdaderas ni precisas. Esto es similar a la forma en que los niños de 5 años suelen describir con confianza los recuerdos falsos.

Los adultos también suelen experimentar alucinaciones o errores de memoria al procesar la información y la memoria. Por ejemplo, durante la grabación de la audiencia judicial y el análisis del caso, las partes involucradas en situaciones muy graves e importantes también pueden tener recuerdos falsos o alucinaciones debido a diversas presiones, información engañosa, etc.

TMTpost AGI: ¿Cómo se reflejan las diferencias en el entorno del mercado de modelos grandes en el país y en el extranjero?

Qipeng: En la actualidad, los países extranjeros todavía mantienen una gran confianza en la mejora de la tecnología y no se han volcado completamente al desarrollo de aplicaciones. Esto puede estar relacionado con el hecho de que los mercados extranjeros son relativamente maduros y estables, lo que permite a las empresas tener más recursos y espacio para centrarse en la investigación, el desarrollo y la innovación tecnológicos. Por el contrario, el mercado interno se enfrenta a un entorno competitivo más feroz y la mayoría de las grandes empresas de investigación y desarrollo de modelos han recurrido a aplicaciones a gran escala.

La competencia en el mercado interno no sólo se refleja en el número de empresas, sino también en la guerra de precios. Como varias empresas ofrecen servicios similares al mismo tiempo, el precio de los modelos grandes cae rápidamente, lo que dificulta que las empresas recuperen los costos proporcionando servicios. En países extranjeros, las empresas representadas por ChatGPT pueden continuar obteniendo ingresos y utilizarlos para mayor investigación, desarrollo e innovación en virtud de su posición de liderazgo en tecnología y reconocimiento del mercado.

En el mercado interno, debido a la feroz guerra de precios y la relativamente débil disposición a pagar, es posible que las empresas tengan que centrarse más en el desarrollo de nuevas aplicaciones para buscar avances comerciales. Aunque esta estrategia puede aliviar en cierta medida la presión económica de las empresas, también puede conducir a una inversión insuficiente en investigación y desarrollo tecnológico, afectando así su competitividad a largo plazo.

TMTpost AGI: ¿Cuáles son las direcciones de desarrollo futuro de AGI?

Qipeng: Creo que la sociedad humana se encuentra en un período crítico que conduce a la AGI. Aunque la industria actualmente cree que ciertas tecnologías o modelos no están en el camino correcto hacia AGI, creen que estas tecnologías o modelos no pertenecen a AGI.Pero un día en el futuro, cuando miremos retrospectivamente este período de la historia, podremos darnos cuenta de que nos encontramos en una coyuntura histórica importante.

Tomemos como ejemplo la tecnología de conducción autónoma de Tesla. Hace cinco años, la gente podría haber pensado que la tecnología de conducción autónoma de nivel L4 tardaría entre diez y veinte años en lograrse, pero ahora esta tecnología ha logrado un progreso significativo. Este progreso fortuito permite a la industria creer que el AGI real puede realizarse sin darse cuenta.

Zhuang Shaobin: ¿Cuál es el estado ideal de AGI? AGI no sólo debería poseer capacidades de pensamiento de alto nivel, sino que, lo que es más importante, debería poder aplicarse en la vida real, especialmente en la industria.

En la actualidad, la gente ha visto muchas aplicaciones de la robótica y la tecnología de IA en dispositivos físicos, lo que demuestra que la gente está trabajando arduamente para liberar la tecnología de IA de las computadoras y transformarla en entidades tangibles y activas. Este salto es muy importante para la tecnología de IA. Sólo en aplicaciones prácticas la IA puede crear mayor valor.

TMTpost AGI: Además de la ruta DiT, ¿existen otras rutas o estrategias posibles para el desarrollo de AGI? ¿Cuál es el camino de implementación de AGI?

Qi Peng: En el proceso de desarrollo de AGI, los humanos deben tener una actitud diversa e inclusiva. Si se compara el AGI con la tarea de estudiantes con diferentes calificaciones en una clase, aunque los estudiantes tienen diferentes habilidades, todos pueden completar algunas cosas básicas. De manera similar, aunque existen diferencias en el rendimiento entre arquitecturas, todas pueden completar algunas tareas básicas, pero tienen diferentes habilidades en tareas más difíciles.

En particular, con el soporte de grandes cantidades de datos y potencia informática, diferentes arquitecturas pueden mejorar sus capacidades básicas aumentando el número de parámetros, de modo que todas puedan funcionar a un determinado nivel.Al mismo tiempo, también hay algunas tendencias nuevas en el campo de los modelos grandes, como los mecanismos de atención lineal y otros métodos de optimización. Estos métodos están diseñados para reducir la cantidad de cálculo del modelo Transformer tradicional y mejorar la eficiencia.

En cuanto a la ruta de implementación final de AGI, en realidad no existe una ruta fija. Varios modelos y tecnologías actuales tienen sus ventajas y limitaciones. En el proceso de desarrollo de AGI, se requiere la exploración e integración continua de múltiples arquitecturas y tecnologías. Diferentes arquitecturas y tecnologías proporcionarán referencias y referentes importantes para AGI en este proceso, promoviendo su desarrollo continuo. Al mismo tiempo, se debe prestar atención a la practicidad y las capacidades de autocorrección del modelo.

TMTpost AGI: ¿Cómo lograr un equilibrio entre la innovación en investigación y la comercialización en el campo de los grandes modelos nacionales?

Qi Peng: En términos de investigación innovadora, debido a la limitación de fondos, el instituto necesita aclarar los objetivos que puede esforzarse por lograr, en lugar de perseguir ciegamente proyectos que requieren una gran cantidad de recursos, como grandes modelos de lenguaje que solo se pueden emprender. por grandes empresas como Baidu.

En segundo lugar, el equipo del instituto debe seleccionar proyectos de investigación que puedan realizarse con cierto esfuerzo y que tengan valor práctico. Por ejemplo, el modelo similar a Sora basado en la arquitectura de atención de acoplamiento espaciotemporal Latte desarrollado por el equipo toma como ejemplo la generación de video de alta definición de 16 segundos. Este es un objetivo que el instituto puede esforzarse por lograr con los recursos existentes. Al mismo tiempo, el instituto también necesita elegir algunas direcciones de investigación que puedan requerir menos recursos, como la optimización de modelos o aplicaciones de soporte.

En términos de comercialización, el instituto debería centrarse en la implementación del AIGC, especialmente en la cuestión de la "última milla". Esto significa que los institutos de investigación deben centrarse en cómo transformar los resultados de la investigación en productos o servicios reales para satisfacer la demanda del mercado y lograr la comercialización.

Aunque el coeficiente intelectual de los modelos grandes puede seguir aumentando, desde los cinco hasta los diez y los dieciocho años, e incluso alcanzar el nivel de los mejores expertos, un sistema de este tipo siempre requerirá instalaciones o herramientas de apoyo para respaldar su funcionamiento y aplicación. Los costos de I+D de estas instalaciones de apoyo pueden ser relativamente bajos, pero desempeñan un papel crucial en la promoción de la aplicación práctica y el valor social de los modelos grandes.

Por lo tanto, los equipos de las instituciones de investigación nacionales en el campo de la IA deberían centrarse principalmente en la investigación y el desarrollo de estas instalaciones de apoyo para respaldar la operación e implementación de modelos grandes.

(Este artículo se publicó por primera vez en la aplicación Titanium Media, autor | Dou Yueyi, Lin Zhijia, editor | Lin Zhijia)