la nueva investigación del académico yao qizhi sobre modelos grandes ha resuelto el problema de "¿cuál es más grande, el 9.11 o el 9.8?".
2024-09-25
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
el artículo se reimprime en qubit (qbitai)
autor: viento del oesteel académico yao qizhi toma la iniciativa y lanza un nuevo marco de razonamiento para modelos grandes. la "corona" de cot ya no puede aguantar.proponer diagrama de pensamiento para hacer que los modelos grandes piensen más como humanos.el equipo proporciona una base matemática para este proceso de razonamiento y formaliza dot a través de la teoría topos para garantizar su coherencia lógica y racionalidad.en comparación con cot, que expresa el proceso de razonamiento como una secuencia lineal, dot puede captar mejor la complejidad del razonamiento humano.en comparación con la introducción de estructuras sucursales tot y got, dot no necesita depender de mecanismos de control externos o la cooperación de múltiples modelos, y la capacitación y el despliegue son más simples.el secreto es que dot modela la inferencia iterativa en llm como la construcción de un gráfico acíclico dirigido (dag) dentro de un único modelo.dag consta de nodos que representan proposiciones, críticas, refinamientos y verificaciones. los bordes representan las relaciones lógicas o dependencias entre ellos. los bordes tienen direcciones y no hay caminos circulares.esta característica acíclica garantiza que el proceso de razonamiento no se vea afectado por dependencias circulares y pueda reflejar más fielmente una derivación lógica razonable.preguntas como cuál es más grande, 9.11 o 9.8, y cuántas "r" tiene la fresa, se resuelven con la ayuda de dot.este estudio recibió mucha atención después de su propuesta.los internautas han expresado que este es el camino correcto.veamos específicamente cómo se ve dot.un nuevo marco para el razonamiento complejo en modelos grandes
como se mencionó anteriormente, dot modela el proceso de razonamiento lógico como la construcción de un gráfico acíclico dirigido (dag) dentro de un único llm.en su marco se gestionan tres funciones clave:proponente: generar proposiciones o pasos de razonamiento, agregar nuevos nodos.
críticos: evaluar proposiciones, identificar errores, inconsistencias o falacias lógicas y agregar nodos de crítica.
resumidor: sintetice las proposiciones verificadas en una cadena de pensamiento coherente y realice de manera efectiva el tipo topológico de dag para producir el resultado final del razonamiento.
estos tres roles usan tokens especiales.el proceso de razonamiento comienza cuando el proponente presenta una propuesta y agrega un nodo al dag.luego corresponde a los revisores evaluar, validar o brindar críticas. si se proporciona una crítica, se agrega un nuevo nodo y se establece una frontera entre la proposición y la crítica.a partir de las críticas, el proponente genera una propuesta refinada y mejorada, representada como un nuevo nodo en el dag.una vez que se establecen proposiciones suficientemente válidas, el resumidor sintetiza estos razonamientos y ordena topológicamente el dag para producir una cadena coherente de pensamientos.al exponer el modelo a razonamientos correctos e incorrectos, dot permite al llm aprender de sus errores y perfeccionar su razonamiento con el tiempo, de forma más parecida a cómo los humanos resuelven problemas.este enfoque no sólo captura la naturaleza no lineal e iterativa del razonamiento, sino que también proporciona una retroalimentación más rica que las señales binarias a través de la crítica del lenguaje natural.la capacitación del dot implica el uso de ejemplos de capacitación formateados en la estructura del dot, incluidos tokens de roles específicos y representaciones dag. durante el razonamiento, el modelo genera proposiciones, críticas y resúmenes basados en pistas contextuales y tokens específicos de roles.este enfoque simplifica la implementación y elimina la necesidad de colaboración entre varios llm o mecanismos de control externos, al mismo tiempo que sigue siendo coherente con los paradigmas de capacitación estándar de llm para una fácil integración en los flujos de trabajo existentes.el autor también proporciona una base matemática estricta para el marco dot, utilizandoel proceso de razonamiento se describe formalmente.en este marco, las proposiciones se modelan como subobjetos de objetos terminales en la topología, las relaciones lógicas y los pasos de razonamiento se representan como morfismos, y los procesos de crítica y mejora corresponden a morfismos de clasificadores de subobjetos y morfismos entre proposiciones, respectivamente.al introducir la categoría prenet, también capturaron con éxito la naturaleza dinámica y concurrente del proceso de inferencia.esta base matemática no sólo garantiza la coherencia lógica y la integridad del proceso de razonamiento, sino que también proporciona un marco conceptual para diseñar la próxima generación de modelos de ia específicamente para el razonamiento.dirigido por yao qizhi y yuan yang de la universidad de tsinghua
este artículo fue dirigido por yao qizhi y yuan yang del instituto tsinghua de información interdisciplinaria. el primer autor del artículo es zhang yifan.zhang yifan se graduó con una licenciatura en 2021universidad de pekín yuanpei collegeactualmente es candidato a doctorado en la escuela de información interdisciplinaria de la universidad de tsinghua y estudia con el profesor asistente yuan yang.sus principales direcciones de investigación son la teoría y los algoritmos de modelos básicos (grandes modelos de lenguaje), el aprendizaje autosupervisado y la inteligencia artificial confiable.yuan yang es profesor asistente y supervisor doctoral en la escuela de información interdisciplinaria de la universidad de tsinghua.graduado del departamento de ciencias de la computación de la universidad de pekín en 2012; recibió un doctorado en ciencias de la computación de la universidad de cornell en estados unidos en 2018, de 2018 a 2019, trabajó como becario postdoctoral en la escuela de ciencias de big data del instituto de massachusetts; de tecnología.sus principales direcciones de investigación son la atención médica inteligente, la interpretabilidad de la ia y los grandes sistemas de ia. ha logrado muchos logros en investigación en los campos de la teoría de optimización no convexa, la teoría de optimización de redes neuronales y el diseño de mecanismos.yao qizhi es académico de la academia china de ciencias y director del instituto de información interdisciplinaria de la universidad de tsinghua. también es ";premio turing"el primer académico asiático en ganar el premio desde su creación y el único científico informático chino en ganar este honor hasta ahora.el profesor yao qizhi renunció a princeton como profesor titular en 2004 y regresó a tsinghua para enseñar en 2005, fundó la "clase yao", una clase experimental de informática para estudiantes universitarios de tsinghua; en 2011, fundó el "centro de información cuántica de tsinghua"; " y el "instituto de investigación de información interdisciplinaria"; en 2019 en 2008, fundó una clase de inteligencia artificial para estudiantes universitarios de tsinghua, conocida como "clase inteligente".hoy en día, el instituto de información interdisciplinaria de la universidad de tsinghua dirigido por él es famoso desde hace mucho tiempo. tanto yao class como zhiban están afiliados al instituto de información interdisciplinaria.los intereses de investigación del profesor yao qizhi incluyen algoritmos,criptografía、computación cuánticaetc., son pioneros y autoridades internacionales en este campo.una cosa más
aproximadamente al mismo tiempo hace un año, el académico yao qizhi encabezó la propuestarazonamiento acumulativométodo (razonamiento acumulativo, cr).dot es una mayor profundización de la rc.en ese momento, cr coordinó un proceso iterativo que involucraba grandes modelos de lenguaje de diferentes especializaciones, con diferentes modelos asumiendo los roles de proponente, verificador y reportero.dot, por otro lado, construye directamente un gráfico acíclico dirigido dentro de un único modelo y no depende de mecanismos de control externos o modelos múltiples, lo que simplifica el entrenamiento y la implementación.y en dot, la retroalimentación crítica generada por el modelo está en forma de lenguaje natural, en lugar de solo dar una señal binaria como cr. esto permite que el modelo reciba explicaciones detalladas de los errores, lo que ayuda a mejorar las propuestas de manera más efectiva.esta vez, dot también tiene una sólida base matemática, que aclara la relación entre el proceso de razonamiento de dot y la lógica categórica, asegurando la coherencia y confiabilidad del razonamiento en teoría.