Mi información de contacto
Correo[email protected]
2024-07-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
El viento del oeste viene del templo de Aofei.
Qubits | Cuenta pública QbitAI
La ilusión de los modelos grandes también se divide en interna y externa——
El último blog del científico chino Weng Li de OpenAI proponeAlucinación externa LLM(alucinación extrínseca).
A diferencia del contenido generado por el modelo referencial que es inconsistente con la realidad, ficticio, inconsistente o sin sentido, Weng Li especificó el problema de la "ilusión" del LLM comoEl contenido de salida del modelo es ficticio y no se basa en el contexto o el conocimiento mundial proporcionado.。
A partir de esto, se distinguen dos tipos de alucinaciones:
Anteriormente, Weng Li también propuso la fórmula del Agente: Agente = modelo grande + memoria + planificación activa + uso de herramientas, que algunos internautas llamaron "el mejor artículo sobre el Agente que he visto".
Este blog sobre la ilusión de modelos grandes también es un "trabajo duro". El artículo es muy largo y tiene un total de 24 referencias:
Weng Li se centró en las alucinaciones externas y discutió tres preguntas: ¿Cuál es la causa de las alucinaciones? Detección de alucinaciones, métodos para resistir las alucinaciones.
Qubits ha compilado y organizado el texto original sin cambiar el significado original.
Qubits ha sido traducido y reimpreso con el permiso del autor original.
El texto original está aquí:
https://lilianweng.github.io/posts/2024-07-07-alucinacion/
Teniendo en cuenta que un LLM implementable estándar debe capacitarse previamente y ajustarse para su alineación y mejora, el análisis de la causa comienza desde estas dos etapas.
Problema de datos previos al entrenamiento
El conjunto de datos previo al entrenamiento está diseñado para representar todo el conocimiento mundial disponible en forma escrita y, por lo tanto, es enorme.
La opción más común es extraer datos de la Internet pública, pero esto puede resultar en información desactualizada, faltante o errónea. Debido a que el modelo puede recordar incorrectamente esta información simplemente maximizando la probabilidad logarítmica, el modelo puede cometer errores.
Afinar nuevos conocimientos
El ajuste fino del LLM previamente entrenado mediante el ajuste fino supervisado (SFT) y el aprendizaje reforzado con retroalimentación humana (RLHF) es una técnica común para mejorar ciertas capacidades del modelo (como el seguimiento de instrucciones). La fase de ajuste inevitablemente introduce nuevos conocimientos.
Si bien el ajuste suele consumir menos recursos informáticos,Es discutible si se pueden aprender nuevos conocimientos de manera confiable ajustando un modelo a pequeña escala.。
En un estudio de este año, Gekhman et al. discutieron la cuestión de si perfeccionar el LLM con nuevos conocimientos promoverá la aparición de alucinaciones.
Descubrieron que LLM aprende más lentamente de ejemplos ajustados con nuevos conocimientos que de ejemplos que son consistentes con el conocimiento preexistente del modelo; una vez que se aprenden estos ejemplos con nuevos conocimientos, aumenta la tendencia del modelo a alucinar.
Específicamente, dado un conjunto de datos cerrado de preguntas y respuestas (es decir, EntityQuestions) = (,), Correct(,;,) se define como una estimación de la probabilidad de que el modelo M genere con precisión la respuesta correcta, cuando se utilizan ejemplos aleatorios y cierta decodificación. Cuando se le solicita la temperatura, la respuesta correcta a la pregunta es.
Dividieron los ejemplos en 4 categorías según diferentes condiciones de Correcto(,;,): Grupo conocido (incluidos tres subgrupos: Altamente conocido, Quizás conocido, Débil conocido) y Grupo desconocido.
Algunas observaciones interesantes de los experimentos, donde la precisión del conjunto de desarrollo se toma como un indicador simbólico de ilusión:
Estos resultados de Gekhman et al. señalan los riesgos de utilizar ajustes supervisados para actualizar el conocimiento de LLM.
Buscar evaluación mejorada
Para cuantificar el fenómeno de alucinación del modelo, Lee et al. introdujeron un nuevo conjunto de datos de referencia en 2022.Aviso de factibilidad, este conjunto de datos contiene sugerencias fácticas y no fácticas, y utiliza documentos u oraciones de Wikipedia como base de conocimiento fáctico básico.
Los documentos de Wikipedia son información verdadera conocida del conjunto de datos FEVER, mientras que las oraciones se seleccionan mediante tf-idf o similitud basada en incrustaciones de oraciones.
Se consideraron dos métricas para evaluar las alucinaciones dada una continuación del modelo y un texto de Wikipedia emparejado:alucinación entidades nombradas(NORDESTE)Tasa de error、Relación de implicación(Razones de vinculación).
Se encontró que las tasas de error de NE más altas y los índices de vinculación más bajos indican una mayor factibilidad. Se encontró que ambas métricas se correlacionan con las anotaciones humanas, y los modelos más grandes funcionan mejor en este punto de referencia.
Además, Min et al 2023 propusieron.Puntuación de hechos , descomponga la generación de artículos largos en múltiples hechos atómicos y verifique cada hecho individualmente con bases de conocimiento como Wikipedia. Luego se puede medir la proporción (precisión) de oraciones respaldadas por la fuente de conocimiento generada por cada modelo, siendo FActScore la precisión promedio generada por el modelo en un conjunto de señales.
Este artículo probó una variedad de métodos de verificación de hechos en la tarea de generación biográfica y encontró queEl uso de la recuperación proporciona una mayor coherencia que el LLM sin contexto . En los métodos de mejora de la recuperación, la elección del mejor estimador depende del modelo.
Algunas observaciones interesantes sobre el comportamiento alucinatorio del modelo:
Wei et al. en 2024 también propusieron un método para evaluar la factibilidad a largo plazo de LLM, denominadoSEGURO(Evaluador de factualidad aumentada por búsqueda).
En comparación con FActScore, la principal diferencia es que SAFE utiliza un modelo de lenguaje como Agente.Emitir consultas de búsqueda de Google de forma iterativa mediante un proceso de varios pasosy razonar sobre si los resultados de la búsqueda respaldan o no ese hecho.
En cada paso, el agente genera una consulta de búsqueda basada en los hechos a verificar y los resultados de búsqueda obtenidos previamente. Después de varios pasos, el modelo realiza una inferencia para determinar si el hecho está respaldado por los resultados de la búsqueda.
Según experimentos,Aunque el método SAFE cuesta 20 veces menos que la anotación humana, funciona mejor que la anotación humana: La tasa de acuerdo con los humanos fue del 72% y la tasa de superación de los humanos en desacuerdo fue del 76%.
El índice de evaluación SAFE es F1@K. Para respuestas largas de modelos fácticos, lo ideal sería lograr tanto precisión como recuerdo, ya que la respuesta debería satisfacer simultáneamente:
Dada la respuesta del modelo, la métrica F1@K se define como:
Además, Chern et al. 2023 propusieron un flujo de trabajo de verificación de hechos que sigue los estándares.Herramienta de factibilidad . Está diseñado para detectar errores fácticos en una variedad de tareas que incluyen respuesta a preguntas basadas en conocimientos, generación de códigos, resolución de problemas matemáticos y revisión de literatura científica. Los pasos incluyen:
Detección basada en muestreo
Manakul et al. 2023 propusieron una verificación de coherencia que se basa en múltiples muestras de un LLM de caja negra.Autocomprobación GPT, para identificar errores fácticos.
Teniendo en cuenta que las mediciones de verificación de hechos de caja gris requieren acceso al logprob a nivel de token de LLM, SelfCheckGPTSimplemente use muestras que no dependan de bases de conocimiento externas, por lo que el acceso de caja negra es suficiente., no se requiere ninguna base de conocimientos externa.
Este método utiliza diferentes métricas para medir la coherencia entre la respuesta del modelo y otras muestras aleatorias del modelo, incluidos BERTScore, NLI, indicaciones (preguntar sí/no), etc. SelfCheckGPT usando sugerencias parece funcionar mejor cuando se realizan inspecciones experimentales de pasajes de WikiBio generados por GPT-3.
Calibrando conocimientos desconocidos
Pedirle a un modelo que genere respuestas a preguntas desconocidas o sin respuesta puede provocar alucinaciones.QA veraz(Lin et al., 2021) yConsciente de sí mismo(Yin et al., 2023) son dos puntos de referencia que miden la capacidad de un modelo para generar respuestas realistas en tales situaciones; el primero se construye de manera adversaria para enfatizar el error humano y el segundo incluye preguntas sin respuesta.
Ante estos problemas,El modelo debe negarse a responder o proporcionar información relevante.。
En TruthfulQA, las preguntas de las pruebas están diseñadas de forma contradictoria en función de malentendidos o errores humanos comunes. El punto de referencia contiene 817 preguntas que cubren 38 temas que incluyen salud, derecho, finanzas y política.
Cuando se probó, el mejor LLM logró una precisión del 58%, mientras que los humanos pudieron alcanzar el 94%. El equipo de investigación encontró queDebido a un error común, los modelos más grandes son menos realistas, pero esta tendencia no se refleja en otros estándares.(sin confrontación)base fáctica。
Aquí hay un ejemplo de la respuesta incorrecta de GPT-3 en TruthfulQA:
Yin et al. 2023 estudiaronConsciente de sí mismoEl concepto de , se refiere a si los modelos del lenguaje saben lo que saben o no.
SelfAware contiene 1032 preguntas sin respuesta y 2337 preguntas con respuesta en cinco categorías. Las preguntas sin respuesta provienen de foros en línea con anotaciones humanas, y las preguntas con respuesta provienen de SQuAD, HotpotQA y TriviaQA.
Una pregunta puede no tener respuesta por diversas razones, como falta de consenso científico, imaginación del futuro, subjetividad total, razones filosóficas que pueden generar múltiples respuestas, etc.
El estudio trata la distinción de preguntas con respuesta y sin respuesta como una tarea de clasificación binaria y utiliza la puntuación o precisión F1 para evaluar el rendimiento del modelo. Los experimentos muestran que los modelos más grandes funcionan mejor en esta tarea.
Otra forma de evaluar qué tan bien un modelo comprende el conocimiento desconocido es medir la incertidumbre en el resultado del modelo. Cuando un problema se encuentra entre lo conocido y lo desconocido, el modelo debe exhibir el nivel correcto de confianza.
El experimento de Kadavath et al. de 2022 demostró que en una variedad de opciones de respuesta multidimensionales con letras visibles,Selección de temaformatos (MMLU, TruthfulQA, QuALITY, LogiQA), LLM se desempeña bien en la estimación de la probabilidad de que una respuesta sea correcta, lo que significa que la probabilidad predicha es consistente con la frecuencia con la que esa respuesta es verdadera.
El ajuste fino de RLHF da como resultado una calibración del modelo más deficiente, pero temperaturas de muestreo más altas conducen a mejores resultados de calibración.
Lin et al. propuesto en 2022Matemáticas calibradas Equipo de misión. CalibrateMath es un conjunto de problemas matemáticos generados mediante programación con diferentes niveles de dificultad que prueban la calibración de las probabilidades de salida del modelo.
Para cada pregunta, el modelo debe proporcionar una respuesta numérica y su confianza en esa respuesta. Se consideran tres tipos de probabilidades:
consulta indirecta
Agrawal et al. (2023) estudiaron específicamente casos de citas alucinadas en la generación de LLM, incluidos títulos de libros, artículos y artículos ficticios. Utilizaron dos métodos basados en la coherencia para detectar alucinaciones, a saber, consulta directa y consulta indirecta. Ambos métodos ejecutan la verificación varias veces cuando T > 0 y verifican la coherencia.
Las consultas directas requieren que el modelo determine si el material de referencia generado existe, mientras que las consultas indirectas requieren detalles auxiliares, como¿Quién es el autor de la referencia?。
La hipótesis es que, para una referencia alucinada, la consistencia de generar el mismo autor varias veces es menor que la probabilidad de que múltiples respuestas a una consulta directa revelen la presencia de la referencia.
Los experimentos muestran queLos métodos de consulta indirecta funcionan mejor, los modelos más grandes son más potentes y hay menos alucinaciones。
A continuación, revisamos un conjunto de métodos para mejorar la autenticidad de las respuestas de LLM, incluida la recuperación de bases de conocimiento externas, métodos de muestreo especiales y ajuste de alineación. Algunos métodos de interpretabilidad para reducir las alucinaciones mediante la edición neuronal no se analizarán aquí.
RAG → Edición y Atribución
RAG (Generación Aumentada de Recuperación) es un método muy común para proporcionar información básica recuperando documentos relevantes y luego generándolos utilizando documentos relevantes adicionales como contexto.
Raro(Retrofit Attribution mediante investigación y revisión) es un marco propuesto por Gao et al en 2022, que permite a LLM respaldar retroactivamente la atribución de evidencia externa a través de la atribución editorial.
Dado un texto generado por un modelo, RARR lo procesa en dos pasos, generando un texto revisado y un informe de atribución:
1. Etapa de investigación: encontrar documentos relevantes como evidencia.
Primero se utiliza un modelo de generación de consultas (a través de sugerencias breves, →1,…,) para construir un conjunto de consultas de búsqueda 1,…, para validar varios aspectos de cada oración.
Al realizar una búsqueda en Google, cada consulta = 5 resultados.
Se utiliza un modelo de relevancia de documento de consulta previamente entrenado para asignar puntuaciones de relevancia, y solo se retiene uno de los más relevantes = 1 documento 1,…, para cada consulta.
2. Fase de revisión: edite el resultado para corregir el contenido que no está respaldado por la evidencia, conservando la mayor cantidad posible del contenido original.Inicializar texto revisado =.
Según (,), el modelo de protocolo (mediante sugerencias de pocas tomas + CoT, (,,) → 0,1) verifica si la evidencia es inconsistente con el texto revisado actual.
Solo cuando se detecta una inconsistencia, el modelo de edición (a través de algunas sugerencias + CoT, (,,)→ nuevo) genera una nueva versión, diseñada para modificarse mínimamente al mismo tiempo que la evidencia.
Solo una cantidad limitada de evidencia =5 termina ingresando en el informe de atribución.
Tanto la atribución como la retención son importantes al evaluar el texto revisado.
La atribución utiliza la puntuación AIS (atribuida a una fuente identificada) para medir qué parte del contenido se puede atribuir. Se pueden recopilar anotaciones humanas o se pueden utilizar modelos NLI para aproximar la puntuación automática AIS.
La preservación se refiere al grado en que se conserva el texto original, medido como Previntent × PrevLev, donde Previntent requiere anotación manual y PrevLev se basa en la distancia de edición de Levenshtein a nivel de carácter. En comparación con las dos líneas de base, RARR conduce a resultados mejor equilibrados, especialmente en términos de métricas de retención.
Similar a RARR usando búsqueda + edición, propuesto por Mishra et al 2024.FAVA (Verificación de hechos con conocimiento aumentado) también recupera documentación relevante y luego edita el resultado del modelo para evitar errores ilusorios. El modelo FAVA consta de un recuperador y un editor.
Dado un mensaje y un modelo de salida, recupere los documentos más relevantes:
El editor genera resultados mejorados:
RARR no requiere capacitación, pero la edición del modelo del editor en FAVA requiere un ajuste fino. Al clasificar con más detalle los diferentes tipos de errores de alucinación, es posible generar datos de entrenamiento sintéticos para modelos editados insertando errores aleatorios en la generación del modelo.
Cada ejemplo es un triplete (,,∗), donde es el párrafo original de Wikipedia como contexto dorado, es la salida de LM con errores y ∗ es la salida con etiquetas de error y ediciones correctas.
Propuesto por He et al.RREl enfoque (Repensar con recuperación) también se basa en la recuperación de conocimiento externo relevante, pero no implica edición adicional.
En lugar de utilizar un modelo de generación de consultas de búsqueda, la recuperación de RR se basa en sugerencias de CoT descompuestas.
Dada una sugerencia de entrada, RR utiliza sugerencias de CoT para generar múltiples rutas de inferencia 1,…, a temperatura > 0, donde cada ruta de inferencia contiene una explicación (es decir, la parte de inferencia), seguida de una predicción (es decir, la salida real del modelo). . Recuperar conocimiento externo 1,…, para sustentar cada explicación. Luego, se selecciona la respuesta más fiel en función del grado de ajuste con el conocimiento recuperado 1,…,.
Auto-RAG(Asai et al., 2024) entrena un modelo de lenguaje de un extremo a otro para que aprenda a reflexionar sobre su propia producción generando resultados de tareas y marcadores de reflexión especiales intermitentes.
El equipo de investigación creó un conjunto de datos supervisado para juzgar y generar modelos solicitando GPT-4, y luego lo destiló en un modelo interno para reducir el costo de la inferencia.
Dada una solicitud de entrada, la salida generada consta de varias partes (por ejemplo, un párrafo es una oración). Hay cuatro tipos de marcadores de reflexión, uno para recuperación y tres para evaluación:
Self-RAG genera un segmento a la vez. Según la generación < dada y anterior, el modelo decodifica el token de recuperación:
cadena de acción
Sin conocimiento de recuperación externo, es posible diseñar unAprovechar el modelo en sí para su validación y revisión.Proceso para reducir las alucinaciones.
Dhuliawala et al. propusieron un método para la verificación de la planificación y ejecución basado en cadenas de acción en 2023, denominadoCadena de verificación (Ensenada). CoVe consta de cuatro pasos principales:
1) Unión: combinado con el paso 2, donde está la estructura de ejemplo de pocas tomas (respuesta, pregunta de verificación, respuesta de verificación), la desventaja es que la respuesta original está en contexto y el modelo puede repetir ilusiones similares.
2) Enfoque de dos pasos: separar los pasos de planificación y ejecución de la verificación, si no afectan la respuesta original.
3) Descomposición: Responda cada pregunta de verificación por separado. Por ejemplo, si una construcción de base larga da como resultado múltiples preguntas de validación, cada pregunta se responderá una por una.
4) Descomposición + Revisión: agregue un paso de "verificación cruzada" después de realizar la verificación de descomposición para condicionar y detectar inconsistencias basadas en las respuestas de referencia y las preguntas y respuestas de verificación.
CoVe está diseñado de esta manera porque el uso de una cadena de verificación larga puede conducir a alucinaciones repetidas, porque la respuesta alucinante inicial todavía está en contexto y puede ser atendida durante los procesos de nueva generación, mientras queSe descubrió que responder cada pregunta de validación individualmente genera mejores resultados que la generación de formularios largos.。
Aquí hay algunas observaciones interesantes de los experimentos de CoVe:
Además, Sun et al propusieron en 2023.RECITAREl método se basa en el ensayo como paso intermedio para mejorar la exactitud fáctica de la generación del modelo y reducir las alucinaciones.
La motivación es utilizar la memoria de Transformer como modelo de recuperación de información. En el esquema de recuento y respuesta de RECITE, primero se le pide a LLM que vuelva a contar información relevante y luego genera resultados.
Específicamente, se pueden utilizar algunas sugerencias contextuales para enseñar al modelo a parafrasear y luego generar respuestas basadas en la paráfrasis. Además, se puede combinar con métodos de conjunto autoconsistentes que utilizan múltiples muestras y se puede ampliar para admitir respuestas a preguntas de múltiples saltos.
Las paráfrasis generadas son comparables al modelo de recuperación basado en BM25, pero ambas tienen lagunas cuando se utilizan pasajes reales. Según el análisis de errores realizado por el equipo de investigación, entre el 7% y el 10% de las preguntas se recitaron correctamente pero no pudieron generar la respuesta correcta; alrededor del 12% de las preguntas se recitaron incorrectamente pero aún se pudieron responder correctamente.
Método de muestreo
Lee et al. 2022 descubrieron que el muestreo de núcleos (muestreo superior) tuvo un peor rendimiento que el muestreo codicioso en el punto de referencia FactorityPrompt, aunque el muestreo de núcleos agregó aleatoriedad adicional, logrando una mejor diversidad y menos repetición.
Por lo tanto, propusieron un algoritmo de muestreo de núcleos de hechos basado en hipótesis,Esta hipótesis establece que la aleatoriedad del muestreo tiene un mayor impacto en la factibilidad de la segunda mitad de la oración que el comienzo de la oración. . El muestreo de hechos básicos tiene como objetivo ajustar dinámicamente la probabilidad de las palabras muestreadas en cada oración. Para el enésimo token de una oración, existe =max(,⋅−1), que se utiliza para evitar que el muestreo vuelva a ser un muestreo codicioso que daña la calidad y diversidad de la generación.
Li et al. propuesto en 2023Intervención en el tiempo de inferencia(ITI), investiga si ciertas cabezas de atención son más relevantes para la factualidad mediante el sondeo lineal de activaciones en cada capa para distinguir resultados reales de falsos.
Descubrieron que para muchas cabezas de atención el detector no funcionó mejor que la selección aleatoria, mientras que algunos mostraron un rendimiento sólido. Después de identificar un grupo de cabezas de atención dispersas con alta precisión en la detección lineal de autenticidad, ITI ajustará la activación de las cabezas de atención seleccionadas superiormente a lo largo de la dirección "real" durante la inferencia.
Ajuste de hechos
Lee et al. 2022 propusieron dos ideas para el entrenamiento de refuerzo:
Lin et al. propusieron en 2024 realizar una capacitación de alineación SFT + RLHF que se centre en la factualidad, denominadaFUEGO。
Como se mencionó anteriormente, existe cierta evidencia de que perfeccionar nuevos conocimientos puede causar alucinaciones, y la supervisión de RAG contiene información desconocida para LLM.
Método 1: utilice muestras de datos RAG como muestras positivas y la generación del modelo original como muestras negativas como datos RM.
Método 2: utilice FActScore como señal de recompensa de facto.
Para evitar destilar accidentalmente conocimiento desconocido en el modelo durante el entrenamiento de alineación, proponen utilizar las respuestas generadas por el modelo para construir el conjunto de datos SFT/DPO.
Propuesto por Tian&Mitchell et al.Ajuste de factualidad También se basa en el ajuste de los modelos de lenguaje para mejorar la factualidad. Experimentaron con diferentes métodos para estimar la veracidad de las afirmaciones atómicas en cada muestra del modelo y luego ejecutaron DPO.
Proceso de ajuste de hechos:
1. Modelar pares de ejemplos de finalización para un conjunto de indicaciones determinado (por ejemplo, “Escribe una biografía de Yo-Yo Ma”)
2. Marcar su autenticidad según dos métodos que no requieren intervención manual:
Basado en referencias: comprueba si la afirmación del modelo está respaldada por una base de conocimientos externa, similar a la sección anterior de evaluación de alucinaciones basada en la recuperación. (a) extraer una serie de declaraciones atómicas; (b) buscar referencias en Wikipedia; (c) utilizar un modelo NLI pequeño y ajustado para comprobar si el texto de referencia admite declaraciones atómicas.
No basado en referencias: utiliza la propia confianza del modelo como símbolo de su autenticidad, similar a los métodos de consulta indirectos. (a) convertir cada afirmación en una pregunta correspondiente/requiere una reformulación cuidadosa para garantizar que la pregunta sea clara; (b) muestrear varias veces el modelo para responder la pregunta (c) calcular una puntuación/uso agregado; caracteres Coincidencia de cadenas o solicitud de GPT para determinar si dos respuestas son semánticamente equivalentes.
3. Cree un conjunto de datos de entrenamiento generando múltiples muestras del modelo y asignando preferencias según puntuaciones de autenticidad. Luego use DPO para ajustar el modelo en este conjunto de datos.
Ajustes para la atribución
Atribuir atribuciones es una buena manera de reducir las ilusiones al generar resultados del modelo que dependen de los resultados de la búsqueda. Existe un conjunto de trabajos destinados a capacitar a LLM para utilizar mejor el contenido recuperado y asignar atribuciones de alta calidad.
Propuesto por Nakano et al.WebGPT, combina la búsqueda web para la recuperación de documentos con modelos GPT ajustados, diseñados para responder preguntas extensas para reducir las alucinaciones y mejorar la precisión de los hechos.
El modelo interactúa con búsquedas en Internet en un navegador web basado en texto y aprende a citar páginas web para responder preguntas. Mientras el modelo navega, una acción que puede realizar es hacer referencia a un extracto de la página actual. Al hacer esto, el título de la página, el nombre de dominio y el extracto se registran para referencia posterior.El núcleo de WebGPT es utilizar materiales de referencia para ayudar a las personas a juzgar la exactitud de los hechos.。
El modelo se sometió por primera vez a un ajuste supervisado para la clonación del comportamiento en demostraciones de humanos que utilizan un entorno de navegación web para responder preguntas.
Se recopilan datos comparativos entre dos respuestas generadas por modelos a la misma pregunta, cada una con su propio conjunto de referencia, donde las respuestas se juzgan según su precisión objetiva, coherencia y utilidad general. Los modelos de recompensa se utilizan para el entrenamiento de RL y el muestreo de rechazo del mejor de n. Por el contrario, RL tiene efectos limitados y cuando se utiliza el muestreo de rechazo, los efectos son aún más limitados.
Menick et al. propusieron en 2022GopherCite , es muy similar a WebGPT en el uso de motores de búsqueda para crear materiales de apoyo y modelos de enseñanza para proporcionar materiales de referencia. Ambos realizan un ajuste supervisado de la orientación y ambos aplican la capacitación RLHF.
A diferencia de WebGPT, que se basa en demostraciones humanas para la clonación de comportamientos, GopherCiteGenere una demostración mediante indicaciones breves, y cada generación se completa con contexto de documentos relevantes, y luego se usa un modelo de recompensa para calificar cuáles son los mejores.
Otro truco para evitar respuestas de baja calidad es configurar el modelo para rechazar respuestas utilizando la respuesta predeterminada "No sé", que está determinada por un umbral de RM global, llamado predicción selectiva.
Los resultados empíricos de RL son similares a los de WebGPT, es decir, RL solo aporta una mejora limitada o ninguna mejora cuando se combina con el muestreo de rechazo.
Weng Li es un científico chino de OpenAI y uno de los contribuyentes de ChatGPT. Se graduó en la Universidad de Pekín.
Es la persona a cargo de la investigación de aplicaciones de inteligencia artificial de OpenAI. Se unió a OpenAI en 2018 y participa principalmente en la capacitación previa, el aprendizaje por refuerzo y la alineación, la seguridad del modelo y otros aspectos del proyecto GPT-4.
En el equipo asesor de seguridad establecido por OpenAI a finales del año pasado, lidera el equipo de Sistemas de seguridad para resolver problemas como la reducción del abuso de modelos existentes como ChatGPT.