OpenAI Weng Li propuso un gran modelo de "alucinación externa": diez mil palabras de explicación detallada de las razones por las que los métodos de resistencia producen alucinaciones...

OpenAI Weng Li propuso un gran modelo de "alucinación externa": una explicación detallada de diez mil palabras de las razones por las que los métodos de resistencia producen alucinaciones...

2024-07-15

El viento del oeste viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

La ilusión de los modelos grandes también se divide en interna y externa——

El último blog del científico chino Weng Li de OpenAI proponeAlucinación externa LLM(alucinación extrínseca).

A diferencia del contenido generado por el modelo referencial que es inconsistente con la realidad, ficticio, inconsistente o sin sentido, Weng Li especificó el problema de la "ilusión" del LLM comoEl contenido de salida del modelo es ficticio y no se basa en el contexto o el conocimiento mundial proporcionado.。

A partir de esto, se distinguen dos tipos de alucinaciones:

Alucinaciones en contexto: un modeloEl resultado debe ser coherente con el contenido original en contexto.(Cuando ocurre una alucinación en contexto, el resultado es inconsistente con el contenido original).
Ilusión extrínseca: la salida del modelo debe basarse en un conjunto de datos previamente entrenado. Sin embargo, dado el tamaño del conjunto de datos previo al entrenamiento, recuperar e identificar cada conflicto generado tiene un costo prohibitivo.Si pensamos en el conjunto de datos previo al entrenamiento comoconocimiento mundial , entonces esencialmente intenta garantizar que el resultado del modelo sea fáctico y pueda verificarse mediante el conocimiento del mundo exterior. Igualmente importante es,Cuando el modelo no conoce un hecho, debe declarar explícitamente que no lo sabe.

Anteriormente, Weng Li también propuso la fórmula del Agente: Agente = modelo grande + memoria + planificación activa + uso de herramientas, que algunos internautas llamaron "el mejor artículo sobre el Agente que he visto".

Este blog sobre la ilusión de modelos grandes también es un "trabajo duro". El artículo es muy largo y tiene un total de 24 referencias:

Weng Li se centró en las alucinaciones externas y discutió tres preguntas: ¿Cuál es la causa de las alucinaciones? Detección de alucinaciones, métodos para resistir las alucinaciones.

Qubits ha compilado y organizado el texto original sin cambiar el significado original.

Qubits ha sido traducido y reimpreso con el permiso del autor original.

El texto original está aquí:

https://lilianweng.github.io/posts/2024-07-07-alucinacion/

¿Qué causa las alucinaciones?

Teniendo en cuenta que un LLM implementable estándar debe capacitarse previamente y ajustarse para su alineación y mejora, el análisis de la causa comienza desde estas dos etapas.

Problema de datos previos al entrenamiento

El conjunto de datos previo al entrenamiento está diseñado para representar todo el conocimiento mundial disponible en forma escrita y, por lo tanto, es enorme.

La opción más común es extraer datos de la Internet pública, pero esto puede resultar en información desactualizada, faltante o errónea. Debido a que el modelo puede recordar incorrectamente esta información simplemente maximizando la probabilidad logarítmica, el modelo puede cometer errores.

Afinar nuevos conocimientos

El ajuste fino del LLM previamente entrenado mediante el ajuste fino supervisado (SFT) y el aprendizaje reforzado con retroalimentación humana (RLHF) es una técnica común para mejorar ciertas capacidades del modelo (como el seguimiento de instrucciones). La fase de ajuste inevitablemente introduce nuevos conocimientos.

Si bien el ajuste suele consumir menos recursos informáticos,Es discutible si se pueden aprender nuevos conocimientos de manera confiable ajustando un modelo a pequeña escala.。

En un estudio de este año, Gekhman et al. discutieron la cuestión de si perfeccionar el LLM con nuevos conocimientos promoverá la aparición de alucinaciones.

Descubrieron que LLM aprende más lentamente de ejemplos ajustados con nuevos conocimientos que de ejemplos que son consistentes con el conocimiento preexistente del modelo; una vez que se aprenden estos ejemplos con nuevos conocimientos, aumenta la tendencia del modelo a alucinar.

Específicamente, dado un conjunto de datos cerrado de preguntas y respuestas (es decir, EntityQuestions) = (,), Correct(,;,) se define como una estimación de la probabilidad de que el modelo M genere con precisión la respuesta correcta, cuando se utilizan ejemplos aleatorios y cierta decodificación. Cuando se le solicita la temperatura, la respuesta correcta a la pregunta es.

Dividieron los ejemplos en 4 categorías según diferentes condiciones de Correcto(,;,): Grupo conocido (incluidos tres subgrupos: Altamente conocido, Quizás conocido, Débil conocido) y Grupo desconocido.

Algunas observaciones interesantes de los experimentos, donde la precisión del conjunto de desarrollo se toma como un indicador simbólico de ilusión:

La velocidad de adaptación desconocida es significativamente más lenta que la conocida;
El mejor rendimiento se obtiene cuando LLM se ajusta a la mayoría de los ejemplos de formación conocidos pero sólo a unos pocos ejemplos desconocidos;
Cuando se aprenden la mayoría de los ejemplos desconocidos, el modelo comienza a alucinar.

Estos resultados de Gekhman et al. señalan los riesgos de utilizar ajustes supervisados para actualizar el conocimiento de LLM.

Detección de alucinaciones

Buscar evaluación mejorada

Para cuantificar el fenómeno de alucinación del modelo, Lee et al. introdujeron un nuevo conjunto de datos de referencia en 2022.Aviso de factibilidad, este conjunto de datos contiene sugerencias fácticas y no fácticas, y utiliza documentos u oraciones de Wikipedia como base de conocimiento fáctico básico.

Los documentos de Wikipedia son información verdadera conocida del conjunto de datos FEVER, mientras que las oraciones se seleccionan mediante tf-idf o similitud basada en incrustaciones de oraciones.

Se consideraron dos métricas para evaluar las alucinaciones dada una continuación del modelo y un texto de Wikipedia emparejado:alucinación entidades nombradas(NORDESTE)Tasa de error、Relación de implicación(Razones de vinculación).

Se encontró que las tasas de error de NE más altas y los índices de vinculación más bajos indican una mayor factibilidad. Se encontró que ambas métricas se correlacionan con las anotaciones humanas, y los modelos más grandes funcionan mejor en este punto de referencia.

Además, Min et al 2023 propusieron.Puntuación de hechos , descomponga la generación de artículos largos en múltiples hechos atómicos y verifique cada hecho individualmente con bases de conocimiento como Wikipedia. Luego se puede medir la proporción (precisión) de oraciones respaldadas por la fuente de conocimiento generada por cada modelo, siendo FActScore la precisión promedio generada por el modelo en un conjunto de señales.

Este artículo probó una variedad de métodos de verificación de hechos en la tarea de generación biográfica y encontró queEl uso de la recuperación proporciona una mayor coherencia que el LLM sin contexto . En los métodos de mejora de la recuperación, la elección del mejor estimador depende del modelo.

LLM sin contexto: utilice directamente "¿Verdadero o falso?" para solicitar LLM sin contexto adicional.
Recuperación → LLM: mensaje con pasajes relevantes recuperados de fuentes de conocimiento como contexto
Probabilidad no paramétrica (NP): calcule la probabilidad promedio de etiquetas en hechos atómicos mediante LM enmascarado y utilícela para hacer predicciones.
Buscar→LLM+NP: Integración de dos métodos

Algunas observaciones interesantes sobre el comportamiento alucinatorio del modelo:

Las entidades raras tienen mayores tasas de error en las tareas de generación de biografías
Los hechos mencionados más adelante en el contenido generado también tienen tasas de error más altas.
Usar la recuperación para proporcionar una base para la generación de modelos puede ayudar significativamente a reducir los fenómenos de alucinación

Wei et al. en 2024 también propusieron un método para evaluar la factibilidad a largo plazo de LLM, denominadoSEGURO(Evaluador de factualidad aumentada por búsqueda).

En comparación con FActScore, la principal diferencia es que SAFE utiliza un modelo de lenguaje como Agente.Emitir consultas de búsqueda de Google de forma iterativa mediante un proceso de varios pasosy razonar sobre si los resultados de la búsqueda respaldan o no ese hecho.

En cada paso, el agente genera una consulta de búsqueda basada en los hechos a verificar y los resultados de búsqueda obtenidos previamente. Después de varios pasos, el modelo realiza una inferencia para determinar si el hecho está respaldado por los resultados de la búsqueda.

Según experimentos,Aunque el método SAFE cuesta 20 veces menos que la anotación humana, funciona mejor que la anotación humana: La tasa de acuerdo con los humanos fue del 72% y la tasa de superación de los humanos en desacuerdo fue del 76%.

El índice de evaluación SAFE es F1@K. Para respuestas largas de modelos fácticos, lo ideal sería lograr tanto precisión como recuerdo, ya que la respuesta debería satisfacer simultáneamente:

factual: Medido por precisión, que es el porcentaje de hechos respaldados en toda la respuesta.
largo : Medido por recuerdo, que es el porcentaje de hechos proporcionados de todos los hechos relevantes que deben aparecer en la respuesta. Por tanto, se considera el número máximo de hechos sustentados.

Dada la respuesta del modelo, la métrica F1@K se define como:

Además, Chern et al. 2023 propusieron un flujo de trabajo de verificación de hechos que sigue los estándares.Herramienta de factibilidad . Está diseñado para detectar errores fácticos en una variedad de tareas que incluyen respuesta a preguntas basadas en conocimientos, generación de códigos, resolución de problemas matemáticos y revisión de literatura científica. Los pasos incluyen:

Extracción de reclamos: extraiga todos los reclamos verificables solicitando LLM.
Generación de consultas: convierta cada declaración en una serie de consultas adecuadas para herramientas externas, como consultas de motores de búsqueda, casos de prueba unitaria, fragmentos de código y títulos de artículos.
Consulta de herramientas y recopilación de evidencia: consulte herramientas externas, como motores de búsqueda, intérpretes de código y Google Scholar, y obtenga resultados.
Verificación de coherencia: a cada afirmación se le asigna una etiqueta fáctica binaria según el grado de respaldo de evidencia proporcionado por herramientas externas.

Detección basada en muestreo

Manakul et al. 2023 propusieron una verificación de coherencia que se basa en múltiples muestras de un LLM de caja negra.Autocomprobación GPT, para identificar errores fácticos.

Teniendo en cuenta que las mediciones de verificación de hechos de caja gris requieren acceso al logprob a nivel de token de LLM, SelfCheckGPTSimplemente use muestras que no dependan de bases de conocimiento externas, por lo que el acceso de caja negra es suficiente., no se requiere ninguna base de conocimientos externa.

Este método utiliza diferentes métricas para medir la coherencia entre la respuesta del modelo y otras muestras aleatorias del modelo, incluidos BERTScore, NLI, indicaciones (preguntar sí/no), etc. SelfCheckGPT usando sugerencias parece funcionar mejor cuando se realizan inspecciones experimentales de pasajes de WikiBio generados por GPT-3.

Calibrando conocimientos desconocidos

Pedirle a un modelo que genere respuestas a preguntas desconocidas o sin respuesta puede provocar alucinaciones.QA veraz(Lin et al., 2021) yConsciente de sí mismo(Yin et al., 2023) son dos puntos de referencia que miden la capacidad de un modelo para generar respuestas realistas en tales situaciones; el primero se construye de manera adversaria para enfatizar el error humano y el segundo incluye preguntas sin respuesta.

Ante estos problemas,El modelo debe negarse a responder o proporcionar información relevante.。

En TruthfulQA, las preguntas de las pruebas están diseñadas de forma contradictoria en función de malentendidos o errores humanos comunes. El punto de referencia contiene 817 preguntas que cubren 38 temas que incluyen salud, derecho, finanzas y política.

Cuando se probó, el mejor LLM logró una precisión del 58%, mientras que los humanos pudieron alcanzar el 94%. El equipo de investigación encontró queDebido a un error común, los modelos más grandes son menos realistas, pero esta tendencia no se refleja en otros estándares.(sin confrontación)base fáctica。

Aquí hay un ejemplo de la respuesta incorrecta de GPT-3 en TruthfulQA:

Yin et al. 2023 estudiaronConsciente de sí mismoEl concepto de , se refiere a si los modelos del lenguaje saben lo que saben o no.

SelfAware contiene 1032 preguntas sin respuesta y 2337 preguntas con respuesta en cinco categorías. Las preguntas sin respuesta provienen de foros en línea con anotaciones humanas, y las preguntas con respuesta provienen de SQuAD, HotpotQA y TriviaQA.

Una pregunta puede no tener respuesta por diversas razones, como falta de consenso científico, imaginación del futuro, subjetividad total, razones filosóficas que pueden generar múltiples respuestas, etc.

El estudio trata la distinción de preguntas con respuesta y sin respuesta como una tarea de clasificación binaria y utiliza la puntuación o precisión F1 para evaluar el rendimiento del modelo. Los experimentos muestran que los modelos más grandes funcionan mejor en esta tarea.

Otra forma de evaluar qué tan bien un modelo comprende el conocimiento desconocido es medir la incertidumbre en el resultado del modelo. Cuando un problema se encuentra entre lo conocido y lo desconocido, el modelo debe exhibir el nivel correcto de confianza.

El experimento de Kadavath et al. de 2022 demostró que en una variedad de opciones de respuesta multidimensionales con letras visibles,Selección de temaformatos (MMLU, TruthfulQA, QuALITY, LogiQA), LLM se desempeña bien en la estimación de la probabilidad de que una respuesta sea correcta, lo que significa que la probabilidad predicha es consistente con la frecuencia con la que esa respuesta es verdadera.

El ajuste fino de RLHF da como resultado una calibración del modelo más deficiente, pero temperaturas de muestreo más altas conducen a mejores resultados de calibración.

Lin et al. propuesto en 2022Matemáticas calibradas Equipo de misión. CalibrateMath es un conjunto de problemas matemáticos generados mediante programación con diferentes niveles de dificultad que prueban la calibración de las probabilidades de salida del modelo.

Para cada pregunta, el modelo debe proporcionar una respuesta numérica y su confianza en esa respuesta. Se consideran tres tipos de probabilidades:

Un número o palabra literal (como "más bajo", "bajo", "medio", "alto", "más alto"), como "Confianza: 60%/Moderado".
La probabilidad logarítmica normalizada del token de respuesta. Tenga en cuenta que este parámetro no se utilizó en los experimentos de ajuste fino.
Logprob para el indicador indirecto "Verdadero/Falso" después de la respuesta original. Los experimentos se centran en calibrar la generalización bajo cambios distributivos en la dificultad o el contenido de la tarea. Cada punto de datos de ajuste es una pregunta, la respuesta del modelo (que puede ser incorrecta) y la confianza de la calibración. En ambos casos, las probabilidades textuales se generalizaron bien y todos los entornos funcionaron bien en las tareas de multiplicación y división. En términos de confianza en la predicción del modelo, los modelos de pocos disparos son más débiles que los modelos ajustados. Es útil incluir más ejemplos, la versión de 50 disparos es casi tan buena como la versión mejorada.

consulta indirecta

Agrawal et al. (2023) estudiaron específicamente casos de citas alucinadas en la generación de LLM, incluidos títulos de libros, artículos y artículos ficticios. Utilizaron dos métodos basados en la coherencia para detectar alucinaciones, a saber, consulta directa y consulta indirecta. Ambos métodos ejecutan la verificación varias veces cuando T > 0 y verifican la coherencia.

Las consultas directas requieren que el modelo determine si el material de referencia generado existe, mientras que las consultas indirectas requieren detalles auxiliares, como¿Quién es el autor de la referencia?。

La hipótesis es que, para una referencia alucinada, la consistencia de generar el mismo autor varias veces es menor que la probabilidad de que múltiples respuestas a una consulta directa revelen la presencia de la referencia.

Los experimentos muestran queLos métodos de consulta indirecta funcionan mejor, los modelos más grandes son más potentes y hay menos alucinaciones。

Formas de combatir las alucinaciones

A continuación, revisamos un conjunto de métodos para mejorar la autenticidad de las respuestas de LLM, incluida la recuperación de bases de conocimiento externas, métodos de muestreo especiales y ajuste de alineación. Algunos métodos de interpretabilidad para reducir las alucinaciones mediante la edición neuronal no se analizarán aquí.

RAG → Edición y Atribución

RAG (Generación Aumentada de Recuperación) es un método muy común para proporcionar información básica recuperando documentos relevantes y luego generándolos utilizando documentos relevantes adicionales como contexto.

Raro(Retrofit Attribution mediante investigación y revisión) es un marco propuesto por Gao et al en 2022, que permite a LLM respaldar retroactivamente la atribución de evidencia externa a través de la atribución editorial.

Dado un texto generado por un modelo, RARR lo procesa en dos pasos, generando un texto revisado y un informe de atribución:

1. Etapa de investigación: encontrar documentos relevantes como evidencia.

Primero se utiliza un modelo de generación de consultas (a través de sugerencias breves, →1,…,) para construir un conjunto de consultas de búsqueda 1,…, para validar varios aspectos de cada oración.
Al realizar una búsqueda en Google, cada consulta = 5 resultados.
Se utiliza un modelo de relevancia de documento de consulta previamente entrenado para asignar puntuaciones de relevancia, y solo se retiene uno de los más relevantes = 1 documento 1,…, para cada consulta.

2. Fase de revisión: edite el resultado para corregir el contenido que no está respaldado por la evidencia, conservando la mayor cantidad posible del contenido original.Inicializar texto revisado =.

Según (,), el modelo de protocolo (mediante sugerencias de pocas tomas + CoT, (,,) → 0,1) verifica si la evidencia es inconsistente con el texto revisado actual.

Solo cuando se detecta una inconsistencia, el modelo de edición (a través de algunas sugerencias + CoT, (,,)→ nuevo) genera una nueva versión, diseñada para modificarse mínimamente al mismo tiempo que la evidencia.

Solo una cantidad limitada de evidencia =5 termina ingresando en el informe de atribución.

Tanto la atribución como la retención son importantes al evaluar el texto revisado.

La atribución utiliza la puntuación AIS (atribuida a una fuente identificada) para medir qué parte del contenido se puede atribuir. Se pueden recopilar anotaciones humanas o se pueden utilizar modelos NLI para aproximar la puntuación automática AIS.

La preservación se refiere al grado en que se conserva el texto original, medido como Previntent × PrevLev, donde Previntent requiere anotación manual y PrevLev se basa en la distancia de edición de Levenshtein a nivel de carácter. En comparación con las dos líneas de base, RARR conduce a resultados mejor equilibrados, especialmente en términos de métricas de retención.

Similar a RARR usando búsqueda + edición, propuesto por Mishra et al 2024.FAVA (Verificación de hechos con conocimiento aumentado) también recupera documentación relevante y luego edita el resultado del modelo para evitar errores ilusorios. El modelo FAVA consta de un recuperador y un editor.

Dado un mensaje y un modelo de salida, recupere los documentos más relevantes:

El editor genera resultados mejorados:

RARR no requiere capacitación, pero la edición del modelo del editor en FAVA requiere un ajuste fino. Al clasificar con más detalle los diferentes tipos de errores de alucinación, es posible generar datos de entrenamiento sintéticos para modelos editados insertando errores aleatorios en la generación del modelo.

Cada ejemplo es un triplete (,,∗), donde es el párrafo original de Wikipedia como contexto dorado, es la salida de LM con errores y ∗ es la salida con etiquetas de error y ediciones correctas.

Propuesto por He et al.RREl enfoque (Repensar con recuperación) también se basa en la recuperación de conocimiento externo relevante, pero no implica edición adicional.

En lugar de utilizar un modelo de generación de consultas de búsqueda, la recuperación de RR se basa en sugerencias de CoT descompuestas.

Dada una sugerencia de entrada, RR utiliza sugerencias de CoT para generar múltiples rutas de inferencia 1,…, a temperatura > 0, donde cada ruta de inferencia contiene una explicación (es decir, la parte de inferencia), seguida de una predicción (es decir, la salida real del modelo). . Recuperar conocimiento externo 1,…, para sustentar cada explicación. Luego, se selecciona la respuesta más fiel en función del grado de ajuste con el conocimiento recuperado 1,…,.

recuperación de conocimientos: Los experimentos de RR aplican la recuperación escasa de BM25 para buscar en Wikipedia, seguido de una reclasificación mediante la incorporación de similitud de coseno proporcionada por un modelo MPNet previamente entrenado.
Puntuación de fidelidad : La fidelidad de cada ruta de inferencia se estima mediante una combinación de puntuación de vinculación, puntuación de contradicción y similitud de MPNet. Tanto la puntuación de vinculación como la puntuación de contradicción las proporciona el modelo NLI previamente entrenado.

Auto-RAG(Asai et al., 2024) entrena un modelo de lenguaje de un extremo a otro para que aprenda a reflexionar sobre su propia producción generando resultados de tareas y marcadores de reflexión especiales intermitentes.

El equipo de investigación creó un conjunto de datos supervisado para juzgar y generar modelos solicitando GPT-4, y luego lo destiló en un modelo interno para reducir el costo de la inferencia.

Dada una solicitud de entrada, la salida generada consta de varias partes (por ejemplo, un párrafo es una oración). Hay cuatro tipos de marcadores de reflexión, uno para recuperación y tres para evaluación:

Recuperar: determina si se ejecutará la recuperación en paralelo para obtener un conjunto de valores de salida: {sí, no, continuar}.
IsRel: determine si el mensaje es relevante para el valor de salida recuperado: {relevante, irrelevante}.
IsSup: determine si se admite el texto de salida. Valor de salida: {totalmente compatible, parcialmente compatible, sin soporte}.
IsUse: determina si el texto de salida es útil; valor de salida: {5, 4, 3, 2, 1}.

Self-RAG genera un segmento a la vez. Según la generación < dada y anterior, el modelo decodifica el token de recuperación:

Si Recuperar==no, generar directamente;
Si Retrieve==yes, el modelo recupera varios párrafos en paralelo y utiliza el token IsRel para comprobar si los documentos recuperados son relevantes. Si es relevante, genere y utilice otros tokens de calificación para calificar, clasificar y seleccionar el mejor resultado entre múltiples resultados.

cadena de acción

Sin conocimiento de recuperación externo, es posible diseñar unAprovechar el modelo en sí para su validación y revisión.Proceso para reducir las alucinaciones.

Dhuliawala et al. propusieron un método para la verificación de la planificación y ejecución basado en cadenas de acción en 2023, denominadoCadena de verificación (Ensenada). CoVe consta de cuatro pasos principales:

respuesta inicial: El modelo genera un borrador de respuesta inicial, llamado "línea de base".
Verificación de planificación: Sobre la base de esta generación sin procesar, el modelo diseña preguntas de verificación sin plantilla para la verificación de hechos; esto se puede lograr con una pequeña cantidad de mensajes de ejemplo (respuestas a preguntas de verificación).
Realizar verificación : El modelo responde de forma independiente a estas preguntas. Hay varias variaciones de configuración:

1) Unión: combinado con el paso 2, donde está la estructura de ejemplo de pocas tomas (respuesta, pregunta de verificación, respuesta de verificación), la desventaja es que la respuesta original está en contexto y el modelo puede repetir ilusiones similares.

2) Enfoque de dos pasos: separar los pasos de planificación y ejecución de la verificación, si no afectan la respuesta original.

3) Descomposición: Responda cada pregunta de verificación por separado. Por ejemplo, si una construcción de base larga da como resultado múltiples preguntas de validación, cada pregunta se responderá una por una.

4) Descomposición + Revisión: agregue un paso de "verificación cruzada" después de realizar la verificación de descomposición para condicionar y detectar inconsistencias basadas en las respuestas de referencia y las preguntas y respuestas de verificación.

salida final : Genere resultados finales y refinados. Si se encuentra alguna inconsistencia, la salida se modifica en este paso.

CoVe está diseñado de esta manera porque el uso de una cadena de verificación larga puede conducir a alucinaciones repetidas, porque la respuesta alucinante inicial todavía está en contexto y puede ser atendida durante los procesos de nueva generación, mientras queSe descubrió que responder cada pregunta de validación individualmente genera mejores resultados que la generación de formularios largos.。

Aquí hay algunas observaciones interesantes de los experimentos de CoVe:

Los ajustes de comando y CoT no redujeron las alucinaciones.
La descomposición y CoVe de dos pasos mejoran el rendimiento y también ayuda un razonamiento más explícito para la detección de inconsistencias (enfoque de "descomposición+revisión").
Las preguntas de verificación breves provocaron respuestas más precisas que las preguntas largas.
El LLM de formato libre genera preguntas de verificación mejor que las preguntas heurísticas (por ejemplo, ¿X respondió la pregunta?), y las preguntas que requieren una generación abierta son mejores que las preguntas de sí/no.

Además, Sun et al propusieron en 2023.RECITAREl método se basa en el ensayo como paso intermedio para mejorar la exactitud fáctica de la generación del modelo y reducir las alucinaciones.

La motivación es utilizar la memoria de Transformer como modelo de recuperación de información. En el esquema de recuento y respuesta de RECITE, primero se le pide a LLM que vuelva a contar información relevante y luego genera resultados.

Específicamente, se pueden utilizar algunas sugerencias contextuales para enseñar al modelo a parafrasear y luego generar respuestas basadas en la paráfrasis. Además, se puede combinar con métodos de conjunto autoconsistentes que utilizan múltiples muestras y se puede ampliar para admitir respuestas a preguntas de múltiples saltos.

Las paráfrasis generadas son comparables al modelo de recuperación basado en BM25, pero ambas tienen lagunas cuando se utilizan pasajes reales. Según el análisis de errores realizado por el equipo de investigación, entre el 7% y el 10% de las preguntas se recitaron correctamente pero no pudieron generar la respuesta correcta; alrededor del 12% de las preguntas se recitaron incorrectamente pero aún se pudieron responder correctamente.

Método de muestreo

Lee et al. 2022 descubrieron que el muestreo de núcleos (muestreo superior) tuvo un peor rendimiento que el muestreo codicioso en el punto de referencia FactorityPrompt, aunque el muestreo de núcleos agregó aleatoriedad adicional, logrando una mejor diversidad y menos repetición.

Por lo tanto, propusieron un algoritmo de muestreo de núcleos de hechos basado en hipótesis,Esta hipótesis establece que la aleatoriedad del muestreo tiene un mayor impacto en la factibilidad de la segunda mitad de la oración que el comienzo de la oración. . El muestreo de hechos básicos tiene como objetivo ajustar dinámicamente la probabilidad de las palabras muestreadas en cada oración. Para el enésimo token de una oración, existe =max(,⋅−1), que se utiliza para evitar que el muestreo vuelva a ser un muestreo codicioso que daña la calidad y diversidad de la generación.

Li et al. propuesto en 2023Intervención en el tiempo de inferencia(ITI), investiga si ciertas cabezas de atención son más relevantes para la factualidad mediante el sondeo lineal de activaciones en cada capa para distinguir resultados reales de falsos.

Descubrieron que para muchas cabezas de atención el detector no funcionó mejor que la selección aleatoria, mientras que algunos mostraron un rendimiento sólido. Después de identificar un grupo de cabezas de atención dispersas con alta precisión en la detección lineal de autenticidad, ITI ajustará la activación de las cabezas de atención seleccionadas superiormente a lo largo de la dirección "real" durante la inferencia.

Ajuste de hechos

Lee et al. 2022 propusieron dos ideas para el entrenamiento de refuerzo:

Presentamos TopicPrefix para una mejor comprensión de los hechos: agregue un tema (es decir, el título del documento de Wikipedia) antes de cada oración del documento.
Tome la pérdida por completar la oración como objetivo de entrenamiento: actualice la pérdida de entrenamiento para centrarse en la segunda mitad de la oración, asumiendo que la segunda mitad de la oración contiene más conocimiento fáctico. La implementación es muy simple: decida un punto de pivote y aplique una máscara cero a todos los tokens antes del primer token. En sus experimentos, se eligió que el punto de pivote óptimo fuera 0,5 veces la longitud de la oración.

Lin et al. propusieron en 2024 realizar una capacitación de alineación SFT + RLHF que se centre en la factualidad, denominadaFUEGO。

Etapa SFT (SFT consciente de la realidad): el objetivo es generar datos de entrenamiento que sean más objetivos que el modelo en sí (medido por FActScore).
Etapa RLHF (DPO consciente de los hechos): se probaron dos métodos: el método 1 funcionó mal y el método 2 funcionó bien, probablemente porque el método 1 intentó destilar nuevos conocimientos en el modelo sin la capacitación suficiente.

Como se mencionó anteriormente, existe cierta evidencia de que perfeccionar nuevos conocimientos puede causar alucinaciones, y la supervisión de RAG contiene información desconocida para LLM.

Método 1: utilice muestras de datos RAG como muestras positivas y la generación del modelo original como muestras negativas como datos RM.

Método 2: utilice FActScore como señal de recompensa de facto.

Para evitar destilar accidentalmente conocimiento desconocido en el modelo durante el entrenamiento de alineación, proponen utilizar las respuestas generadas por el modelo para construir el conjunto de datos SFT/DPO.

Propuesto por Tian&Mitchell et al.Ajuste de factualidad También se basa en el ajuste de los modelos de lenguaje para mejorar la factualidad. Experimentaron con diferentes métodos para estimar la veracidad de las afirmaciones atómicas en cada muestra del modelo y luego ejecutaron DPO.

Proceso de ajuste de hechos:

1. Modelar pares de ejemplos de finalización para un conjunto de indicaciones determinado (por ejemplo, “Escribe una biografía de Yo-Yo Ma”)

2. Marcar su autenticidad según dos métodos que no requieren intervención manual:

Basado en referencias: comprueba si la afirmación del modelo está respaldada por una base de conocimientos externa, similar a la sección anterior de evaluación de alucinaciones basada en la recuperación. (a) extraer una serie de declaraciones atómicas; (b) buscar referencias en Wikipedia; (c) utilizar un modelo NLI pequeño y ajustado para comprobar si el texto de referencia admite declaraciones atómicas.

No basado en referencias: utiliza la propia confianza del modelo como símbolo de su autenticidad, similar a los métodos de consulta indirectos. (a) convertir cada afirmación en una pregunta correspondiente/requiere una reformulación cuidadosa para garantizar que la pregunta sea clara; (b) muestrear varias veces el modelo para responder la pregunta (c) calcular una puntuación/uso agregado; caracteres Coincidencia de cadenas o solicitud de GPT para determinar si dos respuestas son semánticamente equivalentes.

3. Cree un conjunto de datos de entrenamiento generando múltiples muestras del modelo y asignando preferencias según puntuaciones de autenticidad. Luego use DPO para ajustar el modelo en este conjunto de datos.

Ajustes para la atribución

Atribuir atribuciones es una buena manera de reducir las ilusiones al generar resultados del modelo que dependen de los resultados de la búsqueda. Existe un conjunto de trabajos destinados a capacitar a LLM para utilizar mejor el contenido recuperado y asignar atribuciones de alta calidad.

Propuesto por Nakano et al.WebGPT, combina la búsqueda web para la recuperación de documentos con modelos GPT ajustados, diseñados para responder preguntas extensas para reducir las alucinaciones y mejorar la precisión de los hechos.

El modelo interactúa con búsquedas en Internet en un navegador web basado en texto y aprende a citar páginas web para responder preguntas. Mientras el modelo navega, una acción que puede realizar es hacer referencia a un extracto de la página actual. Al hacer esto, el título de la página, el nombre de dominio y el extracto se registran para referencia posterior.El núcleo de WebGPT es utilizar materiales de referencia para ayudar a las personas a juzgar la exactitud de los hechos.。

El modelo se sometió por primera vez a un ajuste supervisado para la clonación del comportamiento en demostraciones de humanos que utilizan un entorno de navegación web para responder preguntas.

Se recopilan datos comparativos entre dos respuestas generadas por modelos a la misma pregunta, cada una con su propio conjunto de referencia, donde las respuestas se juzgan según su precisión objetiva, coherencia y utilidad general. Los modelos de recompensa se utilizan para el entrenamiento de RL y el muestreo de rechazo del mejor de n. Por el contrario, RL tiene efectos limitados y cuando se utiliza el muestreo de rechazo, los efectos son aún más limitados.

Menick et al. propusieron en 2022GopherCite , es muy similar a WebGPT en el uso de motores de búsqueda para crear materiales de apoyo y modelos de enseñanza para proporcionar materiales de referencia. Ambos realizan un ajuste supervisado de la orientación y ambos aplican la capacitación RLHF.

A diferencia de WebGPT, que se basa en demostraciones humanas para la clonación de comportamientos, GopherCiteGenere una demostración mediante indicaciones breves, y cada generación se completa con contexto de documentos relevantes, y luego se usa un modelo de recompensa para calificar cuáles son los mejores.

Otro truco para evitar respuestas de baja calidad es configurar el modelo para rechazar respuestas utilizando la respuesta predeterminada "No sé", que está determinada por un umbral de RM global, llamado predicción selectiva.

Los resultados empíricos de RL son similares a los de WebGPT, es decir, RL solo aporta una mejora limitada o ninguna mejora cuando se combina con el muestreo de rechazo.

¿Quién es Weng Li?

Weng Li es un científico chino de OpenAI y uno de los contribuyentes de ChatGPT. Se graduó en la Universidad de Pekín.

Es la persona a cargo de la investigación de aplicaciones de inteligencia artificial de OpenAI. Se unió a OpenAI en 2018 y participa principalmente en la capacitación previa, el aprendizaje por refuerzo y la alineación, la seguridad del modelo y otros aspectos del proyecto GPT-4.

En el equipo asesor de seguridad establecido por OpenAI a finales del año pasado, lidera el equipo de Sistemas de seguridad para resolver problemas como la reducción del abuso de modelos existentes como ChatGPT.

noticias

OpenAI Weng Li propuso un gran modelo de "alucinación externa": una explicación detallada de diez mil palabras de las razones por las que los métodos de resistencia producen alucinaciones...

¿Qué causa las alucinaciones?

Detección de alucinaciones

Formas de combatir las alucinaciones

¿Quién es Weng Li?

Introducción

Mi información de contacto