mi información de contacto
correoadmin@información.bz
2024-10-04
한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina
nuevo informe de sabiduría
cuando se lanzó por primera vez el modelo de gran lenguaje, se abrió paso con éxito en tareas, versatilidad de dominio y capacidades de generación de texto fluida. sin embargo, la tecnología en ese momento solo se podía aplicar a algunas tareas relativamente simples.
con el surgimiento de tecnologías rápidas como la cadena de pensamiento, especialmente el modelo o1 de openai recientemente lanzado, es el primero en adoptar la tecnología de cadena de pensamiento internalizada de la estrategia de aprendizaje por refuerzo, que mejora la capacidad de los modelos grandes para resolver problemas complejos y el razonamiento para un nivel completamente nuevo.
aunque el modelo o1 ha demostrado capacidades sorprendentemente fuertes en diversas tareas de lenguaje general, aún se desconoce su desempeño en campos profesionales como la medicina.
un equipo chino de la universidad de california, santa cruz, la universidad de edimburgo y los institutos nacionales de salud publicaron conjuntamente un informe en el que realizan una exploración exhaustiva de o1 en diferentes escenarios médicos y examinan el rendimiento del modelo en la comprensión y el razonamiento. . ) y capacidades multilingües.
la evaluación abarca seis tareas que utilizan datos de 37 conjuntos de datos médicos, incluidas dos tareas difíciles de preguntas y respuestas basadas en el new england journal of medicine (nejm) y the lancet professional medical test.
en comparación con los puntos de referencia de respuesta a preguntas médicas estándar, como medqa, estos conjuntos de datos son más relevantes desde el punto de vista clínico y se pueden aplicar de manera más efectiva en escenarios clínicos del mundo real.
el análisis del modelo o1 muestra que la mejora de la capacidad de razonamiento de los llm es más propicia para la comprensión del modelo de diversas instrucciones médicas y también puede mejorar la capacidad del modelo para razonar en escenarios clínicos complejos.
vale la pena señalar que la precisión del modelo o1 en 19 conjuntos de datos y dos escenarios complejos de preguntas y respuestas superó al gpt-4 anterior en un 6,2% y un 6,6% en promedio.
al mismo tiempo, los investigadores encontraron varias fallas en las capacidades del modelo y los protocolos de evaluación existentes, incluidas alucinaciones, capacidades multilingües inconsistentes y métricas de evaluación inconsistentes.
evaluación integral de las capacidades médicas de modelos grandes.
en términos de mejorar la capacidad de razonamiento del modelo, las indicaciones de cadena de pensamiento (cot) son una estrategia de indicaciones comúnmente utilizada, que utiliza los patrones de razonamiento dentro del modelo para mejorar la capacidad de resolver tareas complejas.
el modelo o1 va un paso más allá, integrando el proceso cot en el entrenamiento del modelo, integrando el aprendizaje por refuerzo y demostrando un sólido rendimiento de razonamiento; sin embargo, el modelo o1 aún no se ha evaluado con datos en campos profesionales y su desempeño en tareas específicas aún no se ha evaluado; desconocido.
los puntos de referencia de llm existentes en el campo médico generalmente solo evalúan capacidades específicas del modelo, como el conocimiento y el razonamiento, la seguridad y el multilenguaje. las pruebas están relativamente aisladas entre sí y no pueden evaluar de manera integral modelos avanzados como o1.
para garantizar una evaluación integral, los investigadores recopilaron una variedad de tareas médicas y conjuntos de datos que cubren los aspectos anteriores y exploraron tres estrategias de estímulo en el proceso, que incluyen:
1. indicaciones directas para guiar modelos de lenguaje grandes para resolver problemas directamente.
2. cadena de pensamiento, que requiere que el modelo piense paso a paso antes de generar la respuesta final.
3. algunas sugerencias proporcionan al modelo varios ejemplos para aprender el mapeo de entrada y salida sobre la marcha.
finalmente, utilice una métrica adecuada para medir la diferencia entre las respuestas generadas y las respuestas reales.
enfoque y tareas
los investigadores utilizaron 35 conjuntos de datos existentes y crearon 2 conjuntos de datos adicionales con mayor dificultad para la evaluación, y luego clasificaron los 37 conjuntos de datos en 3 aspectos y 6 tareas para una evaluación y análisis más claros para comprender cómo se desempeña un modelo en un dominio específico.
comprensión,se refiere a la capacidad del modelo para utilizar su conocimiento médico interno para comprender conceptos médicos.
por ejemplo, en tareas de reconocimiento de conceptos, los modelos necesitan extraer o elaborar conceptos médicos a partir de artículos o informes de diagnóstico; en el resumen de textos, los modelos necesitan comprender conceptos en textos complejos para generar resúmenes concisos.
razonamiento,pruebe la capacidad del modelo para pensar lógicamente a través de múltiples pasos para llegar a conclusiones.
en las tareas de preguntas y respuestas, el modelo debe seguir instrucciones rápidas para razonar en función de la información médica proporcionada en la pregunta y seleccionar la respuesta correcta entre múltiples opciones.
además de los conjuntos de datos comunes de preguntas y respuestas, los investigadores también recopilaron preguntas clínicas del mundo real de the lancet, the new england journal of medicine (nejm) y medbullets para evaluar mejor la utilidad clínica de los llm.
en las tareas de recomendación clínica, los modelos deben proporcionar recomendaciones de tratamiento o decisiones de diagnóstico basadas en la información del paciente. en los conjuntos de datos de ai hospital y agentclinic, el modelo debe actuar como un agente médico; en el conjunto de datos de medcalc-bench, el modelo debe realizar razonamiento matemático y calcular respuestas.
multilingüismo, los idiomas para ingresar instrucciones y generar respuestas son diferentes.
el conjunto de datos de xmedbench requiere que los llm respondan preguntas médicas en seis idiomas, incluidos chino, árabe, hindi, español, chino e inglés; en el conjunto de datos de ai hospital, el modelo debe usar chino para preguntas y respuestas;
indicadores de evaluación
exactitud, una medida directa del porcentaje de respuestas generadas por el modelo que coinciden exactamente con la respuesta verdadera.
se utiliza principalmente cuando la respuesta real es una palabra o frase, incluidos conjuntos de datos de preguntas de opción múltiple, conjuntos de datos de medcalcbench y conjuntos de datos de identificación de conceptos y consejos clínicos.
la puntuación f1, la media armónica de precisión y recuperación, se utiliza en conjuntos de datos donde el modelo necesita seleccionar múltiples respuestas correctas.
azul y rojo, una métrica de procesamiento del lenguaje natural que mide la similitud entre las respuestas generadas y las respuestas reales, utilizando bleu-1 y rouge-1 para todas las tareas de generación de forma libre en la evaluación.
alinear puntuación, una métrica que mide la coherencia de los hechos del texto generado, utiliza alignscore para todas las tareas de generación de formato no especificadas para evaluar el grado de ilusión del modelo.
color de malva, una métrica que mide la diferencia entre la distribución del texto generado y el texto escrito por humanos, se utiliza para todas las tareas de generación de formato no especificado. el valor de la métrica oscila entre 0 y 100, y los valores más altos indican una mayor calidad del modelo. producción.
resultados experimentales
estrategia inmediata
para tareas de preguntas y respuestas de conocimientos, tareas de agentes, tareas de informática médica y tareas relacionadas en varios idiomas, utilice métodos de evaluación rápida directa;
para otras tareas de meds-bench, se sigue la estrategia de indicaciones de tres muestras en el entorno de referencia.
según la declaración de openai, las técnicas de estimulación comunes como la cadena de pensamientos (cot) y los ejemplos en contexto no son muy útiles para mejorar el rendimiento de o1 porque el modelo ya tiene un cot implícito incorporado.
para probar más a fondo esta afirmación, los investigadores agregaron los efectos de varias señales avanzadas a la evaluación, incluidas cot, autoconsistencia y reflejo.
además de seleccionar los modelos gpt-3.5, gpt-4 y o1 para su evaluación, los investigadores también seleccionaron dos modelos de código abierto: uno es un modelo de lenguaje grande meditron-70b entrenado con datos del centro médico y el último y más potente código abierto. modelo modelo de lenguaje grande llama3-8b
resultados principales
se han mejorado las capacidades de o1 en comprensión clínica.
cuando se lanzó el modelo o1, openai enfatizó principalmente sua partir de los resultados experimentales también se pueden observar mejoras significativas en el conocimiento y las capacidades de razonamiento, como la resolución de problemas matemáticos y la generación de códigos, y esta capacidad también se puede transferir a la comprensión de conocimientos clínicos específicos.
se puede ver que o1 supera a otros modelos en términos de comprensión de la mayoría de las tareas clínicas. por ejemplo, o1 supera a gpt-4 y gpt-3.5 en promedio en 5 conjuntos de datos de reconocimiento de conceptos utilizando f1 como métrica. con una mejora promedio del 24,5% en el conjunto de datos bc4chem comúnmente utilizado.
en la tarea de resumen, o1 mejoró su puntuación rouge-1 en un 2,4 % y un 3,7 % respectivamente en comparación con gpt-4 y gpt-3.5, lo que demuestra su capacidad mejorada en la comprensión clínica del mundo real. los resultados también confirmaron el papel de los modelos de lenguaje grandes. los avances en las capacidades generales de procesamiento del lenguaje natural pueden traducirse efectivamente en una mejor comprensión de los modelos en el campo médico.
la poderosa capacidad de razonamiento del modelo o1 en escenarios de diagnóstico clínico
en tareas relacionadas con el razonamiento, el modelo o1 también ha demostrado sus ventajas en situaciones de diagnóstico del mundo real.
en las desafiantes tareas de respuesta a preguntas nejmqa y lancetqa, recientemente construidas, la precisión promedio de o1 en los respectivos conjuntos de datos mejora en un 8,9 % y un 27,1 % en comparación con gpt-4 (79,6 %) y gpt-3.5 (61,5 %) respectivamente.
otra mejora notable en las capacidades de razonamiento matemático de o1 es que mejora la línea de base de medcalc-bench al 34,9 %, lo que supone un importante 9,4 % más que gpt-4.
en escenarios de razonamiento más complejos que involucran múltiples rondas de diálogo y simulación ambiental, o1 supera a gpt-4 y gpt-3.5 en el punto de referencia agentclinic, ganando al menos un 15,5 % y un 10 % en los subconjuntos medqa y nejm, respectivamente. se mejoró la tasa de precisión. , con puntuaciones del 45,5% y 20,0% respectivamente.
además de una mayor precisión, las respuestas de o1 también son más concisas y directas, mientras que gpt-4 genera explicaciones alucinatorias junto a respuestas incorrectas.
los investigadores creen que las mejoras de o1 en conocimiento y razonamiento se atribuyen principalmente al uso de datos mejorados y técnicas subyacentes (como datos cot y técnicas de aprendizaje por refuerzo) durante el proceso de capacitación.
con base en los resultados optimistas anteriores, los investigadores afirmaron con entusiasmo en el artículo: con el modelo o1, nos acercamos cada vez más a un médico de ia totalmente automático.