소식

o1은 의료 분야에서 gpt-4를 능가하고 성능이 급상승합니다! 중국 팀은 다음과 같은 기사를 발표했습니다. 우리는 ai 의사에 가까워지고 있습니다.

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina



  새로운 지혜 보고서

편집자: lrs
[새로운 지혜 소개]openai의 o1 모델은 일반적인 언어 작업에서 뛰어난 성능을 보여주었습니다. 최신 평가에서는 이해, 추론 및 다국어 기능에 중점을 둔 의료 분야에서 o1 모델의 성능이 이전 모델을 크게 뛰어넘는 것으로 나타났습니다.


빅 언어 모델이 처음 출시되었을 때 작업, 도메인 다양성 및 원활한 텍스트 생성 기능으로 성공적으로 돌파했습니다. 그러나 당시 기술은 비교적 간단한 일부 작업에만 적용할 수 있었습니다.


사고 체인, 특히 새로 출시된 openai의 o1 모델과 같은 신속한 기술의 출현으로 강화 학습 전략의 내재화된 사고 체인 기술을 최초로 채택하여 복잡한 문제를 해결하고 추론하는 대형 모델의 능력을 향상시킵니다. 완전히 새로운 수준.


o1 모델은 다양한 일반 언어 작업에서 놀라울 정도로 강력한 능력을 보여주었지만, 의학 등 전문 분야에서의 성능은 아직 알려지지 않았습니다.


캘리포니아 대학교, 산타 크루즈 대학교, 에딘버러 대학교, 국립 보건원의 중국 팀이 공동으로 보고서를 발표하여 다양한 의료 시나리오에서 o1에 대한 포괄적인 조사를 수행하고 이해 및 추론에서 모델의 성능을 조사했습니다. . ) 및 다국어 기능을 제공합니다.



평가에서는 nejm(new england journal of medicine) 및 lancet professional medical test를 기반으로 한 두 가지 어려운 질문 및 답변 작업을 포함하여 37개 의료 데이터 세트의 데이터를 사용하여 6가지 작업을 다룹니다.


medqa와 같은 표준 의학 질문 답변 벤치마크와 비교할 때 이러한 데이터 세트는 임상적으로 더 관련성이 높으며 실제 임상 시나리오에 더 효과적으로 적용될 수 있습니다.


o1 모델 분석에서는 llm의 추론 능력 향상이 다양한 의료 지침에 대한 모델의 이해에 더 도움이 되고, 복잡한 임상 시나리오에서 모델의 추론 능력도 향상시킬 수 있음을 보여줍니다.


19개 데이터 세트와 2개의 복잡한 질문 및 답변 시나리오에서 o1 모델의 정확도가 이전 gpt-4보다 평균 6.2%, 6.6% 더 높았다는 점은 주목할 가치가 있습니다.


동시에 연구원들은 환각, 일관되지 않은 다국어 기능, 일관되지 않은 평가 지표를 포함하여 모델 기능과 기존 평가 프로토콜에서 몇 가지 결함을 발견했습니다.


대형모델의 의료능력 종합평가


모델의 추론 능력을 향상시키는 측면에서 cot(사고 사슬) 프롬프트는 일반적으로 사용되는 프롬프트 전략으로, 모델 내의 추론 패턴을 사용하여 복잡한 작업 해결 능력을 향상시킵니다.


o1 모델은 한 단계 더 나아가 cot 프로세스를 모델 훈련에 포함하고 강화 학습을 통합하며 강력한 추론 성능을 보여줍니다. 그러나 o1 모델은 아직 전문 분야의 데이터로 평가되지 않았으며 특정 작업에 대한 성능은 여전히 ​​​​낮습니다. 알려지지 않은.



의료 분야의 기존 llm 벤치마크는 일반적으로 지식과 추론, 보안, 다국어 등 모델의 특정 기능만 평가하며, 테스트는 서로 상대적으로 고립되어 있어 o1과 같은 고급 모델을 종합적으로 평가할 수 없습니다.



포괄적인 평가를 보장하기 위해 연구자들은 위의 측면을 다루는 다양한 의료 작업과 데이터 세트를 수집하고 그 과정에서 다음을 포함한 세 가지 프롬프트 전략을 탐색했습니다.


1. 문제를 직접 해결하기 위해 대규모 언어 모델을 안내하는 직접적인 프롬프트

2. 최종 답변을 생성하기 전에 모델이 단계별로 생각하도록 요구하는 사고 체인.

3. 퓨샷 힌트는 모델에 입력-출력 매핑을 즉석에서 학습할 수 있는 몇 가지 예를 제공합니다.


마지막으로 적절한 측정항목을 사용하여 생성된 응답과 실제 답변 간의 차이를 측정합니다.



집중과 과제


연구원들은 기존 데이터세트 35개를 활용하고 평가 난이도가 더 높은 데이터세트 2개를 추가로 생성한 다음, 모델이 특정 영역에서 어떻게 작동하는지 이해하기 위한 보다 명확한 평가 및 분석을 위해 37개 데이터세트를 모두 3가지 측면과 6가지 작업으로 분류했습니다.


이해내부 의학 지식을 사용하여 의학 개념을 이해하는 모델의 능력을 나타냅니다.


예를 들어, 개념 인식 작업에서 모델은 텍스트 요약의 기사 또는 진단 보고서에서 의학 개념을 추출하거나 정교화해야 하며, 모델은 간결한 요약을 생성하기 위해 복잡한 텍스트의 개념을 이해해야 합니다.


추리결론에 도달하기 위해 여러 단계를 통해 논리적으로 생각하는 모델의 능력을 테스트합니다.


질문 및 답변 작업에서 모델은 질문에 제공된 의학적 정보를 기반으로 추론하고 여러 옵션 중에서 정답을 선택하기 위한 즉각적인 지침을 따라야 합니다.


일반적인 질문 및 답변 데이터세트 외에도 연구원들은 llm의 임상적 유용성을 더 잘 평가하기 위해 the lancet, the new england journal of medicine(nejm) 및 medbullets에서 실제 임상 질문을 수집했습니다.


임상 추천 작업에서 모델은 환자 정보를 기반으로 치료 권장 사항이나 진단 결정을 제공해야 합니다. ai hospital 및 agentclinic 데이터 세트에서 모델은 medcalc-bench 데이터 세트에서 의료 에이전트 역할을 해야 하며, 모델은 수학적 추론을 수행하고 답변을 계산해야 합니다.


다국어, 지침을 입력하는 언어와 답변을 출력하는 언어가 다릅니다.


xmedbench 데이터 세트에서는 llm이 ai 병원 데이터 세트에서 중국어, 아랍어, 힌디어, 스페인어, 중국어 및 영어를 포함한 6개 언어로 의료 질문에 답변해야 하며, 모델은 질문 및 답변에 중국어를 사용해야 합니다.


평가지표


정확성는 실제 답변과 정확히 일치하는 모델에서 생성된 답변의 비율을 직접적으로 측정한 것입니다.


객관식 질문 데이터 세트, medcalcbench 데이터 세트, 임상 조언 및 개념 식별 데이터 세트를 포함하여 실제 답변이 단어 또는 구문인 경우 주로 사용됩니다.


정밀도와 재현율의 조화 평균인 f1 점수는 모델이 여러 정답을 선택해야 하는 데이터 세트에 사용됩니다.


블루와 루즈, 평가의 모든 자유 형식 생성 작업에 대해 bleu-1 및 rouge-1을 사용하여 생성된 응답과 실제 답변 간의 유사성을 측정하는 자연어 처리 지표입니다.


정렬점수생성된 텍스트 사실의 일관성을 측정하는 지표인 는 지정되지 않은 모든 형식 생성 작업에 대해 alignscore를 사용하여 모델 환상의 정도를 평가합니다.


자주빛생성된 텍스트와 사람이 작성한 텍스트의 분포 차이를 측정하는 메트릭은 지정되지 않은 모든 형식 생성 작업에 사용됩니다. 메트릭 값의 범위는 0에서 100이며, 값이 높을수록 모델의 품질이 높다는 것을 나타냅니다. 산출.


실험 결과


신속한 전략


지식 질문 및 답변 작업, 에이전트 작업, 의료 컴퓨팅 작업 및 다국어 관련 작업의 경우 직접 프롬프트 평가 방법을 사용합니다.


meds-bench의 다른 작업의 경우 벤치마크 설정의 3-샘플 프롬프트 전략을 따릅니다.



openai의 성명에 따르면, cot(생각의 사슬) 및 상황별 예시와 같은 일반적인 프롬프트 기술은 모델에 이미 암시적 cot가 내장되어 있기 때문에 o1 성능을 향상시키는 데 그다지 도움이 되지 않습니다.


이 주장을 추가로 테스트하기 위해 연구원들은 cot, 자기 일관성 및 반사를 포함한 여러 고급 단서의 효과를 평가에 추가했습니다.


연구진은 평가를 위해 gpt-3.5, gpt-4, o1 모델을 선택한 것 외에도 두 가지 오픈 소스 모델도 선택했습니다. 하나는 의료 센터 데이터로 훈련된 대규모 언어 모델인 meditron-70b이고, 가장 강력한 최신 오픈 소스입니다. 모델 대형 언어 모델 llama3-8b


주요 결과


o1의 임상 이해 능력이 향상되었습니다.


o1 모델이 출시되었을 때 openai는 주로실험 결과에서도 수학적 문제 해결, 코드 생성 등 지식과 추론 능력이 크게 향상되는 것을 확인할 수 있으며, 이러한 능력은 구체적인 임상 지식 이해에도 적용될 수 있습니다.



o1은 대부분의 임상 작업에 대한 이해 측면에서 다른 모델보다 성능이 뛰어나다는 것을 알 수 있습니다. 예를 들어, f1을 측정항목으로 사용하는 5개 개념 인식 데이터세트에서 o1은 평균적으로 gpt-4 및 gpt-3.5보다 성능이 26.6% 더 뛰어납니다. 일반적으로 사용되는 bc4chem 데이터 세트에서는 평균 24.5% 개선되었습니다.



요약 작업에서 o1은 gpt-4와 gpt-3.5에 비해 rouge-1 점수를 각각 2.4%, 3.7% 향상시켜 실제 임상 이해 능력이 향상되었음을 입증했습니다. 결과에서도 대규모 언어 모델의 역할이 확인되었습니다. 일반적인 자연어 처리 기능의 발전은 의료 분야의 모델 이해 향상으로 효과적으로 전환될 수 있습니다.


임상 진단 시나리오에서 o1 모델의 강력한 추론 능력


추론 관련 작업에서 o1 모델은 실제 진단 상황에서도 장점을 입증했습니다.


새로 구축된 도전적인 질문 답변 작업 nejmqa 및 lancetqa에서 각 데이터 세트에 대한 o1의 평균 정확도는 gpt-4(79.6%) 및 gpt-3.5(61.5%)에 비해 각각 8.9% 및 27.1% 향상되었습니다.


o1의 수학적 추론 기능의 또 다른 주목할 만한 개선 사항은 medcalc-bench 기준선이 gpt-4보다 9.4% 높은 34.9%로 향상된다는 것입니다.


여러 라운드의 대화 및 환경 시뮬레이션을 포함하는 보다 복잡한 추론 시나리오에서 o1은 agentclinic 벤치마크에서 gpt-4 및 gpt-3.5보다 성능이 뛰어나며 medqa 및 nejm 하위 집합에서 각각 최소 15.5% 및 10%의 정확도가 향상되었습니다. , 각각 45.5%와 20.0%의 점수를 기록했습니다.


더 높은 정확도 외에도 o1의 답변은 더 간결하고 직접적이며 gpt-4는 잘못된 답변 옆에 환각적인 설명을 생성합니다.



연구원들은 o1의 지식 및 추론 향상이 주로 훈련 과정에서 향상된 데이터 및 기본 기술(예: cot 데이터 및 강화 학습 기술)을 사용했기 때문이라고 믿습니다.


위의 낙관적인 결과를 바탕으로 연구원들은 논문에서 다음과 같이 흥분해서 말했습니다. o1 모델을 통해 우리는 완전 자동 ai 의사에 점점 더 가까워지고 있습니다.


참고자료: