LLM 추론 성능은 출력 형식에 영향을 받으며 JSON이 가장 심각합니다

2024-08-16

다양한 출력 형식이 실제로 대형 모델의 성능에 영향을 미칠 수 있습니까? !

LLM(대형 언어 모델)이 두 가지 프롬프트에서 동일한 수학적 문제를 해결하도록 합니다. 문제는 다음과 같습니다.

엘리자의 주당 처음 40시간 근무에 대한 시간당 임금은 $10이고, 초과 근무 수당은 시간당 x1.2입니다. 엘리자가 이번 주에 45시간 일했다면 이번 주에 그녀는 얼마를 벌었습니까?

생각 체인 프롬프트: "다음 형식으로 단계별 추론 결과를 제공합니다. ...답변: 최종 답변은..."입니다.

형식 제한 프롬프트: "다음과 같은 유효한 JSON 형식으로 출력을 제공하십시오. ... (특정 JSON 형식은 그림 참조)".

정답은460, 사고 체인(모델이 단계별로 생각하도록 함)은 작동하지만 형식 제한("JSON 형식으로 출력")은 실패하는 것을 볼 수 있습니다! !

이것은 National Taiwan University와 Appier AI Research의 새로운 연구의 한 장면입니다.

형식 제한은 LLM의 추론 능력을 감소시키며, 제한이 엄격할수록 추론은 더욱 악화됩니다. (반항적인 캐릭터가 등장)

하지만 좋은 소식은 치료가 가능하다는 것입니다.

그들이 발견한 것은,최고의 솔루션이는 "2차 변환"(맞습니다)입니다. 즉, LLM은 먼저 자연어로 질문에 답변한 다음 답변을 대상 형식으로 변환합니다.

그 과정에서 다양한 형식의 데이터를 생성할 때 GPT-3.5 Turbo, Claude 3 Haiku, Gemini 1.5 Flash 등 다양한 모델의 성능 차이를 비교했습니다.그것은 밝혀졌다：

GPT는 YAML을 좋아하고 Claude는 XML을 좋아하며 Gemini/Gemma는 JSON을 좋아합니다. (주로 사람마다 취향이 다르죠)

연구 결과를 읽은 후 일부 네티즌들은 다음과 같이 지적했습니다.구조화된 생성과 작업 추론의 균형의미:

형식 제한으로 인해 LLM의 추론 능력이 저하됩니다.

위에서 언급한 연구는 arXiv에 게재되었습니다. 이 논문은 주로 형식 제약 하에서 LLM의 추론 능력이 크게 떨어진다는 것을 보여줍니다.특히 JSON 모드에서는。

내내,LLM을 산업 응용 프로그램에 통합주요 장애물은 표준화된 출력 형식을 준수하지 않는다는 것입니다.

일반적인 솔루션은 형식 제약 조건을 통해 LLM이 JSON 또는 XML과 같은 표준화된 형식으로 출력을 제공할 수 있는 구조화된 생성입니다.

그러나 이러한 제한을 달성하는 방법에는 여러 가지가 있지만 후속 효과는 연구되지 않았습니다. (제한사항이 모델 성능에 영향을 미치나요?)

그냥 하세요, 연구자들은 채택합니다3가지 일반적인 방법다양한 형식 제한이 다운스트림 성능에 미치는 영향을 평가하려면 다음을 수행하십시오.

그런데 추가해야 할 게 있어요자연어(NL)는 가장 제한이 없는 형식이며 모델이 자연어로 질문에 자유롭게 답변할 수 있도록 해줍니다.

평가 대상은 GSM8K(자연어 환경의 수학적 문제 포함)와 Last Letter Concatenation(마지막 문자 연결 작업), 정확한 일치 답변이 필요한 두 개의 데이터 세트 및 Shuffled Objects(셔플된 개체 추적 작업)입니다.

그들은 느슨한 단서가 일반적으로 추론과 관련된 작업에서 더 나은 결과를 가져온다는 것을 발견했습니다.

동시에,JSON 스키마는 대부분의 경우 최악의 성능을 발휘합니다., FRI(형식 제한 지침), NL에서 형식으로(NL에서 형식으로) 변환, NL(자연어) 프롬프트가 이어집니다.

이 연구는 또한 다양한 LLM이 다양한 데이터 형식에 반응한다는 사실을 발견했습니다.다양한 선호도 표시。

예를 들어 GPT는 YAML 형식을 선호하고 Claude는 XML 형식을 선호하며 Gemini/Gemma는 JSON 형식을 선호합니다.

그러나 분류 작업에서는형식 제한으로 인해 정확도가 향상되었을 수 있습니다., 가능한 답변 선택을 줄여서 오류율을 낮추기 때문입니다.

그들은 또한 형식 제한으로 인해 모델 추론 기능이 저하될 수 있다는 결론을 내렸습니다.이유, 주로 다음을 포함합니다:

좋은 소식: 치료할 수 있습니다

이 문제에 대응하여 그들은 몇 가지 대책을 제안했습니다.

먼저 앞서 언급했듯이 JSON 모드는 대부분의 경우 최악의 성능을 발휘하며 마지막으로 자연어 대 형식(NL to Format) 변환을 수행합니다.

그렇다면 반대로,형식 제한을 해결하는 가장 좋은 솔루션은 NL to Format입니다.즉, LLM은 먼저 자연어로 질문에 답한 다음 답변을 대상 형식으로 변환합니다. 이 접근 방식을 사용하면 추론과 형식 준수를 분리하여 더 나은 성능을 얻을 수 있습니다.

또한 구조화된 출력키 순서LLM이 답변하는 방식에 중요한 영향을 미칩니다.

예를 들어, GPT-3.5 Turbo를 사용할 때 JSON 모드 응답의 100%가 "추론" 앞에 "답변" 키를 잘못 배치하여 모델이 사고 과정을 표시하는 대신 직접 답변을 제공하게 되었습니다.

연구에 따르면 형식 제한으로 인해구문 분석 오류성능 차이의 주된 이유는 아닙니다.

예를 들어 LLaMA 3 8B 모델에서 Last Letter 작업에 대한 JSON 형식 구문 분석 오류율은 0.15%에 불과하지만 자연어 응답과 비교하면 성능 격차가 38.15%에 이릅니다.

그리고 할 수 있다수정 팁을 통해 이러한 오류를 완화하세요예를 들어 Claude-3-Haiku 모델의 경우 Last Letter 작업에서 수정 단계를 통해 JSON 및 YAML 형식의 정확도가 각각 +2.8% 및 +44.8% 증가했습니다.

위의 내용은 LLM을 적용할 때 쉽게 구문 분석할 수 있는 형식과 고유한 추론 기능 유지 사이에서 균형을 찾아야 함을 의미합니다.

마지막으로 연구자들은 논문에서 다음과 같이 상기시켰습니다.

정규식과 비교하여 답변 파서로서의 LLM은 피상적인 패턴 일치에 국한되지 않고 답변의 의미와 맥락을 진정으로 이해할 수 있는 더 심층적이고 정확한 텍스트 이해를 제공할 수 있습니다.

소식