소식

OpenAI의 Q*는 이전에는 볼 수 없었지만, 수많은 스타트업 기업의 Q*가 여기에 있습니다.

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


천천히 생각하는 AI와 우리는 얼마나 멀리 떨어져 있을까?

저자|스테파니 팔라졸로

완 첸 |

편집자|징위

지난해 샘 알트먼(Sam Altman)이 임시 해고되기 전후에 OpenAI 연구진은 이사회에 공동 서한을 보내 코드명 Q라는 신비한 프로젝트가 전 인류를 위협할 수 있다고 지적했다. OpenAI는 직원들에게 보낸 후속 내부 서한에서 Q*를 인정하고 이 프로젝트를 "초인적 자율 시스템"이라고 설명했습니다.

Q*는 아직 모습을 드러내지 않았지만 세상에는 늘 소문이 돌고 있다.

Google DeepMind의 수석 엔지니어인 Lu Yifeng은 전문적인 관점에서 Geek Park에게 다음과 같이 추측한 적이 있습니다. 모델은 자신이 확신하지 못하는 문제가 무엇인지, 다음에 무엇을 해야 하는지 깨달아야 합니다. 이때 모델은 인터넷을 서핑하고, 책을 읽고, 실험을 하고, 설명할 수 없는 아이디어를 생각하고, 인간과 같은 다른 사람들과 토론해야 할 수도 있습니다.

올해는 주요 모델 제조사의 AI 보조 앱에 질문을 했을 때 지난해보다 답변의 신뢰도가 높아진 것을 느낄 수 있었다. 그들의 추론 능력. 현재까지 진행 상황은 어떻습니까?

위 문제에 대해 더 인포메이션(The Information) 기자 스테파니 팔라졸로(Stephanie Palazzolo)는 "OpenAI의 소규모 경쟁자들이 '이유'라는 자체 AI를 개발하는 방법"이라는 기사에서 모델 추론 능력을 향상시키기 위한 중국 기업 Q*를 비롯한 기존 스타트업 기업의 모델에 대해 논의했습니다. 긱박(Geek Park)이 주최한 행사는 다음과 같습니다.

01

OpenAI의 소규모 경쟁자

자신만의 "추론" AI 개발

버블을 제외하면 이번 AI 물결이 얼마나 유용한가는 올해도 반복적으로 주목받는 주제다.

대형 모델의 원리는 확률 예측을 바탕으로 단어 단위를 하나씩 생성하는 것이지만, 훈련 중에 공급된 코퍼스를 기반으로 단어를 앵무새처럼 만들고, 이전에 본 적이 없는 질문에 직면했을 때 환각을 만드는 것은 분명히 모든 사람이 하는 것은 아닙니다. 기대합니다. 모델의 추론 능력을 더욱 향상시키는 것이 핵심이 되었습니다.

이와 관련하여 OpenAI와 Google에서는 아직 진전을 볼 수 없지만 일부 스타트업과 개인은 AI 추론 기능의 일부 형태를 달성하기 위해 몇 가지 "저렴한" 방법(저렴한 해킹)을 생각해 냈다고 말합니다.

이러한 지름길에는 복잡한 문제를 간단한 단계로 나누고 모델이 해당 단계를 분석하는 데 도움이 되는 수십 가지 추가 질문을 하는 것이 포함됩니다.

예를 들어, 신제품에 대한 블로그 게시물 초안을 작성하라는 요청을 받으면 AI 애플리케이션은 대형 모델에 답변과 개선 영역을 평가하도록 요청하는 등 추가 쿼리를 자동으로 트리거합니다. 물론 사용자 인터페이스에서는 모델이 백그라운드에서 수행하는 이러한 작업을 볼 수 없습니다.

이는 학생들에게 자신의 신념이나 주장에 대해 비판적으로 생각하도록 가르치는 소크라테스식 방법과 유사합니다. 후자는 질의응답 교수법을 채택하고 있는데, 소크라테스는 학생들과 직접적으로 답을 주고받는 것이 아니라, 학생들이 스스로 문제를 발견하고 끊임없이 질문함으로써 그들의 견해에 있는 모순과 결함을 드러내도록 지도한다. , 그리고 점차적으로 수정하여 올바른 결론을 도출합니다.

이 링크를 통해 AI 애플리케이션은 대형 모델에 위의 블로그 게시물을 작성할 때 방금 제공한 피드백을 고려하여 다시 작성하도록 요청할 수 있습니다. 이 과정을 흔히 성찰이라고 부르는데, 한 AI 응용 기업가는 이것이 종종 더 나은 결과로 이어진다고 말했습니다.

반성적 접근 방식 외에도 개발자는 Google을 팔로우하고 다음을 시도해 볼 수도 있습니다. 샘플링이라는 기술. 샘플링 중에 개발자는 동일한 질문을 수십 번, 심지어 100번까지 질문한 다음 최상의 답변을 선택함으로써 창의적이고 무작위적인 답변을 생성하는 대규모 모델의 능력을 향상시킵니다.

예를 들어 프로그래밍 도우미 앱은 대규모 모델에 동일한 질문에 대해 100개의 서로 다른 답변을 제공하도록 요청할 수 있으며, 그런 다음 앱은 이러한 코드 조각을 모두 실행합니다. 최종 프로그래밍 도우미 앱은 정답을 생성하는 코드를 선택하고 가장 간결한 코드를 자동으로 선택합니다.

Meta는 최근 Llama 3 논문에서 몇 가지 유사한 기술을 강조했습니다.

그러나 대규모 언어 모델을 100번 호출하거나 그만큼의 텍스트와 코드를 출력하도록 요청하는 이 해결 방법은 매우 느리고 비용이 많이 듭니다. 이것이 아마도 일부 개발자가 이러한 기술을 사용하는 스타트업인 Cognition이 만든 프로그래밍 도우미의 성능이 느리다고 비판한 이유일 것입니다.

개발자들도 이 문제를 보고 해결하려고 노력하고 있습니다.방법은특정 문제에 대해 좋은 추론 능력을 보여주는 모델의 예를 선택하고 이를 모델에 다시 "피드"합니다.훈련 데이터이 문제를 해결하는 데 집중하세요. 한 기업가가 말했듯이 이러한 접근 방식은 초등학교에서 구구단을 배우는 것과 유사합니다. 처음에는 학생들이 각 곱셈 문제를 수동으로 계산해야 할 수도 있습니다. 그러나 시간이 지남에 따라 구구단을 외우면 답이 거의 학생의 직관의 일부가 됩니다.

이런 종류의 AI를 개발하려면 개발자는 대형 모델을 제어해야 합니다. 하지만 OpenAI나 Anthropic의 폐쇄형 소스 모델에서는 제어감을 얻기가 어렵기 때문에 Llama 3와 같은 개방형 가중치 모델을 사용할 가능성이 더 높습니다. 개방성 정도).

위의 두 가지 방법은 OpenAI의 획기적인 추론 뒤에 사용되는 기술일 수 있습니다. 물론 OpenAI는 아직 "Strawberry" 프로젝트라고도 알려진 Q*를 출시하지 않았습니다.

02

중국의 Q*

중국 개발자와 연구원들도 점차적으로 이러한 기술을 습득하고 있습니다.

중국 스카이워크 AI와 난양기술대학 연구진은 올해 6월 이 문제에 대한 논문을 발표했다. 이 기사에서 그들은 이전에 본 적이 없는 OpenAI 버전을 기리기 위해 기술 이름을 Q*로 지정했습니다.

중국의 Q* 기술을 사용하면 대형 모델이 복잡한 논리 퍼즐과 같은 여러 단계의 문제를 해결할 수 있습니다.

방법은결론에 도달하기 위한 단계를 따르기보다는 대형 모델이 시도해야 할 최선의 다음 단계에 대해 답변의 각 단계에서 "검색"함으로써(이 방법은 몬테카를로 트리 검색이라고도 알려져 있으며 이전에 Google AlphaGo에서 사용되었습니다) . 이는 대형 모델이 가능한 각 다음 단계의 미래 보상 또는 최종 답변이 정확할 가능성을 추정하는 데 도움이 되는 Q-값 모델이라는 특수 방정식을 통해 수행됩니다.

연구원들은 올 가을에 이 기술을 공개적으로 공개할 계획이라고 말했습니다.

지능형 에이전트 스타트업인 Minion AI의 CEO이자 GitHub Copilot의 전 수석 설계자인 Alex Graveley는 여전히 노력하고 있다고 말했습니다. 뭔가 잘못되었다는 사실을 깨닫게 되면 한 단계 뒤로 돌아가도록 언어 모델을 가르치세요.그는 대규모 모델이 잘못된 답변을 생성하거나 중간 단계를 반영하도록 요청받을 때 이러한 인식이 발생할 수 있다고 주장합니다(위 블로그 게시물의 예와 유사)., 실수가 있었다는 것을 깨달았습니다.

지난 3월 스탠포드 대학과 Notbad AI가 발표한 'Quiet-STaR' 논문을 포함해 업계에서는 더 많은 시도가 있다. 인간이 말하거나 쓰기 전에 자신의 생각에 대해 잠시 생각하는 것처럼, 이 문서에서는 복잡한 추론 문제에서 더 나은 결정을 내리는 데 도움이 되는 내부 "사고" 단계에 대한 정보를 생성하도록 대규모 언어 모델을 가르치는 방법을 설명합니다.

OpenAI의 Q*/Strawberry 기술은 앞서 나갈 수 있지만 다른 모든 사람들이 따라잡기 위해 경쟁하고 있는 것 같습니다.

*머리 이미지 출처: GulfNews

괴짜가 물었다

우리가 멀리 떨어져 있다고 생각하나요?

'느린 사고'가 가능한 AI는 어디까지?

iOS 18.1 베타 통화 녹음의 실제 측정, Android 휴대폰에서는 계속 녹음 메시지를 받을 수 있습니다.

좋아요와 팔로우Geek Park 비디오 계정