소식

가장 강력한 AI 프로그래머는 직업을 잃습니다. 그는 84초 만에 코드를 실행하고 인간처럼 생각합니다! 팀은 단 5명

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei의 서풍은 Aofei Temple에서 시작됩니다.
Qubits 공개 계정 QbitAI

데빈 이후 또 다른AI 소프트웨어 엔지니어화면이 스와이프되었습니다——

그것은 호출된다요정, 현재로 알려진표면적으로 가장 강한, 이미 인간처럼 생각하고 행동할 수 있습니다!



그렇다면 이것이 "표면상 가장 강하다"는 것은 얼마나 강한가?

먼저 살펴보겠습니다리뷰 점수

권위 있는 목록 SWE-Bench에서 Genie가 해결한 문제30.07%질문의 점수가 목록의 1위를 차지했습니다.

(SWE-Bench는 실제 소프트웨어 문제를 해결하기 위해 대규모 모델을 평가하는 데 사용되는 벤치마크입니다.)

이 결과는 2위보다 19.27%나 훨씬 앞선다고 할 수 있다.SOTA 개선 최대 증가율 - 57%!



지니의 경우실제 효과, 팀의 말에 따르면:

인간 엔지니어처럼 실제 소프트웨어 문제를 해결할 수 있습니다.

우선 Genie를 시작하는 방법에는 프롬프트 단어, GitHub 이슈, 선형 티켓 또는 API 등 4가지 방법을 사용할 수 있습니다.



GitHub 문제 해결을 예로 들어 먼저 Genie에게 저장소에 대한 링크를 제공하면 시작됩니다.문제 자동 해결갖다:



지니클럽자동적인 반복적 사고이 문제를 해결하려면 만족스러운 파일을 찾을 때까지 어떤 파일이 필요합니까?



그 직후에 다음 작업을 수행합니다.자동 반복 분석프로세스:



그러자 지니는 "휙, 휙, 휙"하기 시작했습니다.자동으로 코드 작성 + 실행갖다:





코드 실행 중 버그가 발생하면 Genie는 문제 영역에만 집중하여 분석하고, 코드를 작성하고, 실행될 때까지 실행하는 과정을 반복합니다.

전체 과정에는 시간이 걸립니다84초



팀의 말에 따르면:

Genie는 인간 프로그래머가 소프트웨어 문제를 어떻게 해결하는지 수백만 번 보고 배웠습니다.
이는 인간 프로그래머가 평생 달성할 수 없는 수치입니다.



하지만 더욱 의외인 것은 지니 뒤에 있는 팀──코사인, 단 5명

그리고 CEO Alistair도 OpenAI에 감사의 메시지를 올렸습니다.

당신 없이는 Genie를 만들 수 없습니다.



그렇다면 Cosine 팀은 Genie를 어떻게 구축했나요?

최강의 AI 엔지니어가 되려면?

Genie의 주요 특징은 인간 엔지니어의 인지 과정, 논리 및 작업 흐름을 모방하는 능력입니다.

이를 위해 지니팀은 지난 1년간 실제 인간 프로그래머들의 개발 활동이 담긴 데이터세트를 수집했다고 밝혔다.

결과 분석, 정적 분석, 자체 재생, 단계별 검증 및 기타 방법을 사용할 뿐만 아니라 대량의 레이블이 지정된 데이터를 기반으로 훈련된 AI 모델도 사용합니다. 이점은 기본 모델의 기능이 향상됨에 따라 추출할 수 있는 데이터의 품질도 향상된다는 것입니다.

마지막으로 지니훈련을 위해 이 독점 데이터를 사용하세요

완벽한 정보 추적, 점진적인 지식 발견, 소프트웨어 엔지니어의 실제 작업 사례를 기반으로 한 단계별 의사 결정 프로세스를 포함하여 인간 추론의 전체 프로세스가 데이터 세트에 인코딩됩니다.

Genie의 추론 과정에는 다음이 포함됩니다.계획, 검색, 코드 작성 및 코드 실행네 가지 주요 단계는 기본 모델 위에 웹 브라우저 및 코드 해석기와 같은 추가 도구를 추가하는 데 의존하는 다른 AI 엔지니어의 한계를 뛰어넘고 인간처럼 다양하고 상황에 따라 다르며 전례 없는 문제를 처리할 수 있습니다.



이 훈련 방법을 통해 네티즌들은 Karpathy가 이전에 제시한 유사한 아이디어를 즉시 떠올릴 수 있었습니다.

LLM의 경우 이상적인 교육 데이터는 작성하는 콘텐츠 자체가 아니라 작성 과정 중 완전한 사고 과정과 모든 편집 작업입니다. 그러나 우리는 우리가 가지고 있는 자원으로 최선을 다할 수 있을 뿐입니다.



또한 Genie 교육에서는 다음과 같은 내용도 소개합니다.자기 개선 메커니즘

초기 훈련 데이터는 대부분 정상적으로 실행될 수 있는 오류 없는 코드이므로 Genie가 오류 상황을 처리하기 어렵습니다. 이 문제를 해결하기 위해 팀은 Genie의 첫 번째 버전을 사용하여 오류가 포함된 합성 데이터를 생성한 후 이 데이터를 사용하여 모델의 다음 버전을 교육했습니다.

구체적으로, 해결책을 제안하기 위해 이전 버전의 Genie를 사용하고, 해결책이 잘못된 경우 마스터된 작업의 최종 상태를 사용하여 현재 상태에서 올바른 상태에 도달하도록 교육합니다.

이 과정을 반복하면 Genie가 제안한 초기 솔루션은 점점 더 정확해지며 대부분의 경우 직접 정답을 제공하고, 오류가 발생하더라도 데이터 세트에서 수정이 필요한 횟수가 줄어듭니다.



Genie의 기능을 향상시키는 또 다른 핵심은 OpenAI가 제공하는 대규모 모델 지원에 있습니다.

팀은 Genie를 처음 개발할 때 미세 조정을 위해 16-32k 범위의 짧은 컨텍스트 모델에만 액세스할 수 있었다고 밝혔습니다. 그들은 이러한 모델을 초기 개발에 많이 사용했으며 1억 개 이상의 토큰 데이터를 사용하여 학습했습니다. 그들은 설계된 아키텍처에 특정한 장점이 있지만 근본적으로 주어진 시간 내에 모델이 처리할 수 있는 정보의 양에 따라 제한된다는 점을 발견했습니다.

다양한 압축/청킹 방법을 시도한 후 유일한 해결책은 더 큰 컨텍스트를 가진 모델을 사용하는 것이었습니다.

OpenAI는 장기 컨텍스트 모델 지원을 제공하며 최신 버전의 Genie는 수십억 개의 토큰에 대해 훈련되었습니다.

팀은 하이퍼파라미터 조정 및 데이터 양에 비해 데이터 품질이 핵심이라고 믿습니다. 따라서 그들은 언어, 작업 유형, 작업 길이 등과 같은 다양한 차원을 포함하여 데이터 혼합에 대한 많은 실험도 수행했습니다. 다음은 Genie를 훈련하는 데 사용되는 다양한 프로그래밍 언어 데이터의 비율입니다.



다양한 유형의 인스턴스에 대한 데이터 비율도 있습니다.



단 5명으로 구성된 팀

위에서 언급했듯이 코사인의 스타트업 팀은 현재 5명 정도입니다.

공식 웹사이트의 소개에서 그들은 또한 다음과 같이 자신을 매우 직접적으로 설명합니다.

작지만 강력함.
작지만 강력합니다.



소개로 보면, 멤버 중에는 유니콘 기업 출신도 있고, 글로벌 팀을 관리한 경험이 있는 사람도 있고, 8살 때부터 프로그래밍을 시작한 사람도 있다.

하지만 코사인이 처음 설립되었을 때 그들의 목표는 세 명뿐이었습니다.인간의 추론을 이해하라



주목할 점은 팀원 중 한 명이 중국인이라는 점이다.양리는 Cosine의 공동 창립자이며 2021년 Forbes 30 under 30에 선정되었습니다.



또한 Genie 자체에 관해 Alistair CEO는 다음과 같이 말했습니다.

우리는 이르면 2022년부터 Genie를 구상하기 시작했지만 당시에는 기술적으로 실현 가능하지 않았습니다.
지니가 현실화되기 시작한 것은 지난 6개월 정도가 되어서야 대형 모델이 점차 성숙해지면서부터였습니다.



글쎄요, 빅 모델이 또 큰 공헌을 했다고 말씀드리고 싶습니다.

지니는 현재 대기자 명단에 신청할 수 있습니다. 관심 있는 친구들은 기사 마지막에 있는 링크를 클릭하세요~

대기자 명단 주소:
https://cosine.sh/register

참조 링크:
[1]https://x.com/alistairpullen/상태/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/최신기술
[4]https://x.com/알리스테어풀렌/상태/1823030874579120223
[5]https://x.com/yangli_