오픈 소스 대형 모델의 새로운 왕은 gpt4o를 뒤집었고 새로운 기술은 자체 수정이 가능하며 mathematics 99.2는 테스트 세트를 최대한 활용했습니다.

2024-09-06

서풍은 아오페이사에서 불어온다
qubits 공개 계정 qbitai

오픈 소스 대형 모델의 왕좌는 갑자기 손이 바뀌었고 소규모 기업가 팀에서 탄생하여 즉시 업계를 폭발시켰습니다.

새로운 모델의 이름은반사 70b, ai가 추론 과정에서 자체 오류와 환상을 수정하는 방법을 배울 수 있도록 새로운 훈련 기술을 사용합니다.

예를 들어 최근 인기를 끌고 있는 디지털 r 테스트에서는 처음에는 대부분의 모델과 동일한 실수를 저질렀지만,<반사> 태그종은 스스로를 정정했다.

공식 평가에서 70b 모델은 가장 강력한 오픈소스인 llama 3.1 405b, gpt-4o, claude 3 opus, gemini 1.5 pro를 종합적으로 능가했습니다. 특히 수학 벤치마크인 gsm8k를 직접적으로 능가했습니다.99.2% 득점。

이 결과는 openai 과학자이자 포커 ai의 아버지인 noam brown이 열정적으로 마이크를 열게 만들었습니다.

gsm8k 점수 99%! 이 벤치마크를 공식적으로 단계적으로 폐지할 수 있나요?

해당 모델이 온라인에 올라오자마자 네티즌들은 체험판에 열광했고, 메타 역시 더 많은 컴퓨팅 파워를 적극적으로 지원했다.

네티즌 테스트에서 reflection 70b는 gsm8k 데이터 세트에 대해 잘못된 답변이 있는 질문에 답할 수 있습니다.

나는 본질적으로 잘못된 gsm8k에 존재하는 모델 5 "ground_truth" 문제를 입력했습니다.
모델이 데이터 세트에서 잘못된 답을 반복하는 대신 모든 답을 얻었습니다. 이는 인상적입니다.99.2%의 정확도는 테스트 세트를 암기하는 데서 나오는 것이 아님을 보여줍니다.！

모든 종류의 r을 세는 것은 쉽습니다.창조된 단어"drirrrrngrrrrnnnn"의 여러 r도 올바르게 계산될 수 있습니다.

소규모 팀이 만든 오픈소스가 이제 가장 강력한 오픈소스 모델을 로컬에서 실행할 수 있게 됐다는 사실에 네티즌들은 놀랐다.

키 70b는 시작일 뿐이라고 관계자들은 더 큰 키가 다음 주에 출시될 것이라고 말했습니다.반사 405b。

405b 성능은 sonnet 및 gpt-4o보다 훨씬 뛰어날 것으로 예상됩니다.

reflection 70b 가중치가 공개되었으며 api 액세스는 오늘 후반에 hyperbolic labs에서 제공될 예정입니다.

모델은 오류를 자체적으로 반영하고 수정할 수 있습니다.

현재 reflection 70b에 대해 사용할 수 있는 자세한 내용은 다음과 같습니다.

reflection 70b의 기능을 향상시키는 핵심은 다음과 같은 방법을 사용하는 것입니다.반사 튜닝모델이 생성한 텍스트를 반영하여 응답을 마무리하기 전에 자체 추론에서 오류를 감지하고 수정할 수 있도록 하는 훈련 방법입니다.

훈련 데이터는 glaiveai 플랫폼을 사용하여 생성된 합성 데이터에서 나옵니다.

reflection 70b는 llama 3.1 70b instruct를 기반으로 하며 다른 llama 모델과 동일한 코드, 파이프라인 등을 사용하여 reflection llama-3.1 70b에서 샘플링할 수 있습니다.

표준 llama 3.1 채팅 형식도 사용합니다.

그러나 reflection 70b는 몇 가지를 소개합니다.특수 토큰, 구조화된 출력 프로세스.

다음 예에서 볼 수 있듯이 계획 프로세스를 별도의 단계로 나누면 cot 효과를 향상시키고 출력을 정제된 상태로 유지할 수 있습니다.

모델 출신은 다음과 같습니다.<thinking> 그리고</thinking> 레이블 내 출력 추론이 시작되고, 추론에 만족하면<output> 그리고</output> 최종 답변은 라벨에 출력됩니다.

그래서 내부 사고와 추론을 최종 답변과 분리할 수 있습니다.

존재하다<thinking> 섹션에서 모델은 하나 이상의 결과를 출력할 수 있습니다.<reflection>상표, 이는 모델이 추론에서 오류를 발견했으며 최종 답을 제공하기 전에 이를 수정하려고 시도함을 나타냅니다.

시스템은 다음과 같은 메시지를 표시합니다.

당신은 복잡한 추론과 반성을 할 수 있는 세계적 수준의 ai 시스템입니다. 태그 내부의 쿼리를 통해 추론한 다음, 태그 내부에 최종 응답을 제공합니다.
태그. 추론에서 실수를 했다는 것을 감지하면 언제든지 태그 안에서 수정하세요.
(당신은 복잡한 추론과 반성이 가능한 세계 최고 수준의 인공지능 시스템입니다. 태그 내 쿼리에 대한 추론, 그리고
태그 내에 최종 응답을 제공하세요. 어느 시점에서든 자신의 추론이 잘못된 것을 발견하면 라벨 내에서 자신을 수정하세요. )

벤치마크 테스트에서 모든 벤치마크는 오염 여부를 확인하고 lmsys의 llm decontaminator로 격리했다는 점도 언급할 가치가 있습니다.<output> 섹션을 선택하고 이 섹션만 테스트하세요.

reflection 70b를 사용할 때 관계자는 몇 가지 팁도 공유했습니다.

처음에는 매개변수 온도가 .7이고 top_p가 .95인 것이 좋습니다.
정확성을 높이려면 프롬프트 끝에 "신중하게 생각하세요"를 추가하는 것이 가장 좋습니다.

관계자들도 말했다.다음 주에 보고서가 발표될 예정입니다, 모델 학습 과정 및 결과를 자세히 설명합니다.

에이전트 기업가 팀이 만들었습니다.

reflection 70b 뒤에는 hyperwriteai의 ceo가 이끄는 소규모 팀이 있습니다. 머트 슈머선두.

linkedin에 따르면 mutt shumer는 미국 시러큐스 대학을 졸업한 연쇄 창업가이며 현재 othersideai의 공동 창립자이자 ceo입니다.

othersideai는 대규모 ai 시스템을 통해 세계 최고 수준의 자동 완성 도구를 개발하는 데 주력하는 ai 애플리케이션 회사이기도 합니다.

hyperwrite는 google chrome을 사람처럼 작동하여 피자 주문과 같은 일련의 작업을 완료할 수 있는 브라우저 작업 에이전트입니다.

gpt-llm-trainer와 마찬가지로 목표를 텍스트로 설명하기만 하면 단계를 나열하면서 실행됩니다.

처음 출시되었을 때 "autogpt보다 낫다"고 주장되었습니다.

hyperwrite는 google 확장 프로그램으로 설치할 수도 있습니다.

또한 mutt shumer는 고등학교 때 visos를 설립했으며 의료 목적을 위한 차세대 가상 현실 소프트웨어 개발에 전념하고 있습니다.

또한 고성능 제품을 만들고 이를 공정한 가격에 판매함으로써 스포츠 용품 산업에 변화를 가져오는 것을 목표로 하는 회사인 furi를 설립했습니다.

메타 지원이 있지만 평가판은 현재 열려 있지만 여전히 일시적으로 액세스할 수 없습니다.

어린이 신발에 관심이 있으신 분들은 먼저 주문하시면 됩니다~

https://reflection-playground-production.up.railway.app/

참조 링크:
[1]https://huggingface.co/mattshumer/리플렉션-라마-3.1-70b
[2]https://x.com/mattshumer_/상태/1831767014341538166
[3]https://x.com/polynoamial/상태/1831798985528635806
[4]https://x.com/degeneratoor/상태/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

소식

오픈 소스 대형 모델의 새로운 왕은 gpt4o를 뒤집었고 새로운 기술은 자체 수정이 가능하며 mathematics 99.2는 테스트 세트를 최대한 활용했습니다.

모델은 오류를 자체적으로 반영하고 수정할 수 있습니다.

에이전트 기업가 팀이 만들었습니다.

소개

내 연락처 정보