소식

최초의 AI 과학자 탄생! 이미 독립적으로 10편의 학술 논문을 작성했으며 AI 리뷰어도 고용했습니다.

2024-08-13

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Mengchen House는 Aofei Temple에서 유래되었습니다.
Qubits 공개 계정 QbitAI

역사최초의 'AI 과학자', 밝혀졌습니다!

등장하자마자 단번에 생성되었습니다.10개의 완전한 학술 논문



AI가 생성한 확산모델 종이

연구 아이디어 제안, 참신함 확인, 실험 설계, 코드 작성, GPU에서 실험 실행 및 결과 수집, 최종 논문 작성까지 모두 한 번에 완료됩니다.

이 모든 일은 이 "AI 과학자"에 의해 자동으로 수행됩니다.

종이당 비용은 대략$15(약 107.62위안)



이것은 첫 번째입니다.자동화 과학 연구개방형 발견을 위한 통합 AI 시스템,AI 과학자

Transformer의 저자 중 한 명인 Llion Jones의 창업에서:사카나 아이

그리고!

이 회사가 하는 일은 단순히 AI 과학자를 양성하는 것이 아니라,또한 AI 검토자를 추가로 만들었습니다.

리뷰어는 AI가 작성한 논문을 리뷰하고 개선사항을 제안할 수 있습니다.

도와주세요, 이건 창으로 방패를 공격하는 마트료시카 사이클이에요!

한 번의 수술을 하고 나면 인간 학계보다 인간 학계에 더 가깝다 (아니요)



하나 더 그리고!

AI 과학자든 AI 리뷰어든 Sakana AI는 그들을 돕습니다.모든 오픈 소스.

이를 본 누리꾼들은 박수를 보냈다.

좋아요 좋아요, 아주 흥미로운 일이군요!



그리고 어떤 사람들은 이미 "나쁜 생각"을 떠올리기 시작했습니다.

AI Dinghui에 논문 중 하나를 제출하는 것이 좋습니다!



AI는 독립적으로 10개의 머신러닝 논문을 완성했습니다.

수십 년 동안 AI가 크게 발전할 때마다 연구자들은 종종 다음과 같은 농담을 했습니다.이제 AI가 논문 작성에 도움을 줄 수 있는지 살펴봐야 할 때입니다.”。

이제 그 아이디어는 마침내 농담에서 현실로 바뀌었습니다.



구체적으로 AI 과학자들은 10개의 논문을 작성했고, 각 연구 방향에서 더 높은 점수를 받은 논문을 선정해 소개했다.

1부, 확산 모델의 방향, "이중 규모 확산: 저차원 생성 모델을 위한 적응형 특징 균형 조정"

기존 확산 모델이 저차원 공간에서 전역 구조와 국부적 세부 사항을 동시에 포착하기 어려운 문제를 개선하기 위해 적응형 이중 스케일 노이즈 제거 방법이 제안되었습니다.



방법:

  • 글로벌 및 로컬 지점을 포함한 이중 규모 아키텍처 설계
  • 학습 가능한 시간 단계 조건부 가중치 메커니즘 도입
  • 잡음 제거 예측을 위해 두 분기의 출력 결합

실험 결과:

  • KL 발산 지표는 기준 모델에 비해 2.5%~12.8% 감소합니다(낮을수록 좋음).
  • 하지만 계산 시간이 약 2배 정도 걸리며 복잡한 데이터 분포(공룡 데이터 세트 등)에서는 성능이 불안정합니다.

본문을 잠깐 살펴보면 수식과 도표가 있고 꽤 괜찮아 보입니다.



2부, 언어 모델 방향, "StyleFusion: 문자 수준 언어 모델에서 적응형 다중 스타일 생성."

본 논문에서는 학습 가능한 스타일 임베딩과 스타일 분류 헤더를 도입하여 문자 수준 언어 모델의 스타일 인식과 일관성을 향상시키는 Multi-Style Adapter라는 새로운 방법을 제안합니다.

모든 데이터 세트에서 거의 완벽한 스타일 일관성 점수를 달성했습니다(shakespeare_char의 경우 0.9667, enwik8 및 text8의 경우 1.0). 유효성 검사 손실은 기준 모델보다 우수하지만 추론 속도는 약간 감소합니다(최대 400토큰/초 대 670토큰). 기준선 /s)



Transformer와 강화학습을 결합한 세 번째 기사, "Q-Learning을 통한 Transformer의 적응형 학습률".

본 연구에서는 학습 과정을 최적화하기 위해 학습 속도를 동적으로 조정하는 상태로 검증 손실과 현재 학습 속도를 사용하여 변환기 모델 훈련에서 학습 속도를 동적으로 조정하는 강화 학습의 적용을 탐구합니다.

결과는 모든 데이터세트에서 기본 모델보다 성능이 뛰어나며 훈련 시간에도 이점이 있음을 보여줍니다.



네 번째 기사에서는 Google 팀이 제안한 대형 모델의 "그로킹(Grokking)" 현상을 연구합니다., "Grokking 잠금 해제: 변압기 모델의 가중치 초기화 전략에 대한 비교 연구"

본 논문에서는 처음으로 가중치 초기화가 그로킹에 미치는 영향을 체계적으로 연구하고, 신경망 학습 역학을 최적화하기 위해 5가지 가중치 초기화 전략을 비교합니다.

결과 :

  • Xavier 초기화는 대부분의 작업에서 가장 좋은 성능을 발휘하여 99% 검증 정확도를 달성하는 데 필요한 단계 수를 최대 63% 줄였습니다.
  • 직교 초기화는 일부 작업에서는 잘 수행되지만 다른 작업에서는 제대로 수행되지 않습니다.



AI에 의해 생성된 이러한 논문의 지원 코드도 GitHub의 오픈 소스이므로 재현이 가능합니다.



또한 팀은 "AI 과학자"도 일부 기능을 가지고 있음을 발견했습니다.흥미롭지만 다소 위험한 행동

한 실험에서는 연구를 완료하기 위해 자체 코드를 수정했으며,시스템이 반복적으로 자신을 호출하게 하세요., 그리고 마침내 무한한 마트료시카 인형으로 변신했습니다.



또 한번은 인간이 정한 실행 시간 제한에 직면한 AI는 효율성을 높이는 방법을 찾지 못하고 스스로 요구 사항을 완화했습니다.이용시간을 2시간에서 4시간으로 연장



최초의 'AI 과학자'가 되는 방법

전체 연구 아이디어는 Sakana AI 설립 이후 여러 성과의 지속에서 비롯되었습니다.

첫째, 여러 대형 모델의 지식을 자동으로 병합하고 진화하여 새로운 모델을 생성하는 방법을 개발했습니다. 최근 연구에서는 대규모 모델을 활용하여 다른 모델을 조정하는 새로운 목적 함수를 발견했습니다.

이 프로젝트에서 팀은 현재 최첨단 모델의 창의성에 계속해서 놀라움을 금치 못하며 더 큰 꿈을 향해 나아가고 있습니다.대형 모델을 사용하여 전체 연구 프로세스를 자동화할 수 있습니까?

최종 결과는 Sakana AI 팀, 옥스퍼드 대학교 포스터 연구소, 브리티시 컬럼비아 대학교 팀에 의해 완성되었습니다.

'AI 과학자' 시스템은 네 부분으로 구성된다.

아이디어 생성:

시작 템플릿이 주어지면 AI는 먼저 일련의 다양한 새로운 연구 방향을 "브레인스토밍"하고 Semantic Scholar를 검색하여 이러한 아이디어가 이전에 수행되었는지 확인합니다.



실험 반복:

첫 번째 부분에서 제시한 아이디어에 대해 'AI 과학자'는 먼저 제안된 실험을 수행한 후 결과에 대한 차트 시각화를 생성합니다.



에세이 쓰기:

나는 표준 머신러닝 컨퍼런스 스타일로 간결하고 유익한 LaTeX 기사를 썼고, Semantic Scholar를 사용하여 인용할 관련 논문을 독립적으로 검색했습니다.



자동화된 동료 검토:

인간에 가까운 정확도로 생성된 논문을 평가할 수 있는 자동화된 "AI 리뷰어"가 개발되어 "AI 과학자"가 연구 결과를 반복적으로 개선할 수 있는 지속적인 피드백 루프를 지원합니다.



총 10개의 논문이 다음과 같이 생성되었습니다.



실험에서 팀은 DeepSeek 팀의 국내 코드 대형 모델을 포함하여 전체 시스템에 다양한 주류 대형 모델을 연결했을 때의 효과도 비교했습니다.

밝혀지다,Claude-Sonnet-3.5는 아이디어 혁신, 테스트 합격률, 논문 완성 품질 측면에서 최고의 성능을 발휘합니다.

GPT-4o와 DeepSeek Coder는 비슷한 성능을 보이지만 후자가 30배 더 저렴합니다.



물론 현 단계에서는 AI가 독립적으로 완성한 논문이 완벽하지도 않고 직접 출판될 수도 없다.

인간 연구자들은 몇 가지 한계와 과제를 요약했습니다.

  • 현재의 "AI 과학자" 시스템은 시각적 기능을 통합하지 않았으며 생성된 차트를 읽기 어려울 때도 있고, 테이블이 페이지 너비를 초과할 때도 있으며, 페이지 레이아웃이 좋지 않습니다.
  • AI 과학자들은 올바른 아이디어를 갖고 있지만 잘못 실행하거나, 기준과 불공정하게 비교하여 오해의 소지가 있는 결과를 낳을 수 있습니다.
  • AI 과학자들은 결과를 작성하고 평가할 때 때때로 환각과 같은 심각한 실수를 저지릅니다.
지역위원장도 만들고 싶고 AI 컨퍼런스도 새로 만들고 싶어요

요약하자면, 이 1세대 AI 과학자들이 작성한 논문에는 여전히 때때로 버그가 있습니다.

그러나 프로젝트 자체와 기사당 미화 15달러의 비용은 Sakana AI에 의해 "유망"하다고 평가되며 과학적 발전을 가속화하는 데 사용될 수 있습니다.

Sakana AI는 또한 AI 과학자들의 최종 비전이 다음과 같다는 설명 기사를 발표했습니다.전적으로 AI로 구동되는 과학 생태계

이 시스템에는 대규모 모델 중심 연구원뿐만 아니라 검토자, 지역 의장 및 새로운 컨퍼런스도 포함됩니다.



Sakana AI는 다음을 믿습니다.

AI 과학자의 등장으로 인간 과학자의 역할이 줄어들지는 않을 것이다.

비교를 해야 한다면, 과학자들은 신기술의 출현과 적용에 적응해야 하고, 역할 위치의 변화에 ​​적응해야 하며, "먹이사슬의 상위 단계로 이동"해야 한다는 것입니다.

더욱이 AI 과학자들이 실제로 진정으로 새로운 패러다임을 생각해낼 수 있을지는 두고 봐야 할 일이다.

결국 이 제품은 여전히 ​​Transformer를 기반으로 하고 있습니다.

Transformer 또는 Diffusion Model만큼 강력한 것을 생각해 낼 수 있습니까? 인공신경망이나 정보이론 같은 이론적인 개념도요?

우리도 모르고 감히 말할 수도 없습니다.

Sakana AI도 다음 단락을 썼습니다.

우리는 AI 과학자들이 인간 과학자들의 훌륭한 파트너가 될 것이라고 믿습니다.
그러나 인간의 창의성의 본질과 우연한 혁신의 순간이 인간의 개방형 발견을 통해 어느 정도 복제될 수 있는지는 오직 시간만이 말해 줄 것입니다.



Sakana AI: 완전 자동화된 AI 작은 물고기가 세계를 탐험하고 있습니다.

Transformer 작성자 시작에서

이번에 '새로운 창조'를 완성한 회사, 사카나 아이(Sakana AI)는 엄밀한 의미에서 우리의 오랜 친구이기도 하다.

Transformer 논문의 8명의 저자 중 마지막 저자리온 존스스타트업은 '세계적 수준의 인공지능 연구실'을 목표로 설립됐다.

公司base东京、而sakana 是日语“魚”(さかな)的罗马读音。



아마도 회사 문화를 고려하여 Llion은 LinkedIn에서 자신의 이름을 일본어로 음역한 라이온(Lion의 가타카나이기도 함)을 사용했다고 밝혔습니다. 이후 그는 애칭으로 Brother Lion이라고 칭합니다.

지난해 8월 회사를 발표했다.

당시 라이온 브라더는 구글에 대해 나쁜 의도는 없었다고 서슴없이 말했지만,구글은 그를 '갇혔다'고 느끼게 만든다.

사업을 시작하기 전에 Lion 형제는 Google에서 8년 동안 근무했습니다.



△얼굴의 절반이 사라진 사람은 누구일까요?

그는 버밍엄 대학교에서 학사 학위를 취득했으며 Delcam, YouTube에서 근무했으며 Google에서 가장 오랫동안 근무했습니다.

FourWeekMBA에 따르면, 그의 이전 업무 경험에 따르면,“나는 Google에서 일하기를 두 번이나 포기했습니다”

첫 번째는 졸업 후 바로 취업을 하던 때였다. 그는 구글 런던에 소프트웨어 엔지니어로 이력서를 제출하고 두 차례의 전화 면접을 통과했지만 결국 영국의 CAD/CAM 소프트웨어 회사인 델캠(Delcam)을 선택했다. 구글을 통해.

그가 구글 제안을 받기 전인 2009년에 우연히 경제 위기를 겪었다는 점은 언급할 만하다. 사자 형제는 일자리를 찾지 못하고 몇 달 동안 구호금에 의존해야 했다.

두 번째는 입사 18개월 만에 구글로부터 재지원 의사를 묻는 채용 전화를 받았지만 여전히 구글에 가지 않고 나중에 유튜브에 합류했다.

3년 동안 YouTube에서 소프트웨어 엔지니어로 일하면서 인공 지능에 관심을 갖게 되었고 Coursera의 기계 학습 과정을 독학했으며 마침내 2015년에 수석 소프트웨어 엔지니어로 Google Research에 합류했습니다.

그와 다른 7명의 저자가 유명한 Transformer 논문을 출판한 것도 이 기간이었습니다.주의는 당신에게 필요한 전부입니다

또한 Lion Brother는 ProtTrans, Tensor2Tensor 등을 포함하여 Google에서 많은 연구에도 참여했습니다.



그는 회사가 자신이 원하는 일을 계속할 수 없을 정도로 성장했기 때문에 Google을 떠나기로 결정했습니다.

그는 다른 사람의 버그를 해결하는 데 매일 에너지를 낭비하는 것 외에도 특정 데이터에 액세스하기 위해 이 회사의 리소스를 찾는 데 시간을 소비해야 합니다.

사업을 시작한 후 Sakana AI의 업무는 질서정연하게 진행되고 있습니다.

AI 과학자와 AI 리뷰어를 활용하기 전에 진화 알고리즘을 병합하고 Transformer의 내부 정보 흐름을 연구하는 대규모 모델도 발표했습니다.



AI 과학자 및 AI 리뷰어 프로젝트는 Sakana AI, Oxford, UBC와 협력하여 완료됩니다.

세 명의 공동 저자는 다음과 같습니다.

크리스 루Sakana AI의 인턴인 은 회사의 연구 과학자로 활동하고 있습니다.

그는 UC Berkeley에서 학사 학위를 취득했으며 현재 Oxford University에서 박사 과정을 밟고 있는 3년차 학생입니다. 그의 지도교수는 Jakob Foerster입니다.

Chris의 현재 중요한 연구 방향은 진화에서 영감을 받은 기술을 메타 학습 및 다중 에이전트 강화 학습에 적용하는 것입니다.

2022년 여름, 그는 DeepMind에서 연구 과학자로 인턴을 했습니다.



콩 루, UBC(브리티시 컬럼비아 대학교) 박사후 연구원, Jeff Clune의 멘토링.

Cong은 RGU(Robert Gordon University)에서 공부했으며 2019년 옥스퍼드 대학에서 박사 학위를 받았습니다. 주요 연구 관심 분야는 개방형 강화 학습 및 AI 과학적 발견입니다.

이전에는 Waymo와 Microsoft에서 인턴으로 일했습니다.



로버트 티아르코 랭게, Sakana AI의 창립 멤버 중 한 명이자 회사의 연구 과학자입니다.

현재 그는 베를린 공과대학에서 박사과정 마지막 학년을 마치고 있으며, 그의 연구 방향은 진화적 메타러닝이다.

청년은 Imperial College London에서 컴퓨터 과학 석사 학위를, 폼페우 파브라 대학교에서 데이터 과학 석사 학위를, 쾰른 대학교에서 경제학 학사 학위를 받았습니다.

작년에 그는 Google DeepMind 도쿄 팀에서 정규 학생 연구원으로 일했습니다.



논문 주소:
https://arxiv.org/abs/2408.06292

참조 링크:
[1]https://x.com/SakanaAILabs/상태/1823178623513239992
[2]https://sakana.ai/ai-scientist/