소식

iPhone은 2B 소형 강철 대포를 발사할 수 있습니다!Google Gemma 2가 출시됩니다. 가장 강력한 현미경으로 LLM의 뇌를 해부할 수 있습니다.

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


새로운 지혜 보고서

편집자: 편집부

[새로운 지혜 소개] Google DeepMind의 소형 모델 핵폭탄이 여기 있습니다. Gemma 2 2B는 몇 배 더 큰 매개변수를 가진 GPT-3.5와 Mixtral 8x7B를 직접 격파했습니다! 동시에 출시된 젬마 스코프(Gemma Scope)는 LLM 블랙박스를 마치 현미경처럼 뚫고 들어가 젬마 2가 어떻게 의사결정을 하는지 명확하게 볼 수 있게 해준다.

Google DeepMind의 소형 모델이 다시 새로워졌습니다!

방금 Google DeepMind는 Gemma 2 2B를 출시했습니다.



Gemma 2 27B에서 증류됩니다.

매개변수는 2.6B에 불과하지만 LMSYS 경기장의 점수는 GPT-3.5 및 Mixtral 8x7B를 능가했습니다!


MMLU 및 MBPP 벤치마크에서는 각각 56.1, 36.6이라는 우수한 결과를 얻었으며, 이전 모델인 Gemma 1 2B보다 성능이 10% 이상 뛰어났습니다.

소형 모델이 몇 자릿수 더 큰 대형 모델을 제치고 최근 업계가 매우 낙관하고 있는 소형 모델의 방향성을 다시 한번 확인시켜 주었다.


오늘 Google은 Gemma 2 제품군의 총 3가지 새로운 구성원을 발표했습니다.

  • 제마 2 2B:경량 2B 모델은 성능과 효율성 사이의 최고의 균형을 달성합니다.

  • 쉴드젬마:사용자 안전을 보장하기 위해 AI 모델의 입력과 출력을 필터링하기 위해 Gemma 2를 기반으로 구축된 보안 콘텐츠 분류 모델

  • 제마 스코프:모델의 내부 작동에 대한 탁월한 통찰력을 제공하는 해석 도구

6월에는 27B와 9B Gemma 2 모델이 탄생했습니다.

27B 모델은 출시 이후 대형 모델 순위에서 빠르게 상위 오픈 소스 모델 중 하나로 자리 잡았으며, 실제 대화에서 매개 변수 수가 두 배로 인기 모델을 능가하기도 했습니다.


Gemma 2 2B: 장치에서 즉시 사용 가능

경량 소형 모델인 Gemma 2 2B는 대형 모델을 증류한 것으로 성능이 뒤떨어지지 않습니다.

대형 모델 분야 LMSYS에서 새 모델은 1130이라는 인상적인 점수를 획득했는데, 이는 매개변수가 10배인 모델과 동등한 수준입니다.

GPT-3.5-Turbo-0613은 1117점을 얻었고 Mixtral-8x7b는 1114점을 얻었습니다.


이는 Gemma 2 2B가 최고의 엔드 투 사이드 모델임을 보여줍니다.


일부 네티즌들은 양자화된 Gemma 2 2B를 iPhone 15 Pro의 MLX Swift에서 실행했는데 속도가 놀라울 정도로 빨랐습니다.



특히 Vertex AI와 Google Kubernetes Engine(GKE)을 사용하여 휴대전화, 노트북은 물론 강력한 클라우드까지 다양한 단말 장치에 배포할 수 있습니다.

모델을 가속화하기 위해 NVIDIA NIM 플랫폼에서도 사용할 수 있는 NVIDIA TensorRT-LLM을 통해 최적화되었습니다.


최적화된 모델은 데이터 센터, 클라우드, 온프레미스 워크스테이션, PC 및 에지 장치를 포함한 다양한 플랫폼 배포에서 작동합니다.

또한 RTX, RTX GPU 및 Jetson 모듈을 지원하여 한계 AI 배포를 완료할 수도 있습니다.

또한 Gemma 2 2B는 Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp 등을 원활하게 통합하며 곧 MediaPipe와 통합되어 개발을 단순화할 예정입니다.


물론 Gemma 2와 마찬가지로 2B 모델도 연구 및 상업용으로 사용할 수 있습니다.

심지어 매개변수 볼륨이 충분히 낮기 때문에 Google Colab의 무료 T4 GPU 레이어에서 실행될 수 있어 개발 임계값이 낮아집니다.

현재 모든 개발자는 Kaggle, Hugging Face 및 Vertex AI Model Garden에서 Gemma 2의 모델 가중치를 다운로드할 수 있으며 Google AI Studio에서 해당 기능을 시험해 볼 수도 있습니다.


창고 주소: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: 최첨단 보안 분류기

이름에서 알 수 있듯이 ShieldGemma는 AI 출력 콘텐츠가 매력적이고 안전하며 포괄적인지 확인하고 유해한 콘텐츠 출력을 감지하고 줄이는 가장 진보된 보안 분류자입니다.

ShieldGemma는 특히 다음과 같은 네 가지 주요 유해 영역을 표적으로 삼도록 설계되었습니다.

- 연설을 증오

- 괴롭힘 콘텐츠

- 노골적인 콘텐츠

- 위험한 콘텐츠


이러한 오픈소스 분류자는 Responsible AI 툴킷에 있는 Google의 기존 안전 분류자 제품군을 보완합니다.

이 툴킷에는 제한된 데이터 포인트를 기반으로 정책별 분류자를 구축하는 방법과 API를 통해 제공되는 기성 Google Cloud 분류자가 포함되어 있습니다.

ShieldGemma는 업계 최고의 보안 분류기인 Gemma 2를 기반으로 구축되었습니다.

2B, 9B, 27B를 포함한 다양한 모델 매개변수 크기를 제공하며, 모두 NVIDIA 속도에 최적화되어 있으며 다양한 하드웨어에서 효율적으로 실행할 수 있습니다.

그중 2B는 온라인 분류 작업에 매우 적합한 반면, 버전 9B 및 27B는 대기 시간 요구 사항이 더 낮은 오프라인 애플리케이션에 더 높은 성능을 제공합니다.


Gemma Scope: 오픈 소스 스파스 오토인코더를 통해 AI 의사결정 프로세스 공개

동시에 출시된 또 다른 하이라이트는 오픈소스 스파스 오토인코더인 Gemma Scope입니다.

언어 모델 내부에서는 무슨 일이 일어나고 있나요? 이 문제는 오랫동안 연구자와 개발자를 당황하게 했습니다.

언어 모델의 내부 작동 방식은 종종 이를 훈련하는 연구자에게도 미스터리입니다.


Gemma Scope는 SAE(Sparse Autoencoder)를 통해 모델의 특정 지점을 확대하여 모델의 내부 작동을 더 쉽게 해석하는 강력한 현미경과 같습니다.

Gemma Scope를 사용하면 연구원과 개발자는 Gemma 2 모델의 의사 결정 프로세스에 대한 전례 없는 투명성을 얻을 수 있습니다.

Gemma Scope는 Gemma 2 9B 및 Gemma 2 2B를 위한 수백 개의 무료 개방형 SAE(스파스 오토인코더) 모음입니다.

이러한 SAE는 Gemma 2에서 처리된 조밀하고 복잡한 정보를 해석하고 이를 더 쉽게 분석하고 이해할 수 있는 형식으로 확장하는 데 도움이 되도록 특별히 설계된 신경망입니다.

이러한 확장된 관점을 연구함으로써 연구자들은 Gemma 2가 패턴을 인식하고, 정보를 처리하고, 예측하는 방법에 대한 귀중한 정보를 얻을 수 있습니다.

Gemma Scope를 사용하면 AI 커뮤니티는 더 이해하기 쉽고 책임감 있고 신뢰할 수 있는 AI 시스템을 더 쉽게 구축할 수 있습니다.

동시에 Google DeepMind는 20페이지 분량의 기술 보고서도 발표했습니다.


기술 보고서: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

요약하면 Gemma Scope에는 다음과 같은 세 가지 혁신이 있습니다.

  • 오픈 소스 SAE: Gemma 2 2B 및 9B의 모든 계층을 포괄하는 400개 이상의 무료로 사용 가능한 SAE

  • 대화형 데모: 코드를 작성하지 않고도 Neuronpedia에서 SAE 기능을 탐색하고 모델 동작을 분석합니다.

  • 사용하기 쉬운 리소스 라이브러리: SAE 및 Gemma 2와 상호 작용하기 위한 코드 및 예제 제공

언어 모델의 내부 작동 해석

언어 모델의 해석성 문제가 왜 그렇게 어려운가요?

이는 LLM의 운영 원리에서 시작됩니다.

LLM에 질문을 하면 텍스트 입력이 일련의 "활성화"로 변환됩니다. 이러한 활성화는 입력한 단어 간의 관계를 매핑하여 모델이 서로 다른 단어를 연결하고 그에 따라 답변을 생성하도록 돕습니다.

모델이 텍스트 입력을 처리함에 따라 모델의 신경망에서 다양한 계층의 활성화는 "기능"이라고 하는 점진적으로 더 높은 수준의 여러 개념을 나타냅니다.


예를 들어, 모델의 초기 레이어에서는 조던이 농구를 하는 것과 같은 사실을 학습할 수 있고, 이후 레이어에서는 텍스트의 신뢰성과 같은 더 복잡한 개념을 식별할 수 있습니다.


희소 자동 인코더를 사용하여 모델 활성화를 해석하는 예 - 모델이 "빛의 도시는 파리"라는 사실을 어떻게 기억하는지.프랑스어와 관련된 개념은 존재하지만, 관련되지 않은 개념은 존재하지 않는다고 볼 수 있다

그러나 해석 가능성 연구자들은 모델 활성화가 다양한 기능의 혼합이라는 중요한 문제에 직면해 있습니다.

연구 초기 단계에서 연구자들은 신경망 활성화의 특징이 개별 뉴런 또는 정보 노드와 정렬될 수 있기를 바랐습니다.

그러나 불행하게도 실제로 뉴런은 관련 없는 많은 기능에 대해 활성화됩니다.

즉, 어떤 기능이 활성화의 일부인지 알 수 있는 명확한 방법이 없습니다.

이것이 바로 희소 오토인코더가 필요한 곳입니다.

언어 모델이 수백만 또는 심지어 수십억 개의 기능을 감지할 수 있더라도 특정 활성화는 단지 몇 가지 기능의 혼합일 뿐이라는 점에 유의하세요(즉, 모델은 기능을 드물게 사용함).

예를 들어, 언어 모델은 아인슈타인에 관한 질문에 답할 때 상대성을 생각할 수 있지만 오믈렛에 대해 쓸 때는 상대성을 생각하지 않을 수 있습니다.


희소 자동 인코더는 이 사실을 활용하여 일련의 잠재 기능을 발견하고 각 활성화를 소수의 기능으로 분해합니다.

연구자들은 희소 자동 인코더가 이 작업을 수행하는 가장 좋은 방법은 언어 모델이 실제로 사용하는 필수 기능을 찾는 것이라고 희망합니다.

중요한 것은 이 과정에서 연구원들이 희소 오토인코더에게 어떤 기능을 찾아야 하는지 알려주지 않았다는 것입니다.

그 결과 이전에는 예상하지 못했던 풍부한 구조를 발견할 수 있었습니다.


그러나 발견된 기능의 정확한 의미를 즉시 알 수 없기 때문에 스파스 오토인코더가 기능을 "트리거링"하는 것으로 간주하는 텍스트 예제에서 의미 있는 패턴을 찾습니다.


다음은 기능에 의해 트리거된 토큰이 기능 트리거의 강도에 따라 파란색 그라데이션으로 강조 표시되는 예입니다.


희소 자동 인코더를 사용하여 기능 활성화를 검색하는 예입니다. 각 거품은 토큰(단어 또는 단어 조각)을 나타내며 변수 파란색은 이 기능의 강점을 나타냅니다.이 경우 해당 기능은 관용구와 명확하게 관련되어 있습니다.

Gemma Scope의 독특한 점은 무엇입니까?

이전 희소 자동 인코더와 비교하여 Gemma Scope에는 많은 고유한 기능이 있습니다.

전자는 주로 작은 모델이나 큰 모델의 단일 레이어의 내부 작동을 연구하는 데 중점을 둡니다.


그러나 해석 가능성 연구에 더 깊이 들어가고 싶다면 대규모 모델에서 계층화된 복잡한 알고리즘을 디코딩하는 것이 포함됩니다.

이번에 Google DeepMind의 연구원들은 Gemma 2 2B 및 9B의 각 레이어와 하위 레이어의 출력에 대해 희소 자동 인코더를 교육했습니다.

이러한 방식으로 구성된 Gemma Scope는 총 400개 이상의 희소 자동 인코더를 생성하고 3천만 개 이상의 특징을 얻었습니다(많은 특징이 중복될 수 있음).

이를 통해 연구자는 모델 전체에서 기능이 어떻게 진화하는지, 그리고 기능이 어떻게 상호 작용하고 결합하여 보다 복잡한 기능을 형성하는지 연구할 수 있습니다.

또한 Gemma Scope는 최신의 최첨단 JumpReLU SAE 아키텍처를 사용하여 교육되었습니다.

원래의 희소 오토인코더 아키텍처는 특징 존재 감지와 강도 추정이라는 두 가지 목표 사이에서 균형이 어려운 경우가 많습니다. JumpReLU 아키텍처는 둘 사이의 균형을 보다 쉽게 ​​달성하고 오류를 크게 줄일 수 있습니다.


물론 너무 많은 희소 자동 인코더를 교육하는 것도 중요한 엔지니어링 과제이며 많은 컴퓨팅 리소스가 필요합니다.

이 프로세스에서 연구원들은 Gemma 2 9B 훈련 계산의 약 15%(증류 라벨 생성에 필요한 계산 제외)를 사용하고 약 20PiB의 활성화를 디스크에 저장했습니다(대략 영어 Wiki Encyclopedia 콘텐츠의 100만 복사본에 해당). , 총 수천억 개의 희소 자동 인코더 매개변수를 생성합니다.

참고자료:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/