2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
2024년인데 아직 Transformer가 어떻게 작동하는지 이해하지 못하는 사람이 있나요? 와서 이 대화형 도구를 사용해 보십시오.
2017년 구글은 "Attention is all you need"라는 논문에서 Transformer를 제안했는데, 이는 딥러닝 분야에서 획기적인 발전이 되었습니다. 이 논문의 인용 횟수는 거의 130,000회에 달합니다. GPT 제품군의 모든 후속 모델도 Transformer 아키텍처를 기반으로 하며 이는 광범위한 영향력을 보여줍니다.
신경망 아키텍처로서 Transformer는 텍스트부터 비전까지 다양한 작업, 특히 현재 뜨거운 분야인 AI 챗봇에서 인기가 높습니다.
그러나 많은 비전문가의 경우 Transformer의 내부 작동이 불투명하여 이해와 참여를 방해합니다. 따라서 이 아키텍처를 명확하게 설명하는 것이 특히 필요합니다. 그러나 많은 블로그, 비디오 튜토리얼 및 3D 시각화에서는 수학과 모델 구현의 복잡성을 강조하는 경우가 많아 초보자에게 혼란을 줄 수 있습니다. 동시에 AI 실무자를 위해 설계된 시각화 작업은 신경 및 계층적 해석 가능성에 중점을 두고 있으며 비전문가에게는 어렵습니다.
그래서 Georgia Tech와 IBM Research의 여러 연구원이 개발한비전문가가 Transformer의 고급 모델 구조와 낮은 수준의 수학 연산을 이해할 수 있도록 돕는 웹 기반 오픈 소스 대화형 시각화 도구 "Transformer explainer". 아래 그림 1과 같습니다.
Transformer explainer는 다음을 사용하여 텍스트 생성을 통해 Transformer의 내부 작동을 설명합니다.Sankey 다이어그램 시각화 디자인는 Transformers를 동적 시스템으로 취급하는 최근 연구에서 영감을 받아 입력 데이터가 모델 구성 요소를 통해 흐르는 방식을 강조합니다. 결과에서 Sankey 다이어그램은 정보가 모델에서 어떻게 전송되는지 효과적으로 설명하고 Transformer 작업을 통해 입력이 처리 및 변환되는 방법을 보여줍니다.
콘텐츠 측면에서 Transformer explainer는 Transformer 구조를 요약하는 모델 개요를 긴밀하게 통합하고 사용자가 여러 추상화 수준 사이를 원활하게 전환하여 하위 수준 수학적 연산과 상위 수준 모델 구조 간의 상호 작용을 시각화하여 복잡한 개념을 완전히 이해할 수 있도록 돕습니다. 트랜스포머에서.
기능면에서 Transformer explainer는 웹 기반 구현을 제공할 뿐만 아니라 실시간 추론 기능도 갖추고 있습니다. 맞춤형 소프트웨어 설치가 필요하거나 추론 기능이 부족한 기존의 많은 도구와 달리, 이 도구는 최신 프런트엔드 프레임워크를 사용하여 브라우저에서 기본적으로 실행되는 실시간 GPT-2 모델을 통합합니다. 사용자는 입력 텍스트를 대화형으로 실험하고 Transformer의 내부 구성요소와 매개변수가 어떻게 함께 작동하여 다음 토큰을 예측하는지 실시간으로 관찰할 수 있습니다.
Transformer explainer는 고급 컴퓨팅 리소스, 설치 또는 프로그래밍 기술 없이도 최신 생성 AI 기술에 대한 액세스를 확장합니다. GPT-2를 선택한 이유는 모델이 잘 알려져 있고, 추론 속도가 빠르며, GPT-3, GPT-4 등 고급 모델과 아키텍처가 유사하기 때문입니다.
논문 주소: https://arxiv.org/pdf/2408.04619
GitHub 주소: http://poloclub.github.io/transformer-explainer/
온라인 체험 주소 : https://t.co/jyBlJTMa7m
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf17741 4848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd
자체 입력을 지원하기 때문에 머신하트도 "what a beautiful day"를 시도해 보았는데, 실행 결과는 아래 그림과 같습니다.
많은 네티즌들은 Transformer explainer에 높은 평가를 보냈습니다. 어떤 사람들은 이것이 매우 멋진 대화형 도구라고 말합니다.
어떤 사람들은 Self-Attention과 위치 인코딩을 설명하는 직관적인 도구인 Transformer explainer를 기다리고 있었다고 말합니다. 이는 판도를 바꾸는 도구가 될 것입니다.
다른분이 중국어 번역을 해주셨네요.
표시 주소: http://llm-viz-cn.iiiai.com/llm
여기에서 나는 대중 과학의 또 다른 위대한 인물인 Karpathy를 생각하지 않을 수 없습니다. 그는 이전 OpenAI와 Tesla의 새로운 프로젝트인 "Pure C 언어 핸드 롤링 GPT-2"를 포함하여 이전에 GPT-2 재현에 대한 많은 튜토리얼을 작성했습니다. Executives가 인기가 있습니다." ", "Karpathy의 최신 4시간짜리 비디오 튜토리얼: GPT-2를 처음부터 재현하고 밤새 실행하여 완료하세요." 등 이제 Transformer의 내부 원리에 대한 시각화 도구가 생겼으니, 둘을 함께 사용하면 학습 효과가 더 좋을 것 같습니다.
Transformer explainer 시스템 설계 및 구현
Transformer explainer는 Transformer 기반 GPT-2 모델이 텍스트 입력을 처리하고 다음 토큰을 예측하도록 훈련되는 방법을 시각화합니다. 프런트엔드는 Svelte와 D3를 사용하여 대화형 시각화를 구현하고, 백엔드는 ONNX 런타임과 HuggingFace의 Transformers 라이브러리를 사용하여 브라우저에서 GPT-2 모델을 실행합니다.
Transformer explainer를 디자인할 때 주요 과제는 기본 아키텍처의 복잡성을 관리하는 것이었습니다. 모든 세부 정보를 한 번에 표시하면 요점이 산만해지기 때문입니다. 이 문제를 해결하기 위해 연구자들은 두 가지 핵심 설계 원칙에 큰 관심을 기울였습니다.
첫째, 연구자들은 여러 수준의 추상화를 통해 복잡성을 줄입니다. 그들은 다양한 추상화 수준에서 정보를 표시하기 위해 도구를 구성합니다. 이를 통해 사용자는 높은 수준의 개요부터 시작하여 필요에 따라 세부 사항까지 작업할 수 있으므로 정보 과부하가 방지됩니다. 가장 높은 수준에서 이 도구는 사용자가 제공한 텍스트를 입력으로 수신(그림 1A)하고, 이를 삽입하고, 여러 Transformer 블록을 통해 처리하고, 처리된 데이터를 사용하여 가장 가능성이 높은 다음 A 토큰 예측을 예측하는 전체 처리 흐름을 보여줍니다. 정렬됩니다.
계산 결과의 중요성을 시각적으로 표시하기 위해 기본적으로 축소되는 주의 매트릭스 계산(그림 1C)과 같은 중간 작업에서는 사용자가 애니메이션 시퀀스를 통해 파생 프로세스를 확장하고 볼 수 있습니다. 연구원들은 사용자가 엔드투엔드 데이터 흐름을 유지하면서 아키텍처에서 반복되는 패턴을 식별할 수 있도록 주의 헤드 쌓기 및 반복되는 Transformer 블록 축소와 같은 일관된 시각적 언어를 채택했습니다.
둘째, 연구자들은 상호작용을 통해 이해와 참여를 강화합니다. 온도 매개변수는 Transformer의 출력 확률 분포를 제어하는 데 중요합니다. 이는 다음 토큰 예측의 확실성(낮은 온도) 또는 무작위성(높은 온도)에 영향을 미칩니다. 그러나 Transformers에 대한 기존 교육 리소스는 종종 이러한 측면을 무시합니다. 이제 사용자는 이 새로운 도구를 사용하여 온도 매개변수를 실시간으로 조정하고(그림 1B) 예측 확실성을 제어하는 데 있어 중요한 역할을 시각화할 수 있습니다(그림 2).
또한 사용자는 제공된 예제 중에서 선택하거나 자신의 텍스트를 입력할 수 있습니다(그림 1A). 사용자 정의 입력 텍스트를 지원하면 사용자가 다양한 조건에서 모델의 동작을 분석하고 다양한 텍스트 입력을 기반으로 자체 가정을 대화형으로 테스트함으로써 사용자의 참여 감각이 향상됩니다.
그렇다면 실제 적용 시나리오는 무엇입니까?
Rousseau 교수는 생성 AI의 최근 발전을 강조하기 위해 자연어 처리 과정의 과정 콘텐츠를 현대화하고 있습니다. 그녀는 일부 학생들이 Transformer 기반 모델을 파악하기 어려운 "마법"으로 보는 반면, 다른 학생들은 이러한 모델이 어떻게 작동하는지 이해하고 싶지만 어디서부터 시작해야 할지 확신하지 못한다는 사실을 알아냈습니다.
이 문제를 해결하기 위해 그녀는 학생들에게 Transformer에 대한 대화형 개요(그림 1)를 제공하고 학생들이 적극적으로 실험하고 학습하도록 장려하는 Transformer explainer를 사용하도록 안내했습니다. 그녀의 수업에는 300명 이상의 학생이 있으며, 소프트웨어나 특수 하드웨어를 설치할 필요 없이 학생의 브라우저 내에서 완전히 실행되는 Transformer explainer의 능력은 중요한 이점이며 소프트웨어나 하드웨어 설정 관리에 대한 학생들의 걱정을 없애줍니다.
이 도구는 학생들에게 애니메이션 및 대화형 가역적 추상화를 통해 주의력 계산과 같은 복잡한 수학적 연산을 소개합니다(그림 1C). 이 접근 방식은 학생들이 운영에 대한 높은 수준의 이해와 이러한 결과를 생성하는 기본 세부 사항에 대한 깊은 이해를 얻는 데 도움이 됩니다.
Rousseau 교수는 또한 Transformer의 기술적 능력과 한계가 때때로 의인화된다는 점을 인식했습니다(예: 온도 매개변수를 "창의성" 제어로 보는 것). 학생들에게 온도 슬라이더(그림 1B)를 실험하도록 장려함으로써 그녀는 온도가 실제로 다음 토큰의 확률 분포를 어떻게 수정하는지(그림 2) 학생들에게 보여주었습니다. 이를 통해 예측의 무작위성을 결정론적이고 보다 창의적인 방식으로 제어하여 토큰 간의 균형을 유지합니다. 출력.
또한 시스템이 토큰 처리 프로세스를 시각화하면 학생들은 여기에 소위 "마법"이 없다는 것을 알 수 있습니다. 입력 텍스트가 무엇이든(그림 1A) 모델은 다음을 사용하여 잘 정의된 작업 순서를 따릅니다. Transformer 아키텍처는 한 번에 하나의 토큰을 샘플링하고 프로세스를 반복합니다.
미래의 일
연구원들은 학습 경험을 향상시키기 위해 도구의 대화형 설명을 강화하고 있습니다. 동시에 WebGPU를 통해 추론 속도를 향상시키고 압축 기술을 통해 모델 크기를 줄이는 작업도 진행하고 있습니다. 또한 Transformer explainer의 효율성과 유용성을 평가하기 위해 사용자 연구를 수행하고 AI 초보자, 학생, 교육자 및 실무자가 도구를 사용하는 방법을 관찰하고 지원되기를 원하는 추가 기능에 대한 피드백을 수집할 계획입니다.
무엇을 기다리고 계십니까? 시작하여 경험하고 Transformer에 대한 "마법의" 환상을 깨고 그 뒤에 있는 원리를 진정으로 이해하십시오.