Моя контактная информация
Почта[email protected]
2024-08-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
На дворе 2024 год, есть ли кто-нибудь, кто до сих пор не понимает, как работает Трансформер? Приходите и попробуйте этот интерактивный инструмент.
В 2017 году Google предложила Transformer в статье «Внимание — это все, что вам нужно», которая стала крупным прорывом в области глубокого обучения. Число цитирований этой статьи достигло почти 130 000. Все последующие модели семейства GPT также основаны на архитектуре Transformer, что показывает ее широкое влияние.
Будучи архитектурой нейронной сети, Transformer популярен при решении самых разных задач — от текста до визуального представления, особенно в популярной в настоящее время области чат-ботов с искусственным интеллектом.
Однако для многих неспециалистов внутренняя работа Трансформера остается неясной, что затрудняет их понимание и участие. Поэтому особенно необходимо демистифицировать эту архитектуру. Однако во многих блогах, видеоуроках и 3D-визуализациях часто подчеркивается сложность математики и реализации моделей, что может сбить с толку новичков. В то же время работа по визуализации, предназначенная для практиков ИИ, фокусируется на нейронной и иерархической интерпретируемости и является сложной задачей для неспециалистов.
Поэтому несколько исследователей из Технологического института Джорджии и IBM Research разработалиВеб-инструмент интерактивной визуализации с открытым исходным кодом TransformerExplainer, помогающий непрофессионалам понять расширенную структуру модели Transformer и математические операции низкого уровня.. Как показано на рисунке 1 ниже.
Transformer Explorer объясняет внутреннюю работу Transformer посредством генерации текста с использованиемДизайн визуализации диаграммы Санки, вдохновленный недавней работой, рассматривающей Трансформеры как динамические системы и подчеркивающей, как входные данные проходят через компоненты модели. По результатам диаграмма Сэнки эффективно иллюстрирует, как информация передается в модели, и показывает, как входные данные обрабатываются и преобразуются с помощью операций Transformer.
Что касается содержания, Transformer Explorer тесно интегрирует обзор модели, который обобщает структуру Transformer и позволяет пользователям плавно переходить между несколькими уровнями абстракции, чтобы визуализировать взаимодействие между математическими операциями низкого уровня и структурами модели высокого уровня, чтобы помочь им полностью понять сложные концепции. в Трансформере.
С точки зрения функциональности, Transformer Explorer не только обеспечивает веб-реализацию, но также обладает возможностями рассуждения в реальном времени. В отличие от многих существующих инструментов, которые требуют специальной установки программного обеспечения или не имеют возможностей вывода, он интегрирует модель GPT-2 в реальном времени, которая работает в браузере с использованием современной интерфейсной платформы. Пользователи могут в интерактивном режиме экспериментировать с входным текстом и наблюдать в реальном времени, как внутренние компоненты и параметры Transformer работают вместе, чтобы предсказать следующий токен.
Transformer Explorer расширяет доступ к современным технологиям генеративного искусственного интеллекта, не требуя дополнительных вычислительных ресурсов, навыков установки или программирования. Причина, по которой был выбран GPT-2, заключается в том, что модель хорошо известна, имеет высокую скорость вывода и аналогична по архитектуре более продвинутым моделям, таким как GPT-3 и GPT-4.
Адрес статьи: https://arxiv.org/pdf/2408.04619.
Адрес GitHub: http://poloclub.github.io/transformer-explainer/
Адрес онлайн-опыта: https://t.co/jyBlJTMa7m.
视频链接: https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf177 414848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd
Поскольку Machine Heart поддерживает самостоятельный ввод, она также попробовала «какой прекрасный день», и результаты работы показаны на рисунке ниже.
Многие пользователи сети высоко оценили Transformer Explorer. Некоторые говорят, что это очень крутой интерактивный инструмент.
Некоторые люди говорят, что они ждали интуитивного инструмента для объяснения самообслуживания и позиционного кодирования, а именно Transformer Объяснитель. Это изменит правила игры.
Кто-то еще сделал китайский перевод.
Отобразить адрес: http://llm-viz-cn.iiiai.com/llm
Здесь я не могу не вспомнить Карпати, еще одного выдающегося деятеля в популярной науке. Он уже написал множество руководств по воспроизведению GPT-2, в том числе «Ручное управление GPT-2 на языке C, новый проект бывших OpenAI и Tesla». руководителей пользуется популярностью", ", "Последний четырехчасовой видеоурок от Karpathy: Воспроизведите GPT-2 с нуля, запустите его на ночь и готово" и т. д. Теперь, когда существует инструмент визуализации внутренних принципов Transformer, кажется, что эффект обучения будет лучше, если они будут использоваться вместе.
Проектирование и внедрение системы TransformerExplainer
Transformer Объяснитель визуально показывает, как модель GPT-2 на основе Transformer обучается обработке ввода текста и прогнозированию следующего токена. Интерфейсная часть использует Svelte и D3 для реализации интерактивной визуализации, а серверная часть использует среду выполнения ONNX и библиотеку Transformers HuggingFace для запуска модели GPT-2 в браузере.
Основной проблемой при разработке Transformer Explorer было управление сложностью базовой архитектуры, поскольку одновременное отображение всех деталей отвлекало бы от сути. Чтобы решить эту проблему, исследователи уделили большое внимание двум ключевым принципам проектирования.
Во-первых, исследователи уменьшают сложность за счет нескольких уровней абстракции. Они структурируют свои инструменты для представления информации на разных уровнях абстракции. Это позволяет избежать информационной перегрузки, позволяя пользователям начинать с общего обзора и при необходимости переходить к деталям. На самом высоком уровне инструмент показывает полный процесс обработки: от получения введенного пользователем текста в качестве входных данных (рис. 1А), его внедрения, обработки через несколько блоков Transformer и использования обработанных данных для прогнозирования наиболее вероятного следующего предсказания токена A. сортируется.
Промежуточные операции, такие как расчет матрицы внимания (рис. 1C), которые по умолчанию свернуты для визуального отображения важности результатов расчета, пользователь может развернуть и просмотреть процесс ее построения с помощью анимированной последовательности. Исследователи использовали последовательный визуальный язык, такой как объединение голов внимания и свертывание повторяющихся блоков Трансформера, чтобы помочь пользователям выявлять повторяющиеся шаблоны в архитектуре, сохраняя при этом сквозной поток данных.
Во-вторых, исследователи улучшают понимание и взаимодействие посредством интерактивности. Параметр температуры имеет решающее значение для управления распределением выходных вероятностей трансформатора. Он влияет на достоверность (при низких температурах) или случайность (при высоких температурах) предсказания следующего токена. Но существующие образовательные ресурсы по Трансформерам часто игнорируют этот аспект. Теперь пользователи могут использовать этот новый инструмент для настройки параметров температуры в режиме реального времени (рис. 1B) и визуализировать их решающую роль в контроле достоверности прогнозов (рис. 2).
Кроме того, пользователи могут выбирать из предоставленных примеров или вводить собственный текст (рис. 1А). Поддержка пользовательского ввода текста может позволить пользователям более глубоко участвовать. Анализируя поведение модели в различных условиях и интерактивно проверяя свои собственные предположения на основе различных текстовых вводов, у пользователя усиливается чувство участия.
Каковы же практические сценарии применения?
Профессор Руссо модернизирует содержание курса обработки естественного языка, чтобы подчеркнуть последние достижения в области генеративного искусственного интеллекта. Она заметила, что некоторые студенты рассматривают модели на основе Трансформеров как неуловимое «волшебство», в то время как другие хотели понять, как работают модели, но не знали, с чего начать.
Чтобы решить эту проблему, она посоветовала учащимся использовать Transformer Explorer, который предоставляет интерактивный обзор Transformer (рис. 1) и побуждает учащихся активно экспериментировать и учиться. В ее классе учатся более 300 учеников, и способность Transformer Explorer полностью работать в браузерах учащихся без необходимости установки программного обеспечения или специального оборудования является значительным преимуществом и избавляет учащихся от беспокойства по поводу управления настройкой программного обеспечения или оборудования.
Этот инструмент знакомит учащихся со сложными математическими операциями, такими как вычисления внимания, с помощью анимированных и интерактивных обратимых абстракций (рис. 1C). Этот подход помогает студентам получить как общее понимание операций, так и глубокое понимание основных деталей, которые приводят к этим результатам.
Профессор Руссо также признал, что технические возможности и ограничения Трансформатора иногда персонифицировались (например, рассматривая температурные параметры как средства управления «творчеством»). Поощряя студентов экспериментировать с ползунком температуры (рис. 1B), она показала им, как температура на самом деле изменяет распределение вероятностей следующего токена (рис. 2), тем самым контролируя случайность прогнозов детерминированным и более творческим способом, обеспечивая баланс между выходы.
Кроме того, когда система визуализирует процесс обработки токена, учащиеся могут видеть, что здесь нет никакой так называемой «магии» — независимо от того, какой входной текст (рис. 1А), модель следует четко определенной последовательности операций, используя Архитектура Transformer. Отбирайте по одному токену за раз и повторяйте процесс.
будущая работа
Исследователи совершенствуют интерактивные объяснения инструмента, чтобы улучшить процесс обучения. В то же время они также повышают скорость вывода с помощью WebGPU и уменьшают размер модели с помощью технологии сжатия. Они также планируют провести исследование пользователей, чтобы оценить эффективность и удобство использования Transformer Explorer, понаблюдать, как новички в области ИИ, студенты, преподаватели и практики используют этот инструмент, а также собрать отзывы о дополнительных функциях, которые они хотели бы видеть поддерживаемыми.
Чего вы ждете? Начните и испытайте это, развейте «волшебную» иллюзию о Трансформере и по-настоящему поймите принципы, лежащие в его основе.