Новости

iPhone может запускать небольшую стальную пушку 2B!Google Gemma 2 приближается, самый мощный микроскоп сможет расчленить мозг LLM

2024-08-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Новый отчет мудрости

Редактор: Редакционный отдел

[Введение в новую мудрость] Маленькая модель ядерной бомбы Google DeepMind уже здесь, Gemma 2 2B напрямую победила GPT-3.5 и Mixtral 8x7B, у которых параметры на несколько порядков больше! Выпущенный в то же время Gemma Scope прорывается сквозь черный ящик LLM, как микроскоп, позволяя нам ясно видеть, как Gemma 2 принимает решения.

Маленькая модель Google DeepMind снова новая!

Только что Google DeepMind выпустил Gemma 2 2B.



Его перегоняют из Gemma 2 27B.

Хотя его параметры составляют всего 2,6В, его балл на арене LMSYS превзошел GPT-3,5 и Mixtral 8x7B!


В тестах MMLU и MBPP он показал отличные результаты — 56,1 и 36,6 соответственно, его производительность превысила предыдущую модель Gemma 1 2B более чем на 10%.

Маленькая модель победила большую модель, которая была на несколько порядков больше, еще раз подтвердив направление развития малых моделей, в отношении которого в последнее время отрасль настроена очень оптимистично.


Сегодня Google объявила о трех новых членах семейства Gemma 2:

  • Джемма 2 2Б:Легкая модель 2B обеспечивает наилучший баланс между производительностью и эффективностью.

  • ЩитДжемма:Безопасная модель классификатора контента, построенная на основе Gemma 2 для фильтрации входных и выходных данных модели искусственного интеллекта для обеспечения безопасности пользователей.

  • Область применения Джеммы:Инструмент интерпретируемости, который обеспечивает беспрецедентное понимание внутренней работы вашей модели.

В июне на свет появились модели 27B и 9B Gemma 2.

С момента своего выпуска модель 27B быстро стала одной из лучших моделей с открытым исходным кодом в рейтингах крупных моделей, даже превосходя популярные модели с вдвое большим количеством параметров в реальных разговорах.


Gemma 2 2B: мгновенно доступен на вашем устройстве

Легкая маленькая модель Gemma 2 2B является производной большой модели и по своим характеристикам ей не уступает.

На арене больших моделей LMSYS новая модель набрала впечатляющий балл — 1130, что соответствует моделям с 10-кратным увеличением параметров.

GPT-3.5-Turbo-0613 набрал 1117 баллов, а Mixtral-8x7b — 1114 баллов.


Это показывает, что Gemma 2 2B — лучшая сквозная модель.


Некоторые пользователи сети разрешили запуск квантованного Gemma 2 2B на MLX Swift на iPhone 15 Pro, и скорость оказалась поразительно высокой.



В частности, его можно развернуть на различных терминальных устройствах, включая мобильные телефоны, ноутбуки и даже мощное облако с использованием Vertex AI и Google Kubernetes Engine (GKE).

Для ускорения модели она оптимизирована с помощью NVIDIA TensorRT-LLM, которая также доступна на платформе NVIDIA NIM.


Оптимизированная модель работает на различных платформах, включая центры обработки данных, облака, локальные рабочие станции, ПК и периферийные устройства.

Он также может поддерживать модули RTX, RTX GPU и Jetson для завершения минимального развертывания искусственного интеллекта.

Кроме того, Gemma 2 2B легко интегрирует Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp и т. д. и вскоре будет интегрирована с MediaPipe для упрощения разработки.


Конечно, как и Gemma 2, модель 2B также может использоваться для исследовательских и коммерческих целей.

Даже поскольку объем его параметров достаточно мал, он может работать на бесплатном уровне графического процессора T4 от Google Colab, что снижает порог разработки.

В настоящее время каждый разработчик может загрузить веса модели Gemma 2 с Kaggle, Hugging Face и Vertex AI Model Garden, а также опробовать ее функции в Google AI Studio.


Адрес склада: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: современный классификатор безопасности

Как следует из названия, ShieldGemma — это самый продвинутый классификатор безопасности, обеспечивающий привлекательность, безопасность и инклюзивность выходного контента ИИ, а также обнаруживающий и сокращающий вывод вредного контента.

ShieldGemma специально разработан для воздействия на четыре ключевые вредоносные области:

- разжигание ненависти

- Оскорбительный контент

- Откровенный контент

- Опасный контент


Эти классификаторы с открытым исходным кодом дополняют существующий набор классификаторов безопасности Google в наборе инструментов Responsible AI.

В набор инструментов входит метод создания классификаторов для конкретных политик на основе ограниченного количества точек данных, а также готовые классификаторы Google Cloud, предоставляемые через API.

ShieldGemma построена на основе Gemma 2, ведущего в отрасли классификатора безопасности.

Он предоставляет различные размеры параметров модели, включая 2B, 9B и 27B, каждый из которых оптимизирован для скорости NVIDIA и может эффективно работать на различном оборудовании.

Среди них 2B очень подходит для задач онлайн-классификации, а версии 9B и 27B обеспечивают более высокую производительность для автономных приложений с меньшими требованиями к задержке.


Gemma Scope: Раскрытие процесса принятия решений ИИ с помощью разреженных автокодировщиков с открытым исходным кодом

Еще одна новинка, выпущенная в то же время, — это разреженный автокодировщик с открытым исходным кодом Gemma Scope.

Что происходит внутри языковой модели? Эта проблема долгое время озадачивала исследователей и разработчиков.

Внутреннее устройство языковых моделей часто остается загадкой даже для исследователей, которые их обучают.


Gemma Scope похож на мощный микроскоп, который увеличивает определенные точки модели с помощью автоэнкодеров (SAE), что упрощает интерпретацию внутренней работы модели.

Благодаря Gemma Scope исследователи и разработчики получают беспрецедентную прозрачность процесса принятия решений по модели Gemma 2.

Gemma Scope — это коллекция сотен бесплатных и открытых разреженных автоэнкодеров (SAE) для Gemma 2 9B и Gemma 2 2B.

Эти SAE представляют собой специально разработанные нейронные сети, которые помогают нам интерпретировать плотную и сложную информацию, обрабатываемую Gemma 2, преобразуя ее в форму, которую легче анализировать и понимать.

Изучая эти расширенные представления, исследователи могут получить ценную информацию о том, как Gemma 2 распознает закономерности, обрабатывает информацию и делает прогнозы.

С помощью Gemma Scope сообщество искусственного интеллекта сможет легче создавать системы искусственного интеллекта, которые будут более понятными, ответственными и надежными.

В то же время Google DeepMind также выпустила 20-страничный технический отчет.


Технический отчет: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf.

Подводя итог, Gemma Scope имеет следующие три инновации:

  • SAE с открытым исходным кодом: более 400 свободно доступных SAE, охватывающих все уровни Gemma 2, 2B и 9B.

  • Интерактивная демонстрация: изучите возможности SAE и проанализируйте поведение модели в Neuronpedia без написания кода.

  • Простая в использовании библиотека ресурсов: содержит код и примеры для взаимодействия с SAE и Gemma 2.

Интерпретировать внутреннюю работу языковых моделей

Почему проблема интерпретируемости языковых моделей так сложна?

Это начинается с принципа работы LLM.

Когда вы задаете LLM вопрос, он преобразует вводимый вами текст в серию «активаций». Эти активации отображают взаимосвязи между введенными вами словами, помогая модели устанавливать связи между разными словами и соответствующим образом генерировать ответы.

По мере того как модель обрабатывает ввод текста, активация различных слоев нейронной сети модели представляет собой множество концепций более высокого уровня, которые называются «функциями».


Например, ранние уровни модели могут изучать такие факты, как Джордан играет в баскетбол, а более поздние уровни могут идентифицировать более сложные понятия, такие как подлинность текста.


Пример интерпретации активаций модели с использованием разреженных автоэнкодеров — как модель напоминает тот факт, что «город света — Париж».Вы можете видеть, что понятия, связанные с французским языком, существуют, а несвязанные понятия - нет.

Однако исследователи интерпретируемости столкнулись с ключевой проблемой: активация модели представляет собой смесь множества различных функций.

На ранних этапах исследования исследователи надеялись, что особенности активации нейронных сетей можно будет совместить с отдельными нейронами или информационными узлами.

Но, к сожалению, на практике нейроны активны для многих несущественных функций.

Это означает, что не существует очевидного способа определить, какие функции являются частью активации.

И именно здесь на помощь приходят разреженные автоэнкодеры.

Имейте в виду, что конкретная активация будет представлять собой лишь смесь нескольких функций, хотя языковая модель может обнаруживать миллионы или даже миллиарды функций (то есть модель использует функции редко).

Например, языковая модель может думать об относительности, отвечая на вопрос об Эйнштейне, но может не думать об относительности, когда пишет об омлете.


Разреженные автокодировщики используют этот факт, чтобы обнаружить набор скрытых функций и разложить каждую активацию на несколько функций.

Исследователи надеются, что лучший способ для разреженных автокодировщиков выполнить эту задачу — найти основные функции, которые на самом деле используют языковые модели.

Важно отметить, что в ходе этого процесса исследователи не сообщали разреженному автокодировщику, какие функции следует искать.

В результате им удалось обнаружить неожиданные ранее богатые структуры.


Однако, поскольку они не сразу понимают точное значение этих обнаруженных функций, они ищут в текстовых примерах значимые шаблоны, которые разреженный автокодировщик считает, что эти функции «запускают».


Вот пример, где токены, активируемые функцией, выделяются синим градиентом в зависимости от силы триггера функции:


Пример обнаружения активаций функций с помощью разреженных автокодировщиков. Каждый пузырь представляет собой токен (слово или фрагмент слова), а переменный синий цвет иллюстрирует силу этой функции.В этом примере функция явно связана с идиомой

Что уникального в Gemma Scope?

По сравнению с предыдущими разреженными автокодировщиками, Gemma Scope имеет множество уникальных функций.

Первый в основном фокусируется на изучении внутренней работы небольших моделей или отдельных слоев больших моделей.


Но если вы хотите углубиться в исследование интерпретируемости, оно включает в себя декодирование многоуровневых сложных алгоритмов в больших моделях.

На этот раз исследователи из Google DeepMind обучили разреженные автокодировщики на выходе каждого слоя и подслоя Gemma 2, 2B и 9B.

Построенный таким образом Gemma Scope сгенерировал в общей сложности более 400 разреженных автокодировщиков и получил более 30 миллионов функций (хотя многие функции могут перекрываться).

Это позволяет исследователям изучать, как функции развиваются в модели, как они взаимодействуют и объединяются, образуя более сложные функции.

Кроме того, Gemma Scope обучена с использованием новейшей и самой совершенной архитектуры JumpReLU SAE.

Исходная архитектура разреженного автокодировщика часто имеет трудный баланс между двумя целями: обнаружением присутствия функции и оценкой интенсивности. Архитектура JumpReLU позволяет легче достичь баланса между ними и значительно уменьшить количество ошибок.


Конечно, обучение такого большого количества разреженных автокодировщиков также является серьезной инженерной задачей и требует большого количества вычислительных ресурсов.

В этом процессе исследователи использовали около 15% обучающих вычислений Gemma 2 9B (исключая вычисления, необходимые для генерации очищенных меток) и сохранили на диск около 20 ПиБ активаций (примерно эквивалентно одному миллиону копий содержимого английской Wiki-энциклопедии). , генерируя в общей сложности сотни миллиардов разреженных параметров автокодировщика.

Использованная литература:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/