новости

Новые результаты большой модели Apple: вызов инструмента большой модели для проверки сцены, пользователи сети: Siri тоже нужно много работать

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Креси происходит из храма Аофей.
    Кубиты | Публичный аккаунт QbitAI

Команда Apple выпустила новое достижение с открытым исходным кодом — набор тестов на возможность вызова инструментов больших моделей.

В этом тесте инновационно используютсяМетод оценки на основе сценариев, что может лучше отражать уровень модели в реальной среде.

Также вводятся важные сценарии, которым не уделяется внимание в традиционных стандартах, такие как диалоговое взаимодействие и государственная зависимость.



Этот набор тестовых тестов называется ToolSandbox, и в исследовательской работе также принял участие Панг Руоминг, глава команды Apple по базовым моделям.

ToolSandbox компенсирует отсутствие оценки на основе сценариев в существующих стандартах тестирования и сокращает разрыв между условиями тестирования и реальными приложениями.



Что касается взаимодействия, автор позволяет GPT-4o выступать в роли пользователя и разговаривать с тестируемой моделью, тем самым моделируя сценарии реального мира.

Например, скажите GPT-4o, что вы больше не помощник, но хотите сыграть пользователя А, который разговаривает с пользователем Б, а затем сделать ряд конкретных запросов.



Кроме того, автор также использовал ToolSandbox для тестирования некоторых основных моделей и общих результатов.Модели с закрытым исходным кодом оцениваются выше, чем модели с открытым исходным кодом., самый сильный из которых — GPT-4o.

Разработчик iOS-приложений Ник Добос заявил, что набор стандартов Apple краток и ясен.

В то же время он отметил, что ChatGPT уже несколько растянут, когда сталкивается с тремя инструментами. Если Siri хочет управлять десятками или сотнями приложений на мобильных телефонах, ей также необходимо улучшить возможности вызова инструментов.

Подразумевается, что исследование ToolSandbox может прояснить направление будущих исследований и разработок Siri.



Тестирование модели в сценарии

Как упоминалось выше, ToolSandbox использует интерактивный метод тестирования на основе сценариев.

В частности, ToolSandbox включает в общей сложности около 2000 сценариев семи типов, включая одиночный или множественный вызов инструмента, одиночный или несколько раундов диалога, зависимость от состояния, стандартизацию и недостаточность информации.

Первые относительно легко понять. Вот несколько объяснений следующих трех типов сцен:

  • Зависимость от состояния: выполнение инструмента зависит от определенных глобальных состояний, и это состояние сначала необходимо изменить с помощью других инструментов;
  • Стандартизация. Преобразование выражений естественного языка в стандартную форму, требуемую инструментом, для чего может потребоваться помощь других инструментов;
  • Недостаточно информации: ключевые инструменты, необходимые для выполнения задачи, намеренно отсутствуют. Проверьте, может ли модель определять ситуации, в которых ее невозможно выполнить.



В этих сценариях ToolSandbox сосредоточится на трех показателях модели:

  • Общая результативность, то есть среднее сходство с заданными ответами в различных сценариях.
  • Надежность, использование различных методов для модификации и вмешательства в инструмент, а также наблюдение за производительностью модели в этой среде.
  • Эффективность, то есть среднее количество раундов выполнения задачи.

Что касается инструментов, то в качестве инструментов автор выбрал 34 комбинируемые функции Python, которые по сложности сопоставимы с реальными сценариями.

Он включает в себя как собственные инструменты Python, так и некоторые интегрированные инструменты RapidAPI с функциями, охватывающими многие общие области, такие как поиск, диалог, навигация, погода и обработка изображений.

С точки зрения процесса, первым шагом является подготовка тестового сценария. Исследователи определят и сохранят исходное состояние мира и в то же время будут использовать калиброванную модель GPT-4o для генерации исходного пользовательского сообщения.

Затем, переходя на стадию интерактивного выполнения, система сначала инициализирует шину сообщений как канал связи между ролями и настраивает модель, которая играет пользователя, и тестируемую модель.

Когда начинается цикл диалога, модель, имитирующая пользователя, отправляет начальное сообщение, а тестируемая модель получает сообщение и принимает решение о следующем действии — либо отвечать непосредственно пользователю, либо вызывать инструмент для взаимодействия со средой.

Если модель решает вызвать инструмент, она предоставляет необходимые параметры в формате JSON, а среда выполнения затем интерпретирует и выполняет этот вызов, возможно, обновляя состояние мира и обрабатывая потенциальные условия параллельного вызова.

После того, как результаты выполнения возвращаются в тестируемую модель, тестируемая модель снова определяет следующее действие. Этот процесс продолжается до тех пор, пока симулятор пользователя не посчитает, что задача выполнена (или не может быть завершена), после чего он вызовет end_conversation. инструмент для завершения разговора.



В течение всего процесса взаимодействия система фиксирует все сообщения и изменения статусов, формируя полную «диалоговую дорожку», которая затем переходит в стадию оценки.

При оценке используются заранее определенные «вехи» и «минные поля» для измерения эффективности модели агента.

вехаОпределяются ключевые события для выполнения задачи, образующие ориентированный ациклический граф, отражающий временные зависимости.

Система ищет наилучшее соответствие между событиями и вехами траектории, сохраняя при этом топологический порядок вех.

минное полеОн определяет запрещенные события и в основном используется для определения того, галлюцинирует ли модель из-за недостаточности информации.

Например, на рисунке ниже показан пример оценки минного поля по сценарию «недостаточно информации».

В этой задаче, поскольку текущая метка времени недоступна, модель не должна вызывать инструмент timestamp_diff, но модель неправильно угадывает текущую метку времени и вызывает инструмент, в результате чего в этом раунде получается 0 баллов.



В конечном итоге система вычисляет совокупный балл, который является произведением среднего балла за совпадение контрольных точек и штрафа за минное поле.

Кроме того, система также посчитает среднее количество раундов, необходимое для выполнения задачи, как дополнительный показатель для оценки эффективности модели.

Сложные сценарии взаимодействия по-прежнему остаются проблемой

В целом,Модели с закрытым исходным кодом работают лучше, чем модели с открытым исходным кодом, с точки зрения вызовов инструментов.

Самый высокий средний балл получил GPT-4o с оценкой 73,0. Это единственный сервер, который превышает 70 и набрал наивысший балл в четырех из семи сценариев, заданных автором.

Более того, GPT-4o также чрезвычайно надежен. Автор использовал 8 методов для модификации инструмента, и GPT-4o имел самый высокий показатель надежности среди них.

За ним следует Claude 3-Opus со средним баллом 69,2, который превосходит GPT-4o в сценах с недостаточным количеством информации, а затем некоторые другие версии GPT и Claude.

Google Gemini относительно отстает. Оценка 1.5 Pro составляет 60,4, что не так хорошо, как GPT-3.5. Тем не менее, он хорошо справляется с недостатком информации.

Самый высокий средний балл модели с открытым исходным кодом составляет всего 31,4. Среди них знаменитый Мистраль-7Б имеет оценку 29,8, но он достиг наилучшего балла 76,8 по одному элементу недостаточной информации.

Даже некоторые модели с открытым исходным кодом, такие как Gorilla и Command-R, вообще не могут обрабатывать ответы инструментов или едва могут выполнить один раунд вызовов инструментов.



Дальнейший анализ показал, чтоМодели с открытым исходным кодом плохо определяют, когда пришло время обратиться к инструментам., предпочитая рассматривать проблему как задачу простой генерации текста.

С точки зрения задач большая модель хорошо работает при вызовах одного или нескольких инструментов и одноразовых пользовательских запросах, ноПреимущество ослабевает в многоходовых диалогах и госзависимых задачах.

В таких семьях, как ГПТ, Клод и Близнецы,Более крупные модели имеют более очевидные преимущества при вызове нескольких инструментов и многоходовых диалоговых задачах.;ноПо госзависимым задачам, малые и средние модели(如GPT-3.5、Клод-3-Сонет)Наоборот, лучше, чем большая модель.(GPT-4, Клод-3-Опус)работать лучше

Кроме того, нормализация является серьезной проблемой для всех моделей, особенно для сценариев, требующих инструментов для нормализации, а нормализация параметров, связанных со временем, также очень сложна.

Исследования устойчивости показывают, что чувствительность модели к изменениям в описании инструмента, информации о параметрах и т. д. сильно различается, и очевидных правил не обнаружено.

С точки зрения эффективности более мощные модели обычно более эффективны, но есть исключения. Например, эффективность моделей серии Claude обычно выше, чем GPT.

Короче говоря, большие модели по-прежнему сталкиваются со многими проблемами при использовании инструментов для решения сложных сценариев взаимодействия в реальном мире.

Об авторе

Члены команды ToolSandbox происходят из команд Apple, занимающихся машинным обучением, наукой о данных, базовыми большими моделями и других команд.

Первый автор — китайский инженер по машинному обучению.Цзяжуй Лу, окончил Университет Цинхуа со степенью бакалавра. Во время учебы он также работал научным сотрудником в лаборатории профессора Чжу Цзюня.

Впоследствии Лу получил степень магистра машинного обучения в Университете Карнеги-Меллон и после окончания учебы присоединился к Apple в 2020 году.



Включая Лу, подписал10 из 12 авторов — китайцы.и все они учились в престижных школах.

Сюда же входит и руководитель базовой большой модельной команды.Панг Руомин(Руомин Пан).



Кроме того, технический директор, проработавший в Apple 8 летБернхард Аумайертоже участвовал в этом проекте.



Бумажный адрес:
https://arxiv.org/abs/2408.04682