Q* от OpenAI никогда раньше не видели, но Q* от ряда стартапов можно найти здесь

Q* от OpenAI никогда раньше не видели, но Q* от ряда стартапов уже здесь.

2024-07-31

Насколько мы далеки от ИИ, который может «думать медленно»?

Автор: Стефани Палаццоло.

Сборник | Ван Чен

Редактор｜Цзинъюй

В прошлом году, до и после временного увольнения Сэма Альтмана, исследователи OpenAI направили совету директоров совместное письмо, в котором указывалось, что загадочный проект под кодовым названием Q может угрожать всему человечеству. OpenAI выразила благодарность Q* в последующем внутреннем письме сотрудникам и описала проект как «сверхчеловеческую автономную систему».

Хотя Q* еще не видели, в мире постоянно ходят слухи о нем.

Лу Ифэн, старший инженер Google DeepMind, однажды высказал Гику Парку предположение с профессиональной точки зрения: модель должна осознать, в каких проблемах она не уверена и что ей следует делать дальше. В это время модели может потребоваться путешествовать по Интернету, читать книги, проводить эксперименты, думать о каких-то необъяснимых идеях и обсуждать их с другими людьми, такими как люди.

В этом году, когда я задаю вопросы в приложениях-помощниках ИИ крупных производителей моделей, я чувствую, что ответы более достоверны, чем в прошлом году. Многие производители также заявили, что усердно работают над тем, чтобы модели больше думали и совершенствовались. их мыслительные способности. Как продвигается прогресс?

Что касается вышеупомянутых вопросов, репортер The Information Стефани Палаццоло в статье «Как меньшие конкуренты OpenAI разрабатывают собственный ИИ, который «рассуждает»» обсудила модели существующих стартап-компаний для улучшения возможностей модельного рассуждения, включая китайскую компанию Q *. Организованный Geek Park, он выглядит следующим образом:

Меньшие конкуренты OpenAI

Разработайте свой собственный «рассуждающий» ИИ

За исключением пузырей, насколько полезна эта волна искусственного интеллекта — это тема, которая неоднократно рассматривалась в центре внимания в этом году.

Принцип большой модели состоит в том, чтобы генерировать единицы слов одну за другой на основе вероятностного прогнозирования, но повторять слова на основе корпуса, полученного во время обучения, и создавать галлюцинации при столкновении с вопросами, которые никогда раньше не встречались, очевидно, не для всех. надеется. Ключевой задачей стало дальнейшее улучшение логических способностей модели.

В этом отношении нам еще предстоит увидеть прогресс со стороны OpenAI и Google, но некоторые стартапы и частные лица говорят, что они придумали некоторые «дешевые» методы (дешевые хаки) для достижения некоторых форм способностей ИИ к рассуждению.

Эти ярлыки включают в себя разбиение сложной проблемы на более простые шаги и задание модели десятков дополнительных вопросов, которые помогут ей проанализировать эти шаги.

Например, когда его просят подготовить сообщение в блоге о новом продукте, приложение ИИ автоматически запускает дополнительные запросы, например, просит большую модель оценить свои ответы и области для улучшения. Конечно, в пользовательском интерфейсе вы не сможете увидеть эти действия, выполняемые моделью в фоновом режиме.

Это похоже на сократовский метод обучения студентов критически мыслить о своих убеждениях или аргументах. Последний применяет метод обучения «вопрос-ответ». Общаясь с учениками, Сократ не дает ответов напрямую, а направляет учеников к самостоятельному обнаружению проблем и выявлению противоречий и недостатков в их взглядах, постоянно задавая вопросы. , и постепенно исправляйте его, чтобы сделать правильный вывод.

С помощью этой ссылки приложение ИИ может попросить большую модель переписать приведенный выше пост в блоге, принимая во внимание обратную связь, которую оно только что дало себе при написании. Этот процесс часто называют рефлексией, и один из разработчиков приложений ИИ сказал, что он часто приводит к лучшим результатам.

В дополнение к рефлексивному подходу разработчики также могут следовать за Google и попробовать Техника, называемая выборкой. Во время выборки разработчики улучшают способность крупных моделей давать творческие и случайные ответы, задавая один и тот же вопрос десятки или даже 100 раз, а затем выбирая лучший ответ.

Например, приложение-помощник по программированию может попросить большую модель дать 100 разных ответов на один и тот же вопрос, а затем приложение запускает все эти фрагменты кода. Окончательное приложение-помощник по программированию выберет код, который дает правильный ответ, и автоматически выберет наиболее краткий код.

Meta выделила некоторые подобные методы в своей недавней статье Llama 3.

Но этот обходной путь — вызов большой языковой модели 100 раз или запрос на вывод такого большого количества текста и кода — чрезвычайно медленный и дорогой. Вероятно, поэтому некоторые разработчики раскритиковали помощника по программированию, созданного стартапом Cognition, использующим эти технологии, за его медленную работу.

Разработчики тоже увидели эту проблему и пытаются ее решить.путь такойВыберите примеры модели, которые демонстрируют хорошие способности к рассуждению для конкретной проблемы, и «верните» их обратно в модель.данные обученияСосредоточьтесь на решении этой проблемы. Как сказал один предприниматель, этот подход похож на изучение таблицы умножения в начальной школе. Первоначально учащимся может потребоваться вручную решить каждую задачу на умножение. Но со временем, когда они запоминают эти таблицы умножения, ответы практически становятся частью интуиции ученика.

Для разработки такого рода ИИ разработчикам необходим контроль над большими моделями. Но трудно получить ощущение контроля от моделей OpenAI или Anthropic с закрытым исходным кодом, поэтому они, скорее всего, будут использовать модель с открытым исходным кодом, такую как Llama 3 (открытый вес — это термин в мире открытого исходного кода, означающий код с высокой степень открытости).

Два вышеупомянутых метода могут быть технологиями, использованными OpenAI для своего прорыва в рассуждениях. Конечно, OpenAI еще не выпустила Q*, который также известен как проект «Клубника».

Китай Q*

Китайские разработчики и исследователи также постепенно осваивают эти технологии.

Исследователи из китайской компании Skywork AI и Наньянского технологического университета опубликовали статью по этому вопросу в июне этого года. В этой статье они также назвали технологию Q* в честь версии OpenAI, которую они никогда раньше не видели.

Китайская технология Q* позволяет крупным моделям решать многоэтапные задачи, например сложные логические головоломки.

путь такойПутем «поиска» на каждом этапе ответа лучшего следующего шага, который должна попробовать большая модель, вместо того, чтобы следовать шагам, чтобы прийти к выводу (этот метод также известен как поиск по дереву Монте-Карло и использовался ранее в Google AlphaGo). . Это достигается с помощью специального уравнения, называемого моделью Q-значения, которое помогает большой модели оценить будущую награду за каждый возможный следующий шаг или вероятность того, что окончательный ответ будет правильным.

Исследователи говорят, что планируют публично представить свою технологию этой осенью.

Алекс Грейвли, генеральный директор Minion AI, стартапа по разработке интеллектуальных агентов и бывший главный архитектор GitHub Copilot, сказал, что они все еще пытаются Научите языковую модель возвращаться на один шаг назад, когда она понимает, что что-то пошло не так.Он утверждает, что такое осознание может возникнуть, когда большая модель дает неправильный ответ или ее просят подумать о ее промежуточных шагах (аналогично примеру в сообщении блога выше)., понимая, что была допущена ошибка.

В отрасли предпринимаются и другие попытки, включая статью «Quiet-STaR», опубликованную Стэнфордским университетом и Notbad AI в марте. Подобно тому, как люди делают паузу, чтобы обдумать свои мысли, прежде чем говорить или писать, в этой статье объясняется, как научить большие языковые модели генерировать информацию о внутренних «мыслительных» шагах, которые они предпринимают при решении сложных задач рассуждения, чтобы помочь им принимать более правильные решения.

Технология OpenAI Q*/Strawberry, возможно, имеет преимущество, но все остальные, похоже, стремятся ее догнать.

*Источник изображения: GulfNews.

Компьютерщик спросил

Ты думаешь, мы далеко друг от друга?

Как далеко до ИИ, способного «медленно думать»?

Фактическое измерение записи звонков бета-версии iOS 18.1, телефон Android по-прежнему может получать запросы на запись.

Ставьте лайк и подписывайтесьВидеоаккаунт Geek Park，

Новости

Q* от OpenAI никогда раньше не видели, но Q* от ряда стартапов уже здесь.

Введение

моя контактная информация