Поговорите о том, как думать о больших моделях, с ученым по глубокому обучению Яном ЛеКуном

Давайте поговорим о том, как думать о больших моделях, с ученым по глубокому обучению Яном ЛеКуном.

2024-08-09

С развитием и популярностью технологии генеративного искусственного интеллекта за последние два года использование больших моделей для генерации контента постепенно стало частью жизни обычных людей. Этот процесс кажется простым: когда мы вводим инструкцию, большая модель может напрямую выдать нам ответ. Однако за кулисами никто не знает внутренних принципов работы модели и процесса принятия решений. Это всем известный «черный ящик машинного обучения».

Из-за необъяснимости моделей «черного ящика» безопасность ИИ всегда подвергалась сомнению. Поэтому ученые начали пытаться открыть черный ящик крупных моделей, который в отрасли называют «исследованиями белого ящика». С одной стороны, изучение моделей «белого ящика» может помочь людям понять модели «черного ящика», тем самым оптимизируя большие модели и повышая эффективность. С другой стороны, цель исследований «белого ящика» — продвинуть искусственный интеллект, инженерный предмет, в науку.

На этот раз мы пригласилиЧэнь Юбэй, доцент кафедры электротехники и вычислительной техники Калифорнийского университета в Дэвисе, содержание его исследований связано с «моделью белого ящика». Кроме того, он также является научным сотрудником Янна Лекуна, лауреата премии Тьюринга и главного ученого Меты. В этом выпуске он поговорил с нами о последних достижениях в исследованиях моделей белого ящика, а также поделился с нами Яном ЛеКуном, знакомым ему ученым, который пережил взлеты и падения в индустрии искусственного интеллекта, но остается чисто сосредоточенным. .

Графика Вайолет Даши. Иллюстрации Нади и Simple Line

Ниже приведены избранные интервью.

01 Человеческий мозг и большая модель

«Силиконовая долина 101»:Можете ли вы сначала кратко представить исследование «модели белого ящика», которое вы проводите? В ходе вашего исследования вы узнали, как объяснить проблемы ввода и вывода GPT?

Чэнь Юбэй:Фактически, относительно крупной целью в этом направлении является продвижение глубокого обучения от чисто эмпирического предмета к научному предмету или превращение инженерии в науку, поскольку в настоящее время инженерия развивается относительно быстро, а наука - относительно медленно. Раньше существовала модель под названием «встраивание слов», которая позволяла изучать некоторые представления языка.

На самом деле в тот момент у всех возник вопрос: производительность наших задач улучшилась, но что именно привело к улучшению этой производительности? Итак, в то время мы проделали очень раннюю работу, которая заключалась в попытке открыть эти репрезентации слов. Открыв его, вы обнаружите несколько интересных явлений.

Например, если вы возьмете слово «яблоко», вы можете найти в нем некоторые метазначения. Например, одно из значений может обозначать фрукт, а другое — десерт. Если копнуть глубже, вы найдете значение технологии и. продукты, что, конечно же, относится к продуктам Apple. Итак, вы обнаружите, что можете найти эти метазначения в слове, а затем распространить этот метод на большую языковую модель.

Другими словами, после того как мы изучили большую языковую модель, мы можем поискать в ней какие-то метазначения, а затем попытаться открыть ее. Вы обнаружите большую языковую модель, которая на самом деле имеет много слоев.

На начальном уровне появится явление, называемое «устранение неоднозначности слов». Например, в английском языке есть слово «left». Это слово означает и поворот налево, и прошедшее время ухода. Тогда его конкретное значение зависит от контекста до и после контекста, поэтому большой язык Модель завершает устранение неоднозначности слова. в первых нескольких слоях.

В среднесрочной перспективе вы обнаружите, что появляются новые значения. В то время мы думали, что очень интересная вещь называется «Конвертация единиц измерения». Как только вы захотите конвертировать километры в мили и температуру из Фаренгейта в Цельсия, это значение будет открыто. Таким образом, много подобных уровней этого метазначения.

Продвигаясь дальше, вы даже обнаружите, что среди этих метазначений есть закономерность. Эта закономерность заключается в том, что когда в контексте появляется повторяющееся значение, оно активируется. Вы можете использовать этот метод, чтобы открыть большой язык. .модели и малые языковые модели. Конечно, эти идеи не совсем новы. На самом деле они имеют свою историю в области визуальных моделей. Например, со времен Мэтью Зейлера было проведено несколько подобных исследований.

«Силиконовая долина 101»:Следуя этому образу мышления, если мы знаем, как часть этого работает, можем ли мы существенно оптимизировать его с инженерной точки зрения?

Чэнь Юбэй:Да, это очень хороший вопрос. Я думаю, что относительно высоким требованием к любой теории является то, что она может служить руководством для практики. Поэтому, когда мы создавали языковые модели и словарные представления, одна из целей, которые мы ставили в то время, заключалась в том, чтобы после того, как мы это поняли, мы, в свою очередь, могли оптимизировать эти модели. ? На самом деле это возможно.

Например, если вы обнаружите метазначение в большой языковой модели, она активируется, когда увидит определенное метазначение, тогда этот нейрон можно будет использовать как дискриминатор, и вы сможете использовать это что-то для выполнения каких-то задач. Изменяя эти метазначения, корректируется предвзятость модели.

Дело в том, что если я смогу это заметить, то я смогу это скорректировать. Недавно Anthropic проделала аналогичную работу: выявить некоторые отклонения, которые могут существовать в языковой модели, а затем внести в нее некоторые изменения, чтобы сделать модель более справедливой и безопасной.

«Силиконовая долина 101»:Я видел, что OpenAI в прошлом году также провела исследование, в котором использовала GPT4, чтобы объяснить GPT2 и посмотреть, как работает GPT2. Например, они обнаружили, что нейрон GPT 2 будет активироваться при ответе на все вопросы, связанные с историей Соединенных Штатов около 1800 года. При ответе на китайский язык будет активирован 12-й нейрон в строке 5. строка 12. активирована.

Если нейрон, отвечающий на китайский язык, отключить, его способность понимать китайский язык значительно упадет. Но чем дальше отходят нейроны, например, когда нейроны достигают примерно 2000 рядов, их общая достоверность сильно падает. Вы заметили их исследования?

Исследование OpenAI: пусть GPT4 объяснит нейроны GPT2

Чэнь Юбэй:Я еще не читал эту статью, но этот метод очень похож на операцию на нейронах головного мозга. Эквивалентно тому, что сейчас существует нейронная сеть, эта сеть означает, что в некотором смысле она может найти локальное существование, а не быть полностью рассредоточенной, тогда над ней можно выполнять некоторые операции. Например, если определенный нейрон отрезан, можно думать, что определенная часть его способностей относительно потеряна.
На самом деле то же самое относится и к людям. Например, у человека с эпилепсией после операции могут возникнуть некоторые языковые барьеры, но это не влияет на другие функции человеческого организма. В принципе это похоже.

«Силиконовая долина 101»:OpenAI и Anthropic сейчас изучают интерпретируемость больших моделей. Есть ли разница между вашими исследованиями?

Чэнь Юбэй:На самом деле, никто не знает, будут ли исследования модели белого ящика успешными в будущем. Я уже обсуждал это со своим руководителем, но все согласны, что этот вопрос стоит попробовать. Если мы вернемся к этой области, то наши исследования на самом деле хотят понять искусственный интеллект и реконструировать его с помощью нашего понимания, а затем фундаментально построить что-то другое. Так что наблюдение, то есть интерпретируемость, я думаю, это всего лишь средство.
Другими словами, открываю ли я эту модель, провожу ли я эти эксперименты или вношу в модель какие-то корректировки, я думаю, это некоторые из методов, которые мы пробуем в процессе понимания, но что действительно важно в белом ящике? модель все равно придется вернуться к самому сигналу. Потому что, будь то человеческий мозг или машина, суть их обучения основана на сигналах.

В нашем мире есть какие-то структуры, и им тоже приходится учиться через эти структуры, и именно эти структуры они учат. Так можем ли мы найти законы, лежащие в основе этих структур, а также некоторые математические инструменты для их представления, а затем реорганизовать эти вещи, чтобы построить другую модель? Если это удастся сделать, я думаю, это приведет к повышению устойчивости, безопасности и надежности наших систем.
Кроме того, повысится его эффективность. Это немного похоже на теорию термодинамики, появившуюся после появления парового двигателя, что способствовало его превращению из законченного ремесленника в науку. Точно так же сегодня у нас, кажется, впервые есть паровой двигатель для обработки данных. Поскольку раньше мы не понимали наши данные, мы, наконец, можем начать разрабатывать некоторые алгоритмы ИИ для выявления закономерностей в данных.

«Силиконовая долина 101»:Так будет более энергоэффективно.

Чэнь Юбэй:Что касается энергосбережения, я могу привести несколько интересных примеров. Первый момент — это, безусловно, энергосбережение, ведь мозг эквивалентен лампочке с потребляемой мощностью 20 Вт, а современные суперкомпьютеры могут иметь более одного миллиона Вт.

Второй момент заключается в том, что если мы посмотрим на эволюцию различных организмов в природе, то их эволюционная эффективность на самом деле очень высока. Например, существует особый вид пауков, называемый пауком-прыгуном. У него всего несколько миллионов нейронов, но он может создавать очень сложные трехмерные групповые линии, чтобы поймать свою добычу.

Паук-скакун, Википедия

И одна из самых интересных вещей для меня — насколько эффективно люди используют данные. Текущий объем данных Llama3 достиг примерно 13 триллионов токенов. Но сколько данных может получить человек за свою жизнь? Предположим, мы можем получить 30 кадров изображений в секунду, а время ежедневного сбора составляет 12 часов, и мы делаем это в течение 20 лет, тогда мы, вероятно, сможем получить 10 миллиардов токенов, а текста можно будет получить почти столько же. данных намного меньше, чем у большой модели.
Итак, вопрос в том, как люди достигают такой сильной способности к обобщению при таком небольшом объеме данных? Вот что меня удивляет в эффективности человеческого мозга.

«Силиконовая долина 101»:Что сложнее: понять, как работают большие модели, или понять, как работает человеческий мозг? Для меня это звучит сложно.

Чэнь Юбэй:У обоих есть свои трудности, но подходы схожи. Будь то человеческий мозг или большая языковая модель, мы пытаемся наблюдать за ним и видеть, на что он реагирует.

Этот метод можно увидеть в исследованиях зрительной коры Дэвида Хьюбела и Торстена Вайзеля, получивших Нобелевскую премию по физиологии в 1980-х годах. Они нашли простую клетку и попытались изучить, как эти нейроны генерируют импульсы, когда люди что-то видят, и проанализировать различные состояния реакции нейронов, когда они видят разные вещи, например, когда они вообще не реагируют или когда они очень возбуждены. , а затем нашли Рецептивное поле нейрона.

Д. Х. Хьюбель и Т. Н. Визель, лауреаты Нобелевской премии по физиологии и медицине 1981 г.

Наше сегодняшнее исследование больших языковых моделей на самом деле похоже. Мы ищем разные входные данные, а затем понимаем, какие нейроны внутри модели заинтересованы в каких входных данных. Но различия все же есть.

Первое отличие состоит в том, что существует множество ограничений для наблюдения за человеческим мозгом, будь то с помощью подключаемых электродов или методов интерфейса мозг-компьютер. Однако естественным преимуществом больших языковых моделей является то, что методы наблюдения больше не ограничены. лучший метод, вы можете проанализировать его в долгосрочной перспективе и даже дополнительно проанализировать модель с помощью некоторых дифференциальных методов.

Но его недостатком является то, что возможности больших моделей гораздо меньше, чем у мозга, особенно больших языковых моделей, поскольку он познает мир только с помощью языка, поэтому его понимание мира неполное, как и у человека. другие чувства, кроме языка.

Напротив, мозг может обрабатывать более объемные сигналы, а чувства очень богаты. Иногда мы задумываемся над вопросом: является ли язык целостным? Если нет поддержки со стороны других чувств, могут ли все понятия в языке существовать самостоятельно или же для достижения истинного понимания им необходима поддержка других чувств.

Например, если объект «холодильник» не связан с ощущением тепла и холода в реальном мире, а описывает только статистические характеристики, такие как наличие двери, это описание будет неполным.

«Силиконовая долина 101»:Так что на самом деле по сравнению с мозгом нынешней большой модели все еще многого не хватает. Но поскольку мы можем разобрать его и изучить, вы думаете, что это все же идет немного дальше, чем амбиции по раскрытию секретов мозга.

Чэнь Юбэй:Трудность понимания большой языковой модели состоит в том, что у вас есть много способов наблюдать за ней и вы можете понять ее лучше. Например, если есть две машины, одна полностью наблюдаема, а другая частично наблюдаема, то интуитивно легче понять машину, которая полностью наблюдаема. Конечно, у нее есть некоторые возможности, которых нет у этой машины, поэтому она не может заменить некоторое понимание человеческого мозга.

«Силиконовая долина 101»:Позвольте мне также представить аудитории, что Юбэй раньше изучал нейробиологию. Считаете ли вы, что ваш предметный опыт поможет вам в ваших текущих исследованиях в области ИИ? Существуют ли какие-то междисциплинарные методы исследования, которым можно поучиться друг у друга?

Чэнь Юбэй:На самом деле я не специализируюсь в области вычислительной нейробиологии. Я получил степень бакалавра на факультете электроники в Университете Цинхуа и на факультете электротехники и информатики в Беркли. Однако исследовательский институт, в котором я тогда работал, был научно-исследовательским институтом нейробиологии, поэтому мой наставник был экспертом в области вычислений. нейробиология.

Что касается только что заданного вопроса, я думаю, что изучение нейробиологии обычно меня вдохновляет. Потому что, когда вы знаете эти системы в природе и то, что они могут делать, у вас могут возникнуть другие идеи и вы можете пересмотреть рассматриваемую проблему.

Например, изображение представляет собой двумерный входной сигнал, его пиксели расположены по горизонтали и вертикали, а затем оно образует сетку. Но человеческая сетчатка выглядит не так. Прежде всего, это тип рецептора с различным восприятием. Этот рецептор расположен очень плотно, но не очень регулярно. Он очень плотный в середине и становится редким по обе стороны.
Когда вы сталкиваетесь с таким входным сигналом, прежде всего, привычные нам сверточные нейронные сети недействительны, потому что здесь не определена даже свертка. Поэтому, когда мы увидим такую ситуацию в биологических системах, мы пересмотрим вопрос, откуда берутся эти так называемые извилины.

«Силиконовая долина 101»:Значит, вы пересмотрите метод, верно? Нужно ли это реализовывать таким образом?

Чэнь Юбэй:Да. Предположим, вы однажды просыпаетесь и все ваши нейроны повреждены. Сможете ли вы по-прежнему понимать мир? Потому что то, что вы видите, больше не является картинкой, и вы больше не можете использовать для этого сверточную нейронную сеть. Какой метод вам нужен?

Хотя мы и не решили эту проблему полностью, мы фактически сделали шаг вперед. Хотя все мои нейроны разрушены, то есть нарушены пиксели изображения нашего рецептора, между соседними пикселями существует некоторая связь. Например, когда мы посмотрим на изображение, мы обнаружим, что если пиксель красный, то и окружающие его пиксели с большей вероятностью будут красными. Затем с помощью этой связи вы можете позволить этим пикселям снова найти друзей, а затем вы можете разместить похожие. пиксели вместе. Пиксели самоорганизуются в определенные отношения.

Затем, добавив такую структуру, как Transformer, в большую языковую модель, мы можем повторно представить это изображение, и производительность этого представления довольно хорошая. Это пример переосмысления некоторых наших нынешних инженерных практик, вдохновленных природой, а затем предложения некоторых других методов.

Модель черного ящика, изображение AIGC через Firefly

«Силиконовая долина 101»:Между исследованиями крупных моделей искусственного интеллекта и нейробиологией человеческого мозга по-прежнему существует много общего. Будут ли нейробиологи, которые будут сотрудничать с вами в межотраслевых исследованиях со своей точки зрения?

Чэнь Юбэй:На самом деле, есть много нейробиологов, статистиков и математиков, которые хотят понять некоторые структуры естественных сигналов, а также обратить внимание на то, как работают нейроны в мозге, а затем объединить их, чтобы попытаться предложить некоторые минималистские представления сигналов.

Например, вы обнаружите явление в мозге, то есть, хотя нейронов много, нейронов, работающих одновременно, на самом деле очень мало. Например, если нейронов 1 миллион, работать могут только несколько тысяч.

На основании этого в первые годы в области нейробиологии был предложен метод разреженного кодирования. То есть, можно ли найти в этом сигнале высокого уровня какие-то разреженные низкоразмерные представления? Алгоритм, построенный на основе этой идеи, очень похож на представление нейронов, которое вы наблюдаете в мозге, так что это неконтролируемый успех в ранней вычислительной нейронауке.

На сегодняшний день вся наша область исследований носит название «Статистика естественных сигналов». Ее цель — выявить некоторые базовые структуры сигналов. Однако по сравнению с большими моделями это не так просто, как «белый ящик». такие как модели на самом деле относительно медленны. Я вообще думаю, что, с одной стороны, это может быть потому, что проблема сложная, но с другой стороны, это еще и потому, что в это направление инвестирует сравнительно мало людей.

02 «Текущий обгон» модели черного ящика

«Силиконовая долина 101»:Проще говоря, сейчас слишком мало людей изучают модели «белого ящика». Но попадает ли традиционное машинное обучение до появления крупных моделей в категорию исследований моделей «белого ящика»?

Чэнь Юбэй:Я думаю, что это утверждение можно считать правильным. Эти предыдущие модели машинного обучения относительно просты и относительно понятны.

«Силиконовая долина 101»:Так почему же текущий прогресс исследований всей модели черного ящика позволяет намного быстрее обогнать модель белого ящика в поворотах?

Чэнь Юбэй:Когда задают этот вопрос, мы некоторое время нервничаем, прежде чем ответить.

«Силиконовая долина 101»:Зачем нервничать?

Чэнь Юбэй:Поскольку этот вопрос очень острый, он на самом деле спрашивает, является ли это моделью белого ящика или понятным путем, от которого нам следует отказаться. С нашей эпохи мы перестанем изучать науку в области ИИ, и станет ли в будущем все эмпирическим предметом? Но я пока так не думаю.
Возвращаясь к вашему только что заданному вопросу: что именно произошло в этом процессе? Первый момент заключается в том, что модель черного ящика имеет меньший багаж. Если вы хотите, чтобы этот метод работал и чтобы этот метод был объяснимым, существует слишком много требований. Тогда модель черного ящика отказывается от одной вещи, чтобы позволить ей работать в первую очередь.

Вторая причина относительно всеми игнорируется, а именно рост данных против тренда или расширение масштаба.

Ричард Саттон ранее писал в блоге и упомянул, что есть кое-что, что не было сломано за последние 20 лет, а именно: когда у нас будет больше данных и больше вычислений, мы должны найти алгоритмы, которые могут действительно расшириться и найти эту закономерность во всем. данные. Я думаю, что это очень важный аспект модели черного ящика или нашего текущего эмпирического прогресса.

Другими словами, когда у нас есть больше данных, более качественные данные, больше вычислений и более крупные модели, мы можем узнать больше. Но если мы вернемся к этому вопросу, у каждого есть стремление к модели белого ящика, а именно: сама модель должна быть простой.

Сравнение Black Box ML и White Box ML

«Силиконовая долина 101»:Почему модели «белого ящика» должны быть простыми? Означает ли это, что если он слишком сложен, его будет трудно спроектировать?
Чэнь Юбэй:Да. На самом деле, занимаясь теорией, можно понять только краткие вещи, и ее приходится упрощать снова и снова. Однако, когда люди стремятся к простоте модели, они могут снова и снова ее упрощать. Как только такое упрощение происходит, модель не может полностью описать форму данных. Тогда, когда данных станет больше, модель не сможет продолжить работу, и ее возможности будут ограничены.

Поэтому я думаю, что это также трудность, с которой каждый сталкивался в прошлом при изучении моделей белого ящика и простых моделей. Нам не только нужно носить модель с работой, но нам также нужен ее интерпретируемый багаж, а еще мне нужно, чтобы он был простым. Когда вы принесете все эти вещи, вы обнаружите, что этот багаж слишком тяжел. Когда вы слишком упрощаете, вы вносите ошибки, и ошибки будут накапливаться, и вы не сможете двигаться вперед позже.
«Силиконовая долина 101»:Но теперь, с быстрым развитием моделей «черного ящика», мы снова начинаем пытаться решить эту проблему.
Чэнь Юбэй:Да. И на этот раз, когда мы решим эту проблему, мы, возможно, вернемся к этому вопросу. То есть нам не обязательно полностью упрощать модель до этого уровня, она все равно может представлять более сложную сторону мира.

Но в то же время мы все еще надеемся, что это относительно понятно, поэтому, если однажды мы сможем создать модель белого ящика, то я думаю, что каждая попытка до этого является чрезмерным упрощением, но мы надеемся, что каждое упрощение может пойти вперед. Нам даже не нужно создавать полностью модель «белого ящика». Возможно, мы сможем создать модель «белого ящика», которая не будет такой мощной, как большая модель, но она относительно проста.
Нам полезно понять суть обучения, а это понимание, в свою очередь, может позволить нам повысить эффективность обучения больших моделей. Я уже несколько раз обсуждал вопросы эффективности с Яном, а это означает, что если теория, лежащая в основе этого, будет разработана, мы сможем повысить эффективность инженерной практики на порядки.
«Силиконовая долина 101»:Точка зрения Янна заключается в том, что он предпочитает разрабатывать модель белого или черного ящика?
Чэнь Юбэй:Янн — учёный, известный своими инженерными способностями, поэтому многие из его попыток по-прежнему связаны с тем, чтобы сначала заставить эту штуку работать. Но Янн также поддерживает исследования модели белого ящика. Во время моего разговора с ним он почувствовал, что этот путь стоит изучить, но он не знал, будет ли он достижим для слишком амбициозной цели, но кто-то должен был это сделать.
«Силиконовая долина 101»:Такое ощущение, что модель черного ящика — это инженерная проблема, а модель белого ящика должна объяснить ее с научной точки зрения. Хотя с точки зрения коммерциализации соотношение ввода-вывода не так уж и велико, если эту вещь удастся наконец создать, она все равно будет иметь большое значение для безопасности ИИ и его будущих коммерческих приложений.
Чэнь Юбэй:Что касается коммерциализации, я на самом деле думаю, что первоначальное намерение всех тех, кто занимается фундаментальными исследованиями в области ИИ, состоит не в том, чтобы иметь какое-либо применение в качестве первоначального намерения, а в том, чтобы руководствоваться относительно чистым любопытством к проблеме интеллекта. Тогда могут быть обнаружены некоторые закономерности. , что, в свою очередь, может помочь в инженерной практике. Само исследование не рассчитано на какое-то одно применение.

Кроме того, когда мы преследуем эту модель белого ящика и эту максимальную эффективность, мы также задаем вопрос, а именно, может ли большая языковая модель, которую мы строим сейчас, быть достигнута только с помощью такого рода масштабирования или закона масштабирования. можно просто спуститься? Я так не думаю. Поскольку люди не могут принять такой большой объем данных, важным вопросом, который мы изучаем, является также то, как получить относительно высокую способность к обобщению при небольшом объеме данных.

«Силиконовая долина 101»:Эту проблему также следует изучить исследователям модели «черного ящика». Какие ученые и школы в настоящее время изучают модель белого ящика?

Чэнь Юбэй:В настоящее время существует в основном три силы ИИ. Первая сила — это некоторый опыт, который мы накопили в процессе изучения этих инженерных моделей, а затем их визуализации, например, чем недавно занимались Anthropic и OpenAI.

Антропные исследования: извлечение интерпретируемых особенностей из нейронной сети Сонет Клода 3

Второй — вычислительная нейробиология, пытающаяся понять человеческий мозг и найти способы существования некоторых воспоминаний.

Другая школа мысли заключается в том, чтобы взглянуть на базовую структуру сигнала с математической и статистической точки зрения. Конечно, между этими тремя типами будет много пересечений.
«Силиконовая долина 101»:К какому жанру вы принадлежите?
Чэнь Юбэй:Фактически, на меня в той или иной степени влияют все три группы. Когда я учился в Беркли, мой наставник и учитель Ма И принадлежал к школе нейробиологии и математической статистики, а Янн имел больше инженерное образование. Я также считаю, что эти три метода приемлемы, поскольку в конечном итоге они приведут нас двигаться в одном направлении.
«Силиконовая долина 101»:Какое направление одинаковое? Есть ли сейчас поэтапные результаты?
Чэнь Юбэй:Последний шаг — понять модель. Раньше уже были получены некоторые поэтапные результаты, например, можем ли мы создать сети даже с двумя или тремя уровнями, и мы можем увидеть, чему они обучаются на каждом уровне. Наконец, я обнаружил, что действительно возможно изобразить число. Если вы хотите изобразить его, вы выучите все его штрихи, а затем соедините подобные штрихи вместе, а затем сможете построить следующий уровень представления, слой за слоем. , наконец нашел номер.
«Силиконовая долина 101»:Приведут ли ваши текущие исследования к оптимизации модели «черного ящика»?

Чэнь Юбэй:Во-первых, по мере углубления вашего понимания вы сможете оптимизировать модель черного ящика и сделать ее более эффективной. Во-вторых, унифицировать различные модели «черных ящиков», тем самым сократив массу ненужных отходов. В то же время есть еще одно направление работы моей лаборатории — изучение не только восприятия, но и управления.

Когда вы дадите этим большим языковым моделям возможность взаимодействовать с миром, сможете ли вы получить такую же способность к обобщению в системе управления? Что это значит? То есть в системе восприятия вы обнаружите, что я выучил яблоки, груши, а затем персик. Поскольку я раньше уже изучал аналогичное понятие о яблоках и грушах, я могу быстро усвоить понятие персика.

Можно ли добиться аналогичных результатов в области контроля? Например, если робот научится ходить вперед и прыгать на месте, можно ли его быстро превратить в робота, который прыгает вперед и ходит одновременно?

«Силиконовая долина 101»: Если вас попросили дать заключение, как вы думаете, используя исследование модели белого ящика, чтобы раскрыть секрет работы большой модели, где находится текущий индикатор выполнения?
Чэнь Юбэй:На самом деле, никто из нас не знает, как долго длится эта шкала прогресса. Я чувствую, что на самом деле она далека от этой цели. Это не обязательно линейное развитие, оно может быть больше похоже на квантовый скачок. Когда появляется новое понимание, вы можете сразу же сделать большой шаг вперед.

Если вы хотите сделать ChatGPT «белого ящика», я думаю, до этого еще довольно далеко, но, возможно, мы сможем сделать довольно хорошую, полностью понятную модель, способную воспроизвести возможности AlexNet на тот момент. Эта модель может распознавать Imagenet. Мы можем понять, как она делает каждый шаг, как она шаг за шагом превращается в кошку и собаку, а затем какова структура этой кошки и собаки.

Пример WordNet, используемого ImageNet

«Силиконовая долина 101»:Распознавание ImageNet — это белый или черный ящик?

Чэнь Юбэй:Мы еще не совсем поняли, как это работает. В некоторых ранних визуализациях, сделанных Мэтью Зейлером, Робом Фергюсом и многими исследователями, было некоторое понимание, но никто не смог создать модель, в которой мы могли бы понимать каждый шаг и при этом хорошо работать.
«Силиконовая долина 101»:Так что, возможно, цель модели «белого ящика» — постановочная. Например, первым шагом является объяснение того, как работает ImageNet. После того, как загадка раскрыта, мы можем объяснить, как работают некоторые небольшие модели, точно так же, как использование GPT 4 для объяснения того, как работает GPT 2, а затем постепенно объяснить, как работают более крупные модели. модель работает.
Чэнь Юбэй:Да. Я думаю, что этот процесс все еще занимает достаточно много времени, и нужно больше людей, которые будут инвестировать в это направление. Потому что большая часть рабочих мест в настоящее время приходится на инженерную сферу. Если мы внедрим это в школы, тогда вам действительно нужно иметь какие-то оригинальные идеи, вместо того, чтобы говорить, что вы идете по шкале, а я пойду по шкале, тогда все масштабируются, и, в конце концов, нет никакого различия, все зависит от who Какая машина лучшая и у кого больше всего данных?

03 Что я знаю о Яне ЛеКуне

«Силиконовая долина 101»:Далее я хочу поговорить с вами о вашем научном руководителе Янне ЛеКуне. Позвольте мне сначала представить Янна Лекуна. Его китайское имя Ян Ликунь. Он французский ученый-компьютерщик. Он внес большой вклад в области машинного обучения, компьютерного зрения, мобильных роботов и вычислительной нейробиологии. ". "Отец Интернета".

ЛеКун в настоящее время является главным научным сотрудником по искусственному интеллекту в Meta и профессором Нью-Йоркского университета. В 1980-х годах он был пионером свёрточных нейронных сетей (CNN), технологии, которая стала основой современного компьютерного зрения. ЛеКун вместе с Джеффри Хинтоном и Йошуа Бенджио получили Премию Тьюринга 2018 года за новаторскую работу в области глубокого обучения.
Можете ли вы объяснить нашим нетехническим друзьям основные результаты научных исследований Янна и почему он так известен?

Чэнь Юбэй:Янн изучает область нейросетевого искусственного интеллекта с 1980-х годов и пережил множество взлетов и падений, а также упадок различных школ мысли. Однако он всегда настаивал на сетях глубокого обучения и является человеком, который прошел сквозь тьму.

Например, в 2000 году было очень сложно публиковать статьи, посвященные глубокому обучению. Насколько это было сложно? Если в вашей статье есть слово «Нейронная сеть» или «Сеть», вероятность того, что вас отклонят, очень высока. Если есть «Нейронная сеть», она, по сути, будет отклонена.

Так что для них в то время это был тёмный момент, и финансирование тоже пострадало. Но они смогли выстоять в этой тьме и никогда не сдаваться и, наконец, вышли из этой тьмы. Сегодня глубокие нейронные сети изменили мир, я думаю, что это на самом деле их получение Премии Тьюринга, воспоминание об их ранних новаторских открытиях. дни.

Ян ЛеКун

«Силиконовая долина 101»:Почему вы выбрали его группу, когда были постдокторантом?
Чэнь Юбэй:Это довольно интересное приключение. На самом деле в то время я был очень растерян и даже не думал об окончании этого семестра. Потому что я решил во время работы над докторской диссертацией создать модель белого ящика, производительность которой должна быть сопоставима с AlexNet, но она еще не готова.

Я думаю, если я хочу продолжить исследования, к кому мне пойти в качестве постдока? В то время я был на собрании, а затем встретил Янна на месте. На самом деле я не особо спекулятивный человек. Я думаю, что каждый хочет найти Янна в качестве постдока, поэтому, когда я встретил его, я в основном хотел поговорить о его взглядах на мою работу и о будущем ИИ. .

В результате беседа на встрече прошла очень хорошо. Он также обдумал направление моих исследований и некоторые вопросы, над которыми я думал, но с точки зрения нейронных сетей. Тогда он спросил меня, хочу ли я подать заявку на постдокторантуру. Конечно, я подал заявку, поэтому мы сразу нашли общий язык.

«Силиконовая долина 101»:Какой он наставник? Это дает студентам много свободного пространства для изучения и очень помогает обсуждать со всеми.
Чэнь Юбэй:первый，Вторая ситуация для него уже невозможна. Многим людям нужно его время, а времени, которое он может уделить каждому, относительно не так уж и много.

Он вообще-то похож на моего научного руководителя, он очень свободолюбив в некоторых общих направлениях, но я думаю, что еще одно сходство между ними заключается в том, что они настойчивы в том, во что верят, то есть он может дать вам направление и цель. Но неважно, как вы поедете, на лодке или на машине, эти детали он контролировать не будет.
Фактически, его общее направление не изменилось с годами. Это всегда было обучение под самоконтролем. Самостоятельное обучение фактически разделено на две части. Одна часть — это самоконтроль, основанный на восприятии. Другая, более важная часть, это то, как осуществлять самоконтроль в телесном виде, или сейчас мы занимаемся моделью мира, и это направление, в которое он верит.

На самом деле я дал ему это имя, потому что прочитал статью «Модель мира», написанную Дэвидом Ха и Юргеном Шмидхубером, и подумал, что это имя довольно крутое.

Системная архитектура для автономного интеллекта, Mata AI

«Силиконовая долина 101»:Считаете ли вы, что направление исследований Янна отличается от направления исследований OpenAI и Anthropic?
Чэнь Юбэй:Если я действительно хочу сказать что-то другое, я думаю, что Янн хочет, чтобы модель имела несколько характеристик. Первый — иметь возможность воплощения, а это значит, что это не просто куча данных, а модель, которая со временем может самостоятельно исследовать мир.
«Силиконовая долина 101»:Какая разница? Кажется, все надеются наконец добиться такого результата.
Чэнь Юбэй:Исполнение другое. Например, я думаю, что OpenAI — это закон масштабирования, который означает больше и качественных данных, а затем больше вычислений и более крупных моделей. Но Янн все же более научен. Что, по его мнению, нужно, если мы действительно хотим добиться более человеческого интеллекта? Он почувствует, что просто накопить данные недостаточно.
«Силиконовая долина 101»:Таким образом, Янн на самом деле эквивалентен совместному исследованию черного и белого ящиков.

Чэнь Юбэй:Я думаю, что Янна на самом деле не очень волнует, можно ли превратить это в науку. В настоящее время я думаю, что его взгляды в основном эмпирические и инженерные. Он надеется, что эта система может работать лучше. На самом деле он всегда был таким. очень хорош в деле.

«Силиконовая долина 101»:Когда OpenAI доказала, что закон масштабирования может достигать хороших результатов, думаете ли вы, что Янн изменился в своих методах научных исследований и мышлении? Или он все еще придерживается своей первоначальной линии?

Чэнь Юбэй:На самом деле он не против закона о масштабировании. Я не думаю, что у всех есть конфликт по этому поводу. Реальная возможная разница заключается в том, что большая часть работы OpenAI на самом деле по-прежнему ориентирована на продукт и выполнена в высшей степени инженерно, но Янн на самом деле проводит исследования в более научной форме.

Когда он думает об этих проблемах, на самом деле он не имеет особого отношения к продуктам. Он думает только об одном — о том, как достичь интеллекта. Потому что он был в этой области слишком долго и был глубоко вовлечен в эту область более восьми лет, поэтому он все еще может придерживаться своих идеалов, рассматривая эти вопросы.

«Силиконовая долина 101»:Предоставление интеллекту возможности обучаться автономно — это первая особенность исследования Янна. Какие еще особенности есть?

Чэнь Юбэй:Есть также то, во что Янн всегда верил, под названием JEPA, Joint Embedding Predictive Architecture. То есть, конечно, модель должна иметь возможность обучаться независимо, но более важно то, что модель также может изучать некоторые правила более высокого уровня при изучении данных.

На самом деле в настоящее время существует две группы: одна группа надеется полностью восстановить данные посредством обучения, что можно считать идеей сжатия. Однако Янн не хочет полностью возвращаться к этому изображению, поскольку реконструкция этого изображения содержит слишком много деталей. детали не являются самой важной информацией при вынесении суждений о системе.

«Силиконовая долина 101»:Отличается ли эта точка зрения от позиции вашего наставника Ма Йи в Беркли?

Чэнь Юбэй:На самом деле существенного конфликта между ними с этой точки зрения нет, но способы его выражения различны. Учитель Ма считает, что законы этого мира просты, Янн считает, что эти детали на самом деле вредны для последующих задач или некоторых суждений, поэтому необходимо найти эти законы высокого уровня.

На самом деле это одно и то же, поскольку правила высокого уровня обычно просты. Учитель Ма часто говорит, что все представляет собой сжатие. Если вы посмотрите на это с точки зрения Янна, вы обнаружите, что сжатие действительно правильное, но иерархическая структура данных на самом деле другая.

Поскольку реальный мир сложен, если вы углубитесь в его детали, вы обнаружите, что многие вещи на самом деле представляют собой низкоуровневые структуры. В данных есть структура, и все, что имеет структуру, является отражением отклонения от шума. Другими словами, все, что вообще не имеет структуры, является шумом, а все, что оставляет шум, означает, что структура существует.

Мы собираемся изучить эти структуры, но существуют разные уровни структуры. Но когда вы подниметесь на уровень выше, в более крупном масштабе, вы обнаружите, что структура на самом деле больше не важна. Если вы посмотрите на нее на этом уровне, эти вещи станут подобны шуму.

Итак, точка зрения Янна заключается в том, что сжатие правильное, но нам нужно такое иерархическое обучение, чтобы изучить все структуры сигнала и изучать все более и более высокие структуры. Однако самая продвинутая структура часто не учитывает большую часть всего сжатия и может быть потеряна в процессе оптимизации, поскольку большое количество вещей находится на низких уровнях, а количество информации, такой как шум, является самым большим. Чем выше, тем труднее обнаружить такие структуры, чем дальше вы идете.

Почему? Поскольку ваша оптимизированная функция потерь является вашей целевой функцией, независимо от того, обнаружите вы это правило или нет, это может мало повлиять на ваши потери. Я думаю, что основными являются эти два момента: один — модель мира, а другой — это иерархическое представление.

Янн Лекун выступает в Нью-Йоркском университете

«Силиконовая долина 101»:Как вы думаете, какие качества вас особенно впечатляют?

Чэнь Юбэй:Что меня особенно впечатлило, так это, наверное, сосредоточенность и чистота, с которой они все делали.

Однажды я обедал с Яном, и он сказал, что у меня есть все, что вы хотели, когда были молоды, но у меня больше нет времени, поэтому оставшееся время он может использовать только для того, чтобы делать то, во что он действительно верит. .

Когда вы работаете с такими учеными, на вас может влиять их темперамент, так что еще до того, как вы достигнете того положения, в котором они сейчас находятся, и того, что у них есть, вы сможете немного увидеть мир с их точки зрения.

Поэтому, когда вы делаете выбор или делаете что-то, вы можете выйти за рамки своего нынешнего положения и подумать о том, что я буду делать, если однажды у меня будет все это, как у него.

«Силиконовая долина 101»:Изменил ли он какие-то ваши решения?

Чэнь Юбэй:Да, это заставит меня задуматься об этом, когда я буду делать большой выбор. Помню, в первый день моей учебы в аспирантуре мой научный руководитель сказал мне две вещи.

Во-первых, ему не нужно, чтобы я публиковал много статей, но я надеюсь, что статьи, которые я могу опубликовать, смогут путешествовать во времени, так что даже если я прочитаю эту статью 20 лет спустя, она все равно будет свежей. Это на самом деле очень сложно, потому что многие работы имеют отчетливое ощущение времени, но некоторые по-настоящему глубокие мысли все же могут длиться сотни лет. Это очень высокая цель, и вы, возможно, сможете достичь ее, когда будете рядом. выйти на пенсию. Пройти верификацию. Но здесь возникают душевные муки, то есть сможете ли вы упорно выполнять какую-то работу, которая может сосуществовать со временем.

Во-вторых, он надеется, что у ученого должна быть своя собственная позиция. Если вы думаете, что что-то может быть сделано а, б или вами, вам не следует этого делать. То есть, когда вы сделаете это, вы обнаружите, что не эта работа нуждается в вас, а вы нуждаетесь в этой работе. Это спекулятивный менталитет. На самом деле это тот же темперамент, который я вижу в них: они надеются не следовать за толпой, а иметь собственное отношение и найти свой собственный голос.

Поэтому, выбирая направление исследования, я время от времени буду оценивать, является ли работа, которую я делаю, спекулятивной или реальной.

Я думаю, что самое замечательное в них, особенно в Янне, это то, что вы можете пережить это почти отчаянное время и встретить рассвет. Люди, которые никогда не переживали неудач, возможно, не смогут достаточно успокоиться. Когда вы переживаете самый мрачный момент, используйте свое видение и настойчивость, чтобы пережить этот короткий период времени, а затем докажите, что я думаю, что это правильно. очень интересный темперамент.

«Силиконовая долина 101»:Есть ли какие-либо научные взгляды на Янна, с которыми вы не согласны?

Чэнь Юбэй:Иногда он был откровенен. Например, он недавно сказал, что если вы исследователь, вам не следует изучать большие языковые модели. Это предложение имеет множество интерпретаций. Если понимать его буквально, многие люди, в том числе и я, не согласятся. У меня может возникнуть ощущение, что в больших языковых моделях есть некоторые структуры, которые стоит понять и изучить.

Конечно, на самом деле Янн, возможно, хочет сказать то же, что я только что упомянул: не занимайтесь спекулятивными работами, подобными А и Б. Я надеюсь, что исследователи проявят некоторую настойчивость и найдут более оригинальные идеи. Если бы это было сказано так, я думаю, я бы больше согласился. Но, как большой Ви, иногда его слова шокируют вас и вызывают много дискуссий. Это место мне кажется очень интересным.

«Силиконовая долина 101»:Вы также работали в Meta. В чем, по вашему мнению, самый большой вклад Янна в Meta?

Чэнь Юбэй:Первым делом нужно помочь создать Meta AI. Когда он планировал создать Мета-ИИ, Марк впервые нашел его. Кроме того, поскольку в ранние годы он работал в Bell Labs, он тосковал по тогдашнему состоянию Bell Labs, поэтому у него тоже был идеал для репликации такой лаборатории. в Мете. Придерживаясь этой концепции, он также набрал и обучил группу очень хороших людей мета-ИИ, внеся большой вклад в эту область и способствуя развитию всей области.

«Силиконовая долина 101»:Я думаю, что открытый исходный код следует рассматривать как очень важный его вклад. Например, причина, по которой Metal lama выбрала путь открытого исходного кода, должна очень соответствовать общей идее Yarn.

Чэнь Юбэй:Да-да, открытый исходный код — это действительно то, на чем настаивает Янн. Но я не знаю, останется ли Meta с открытым исходным кодом в будущем, потому что, в конце концов, Meta также столкнется с конкуренцией, но я думаю, что это концепция Янна, насколько хорошо это может быть реализовано в конечном итоге и насколько далеко. это может пойти на самом деле зависит от развития всей среды.

«Силиконовая долина 101»:Считаете ли вы, что все исследования больших моделей теперь должны проводиться учеными? Или это постепенно станет инженерным делом?

Чэнь Юбэй:Я чувствую, что это стало движимым инженерами. Вначале это было движимо учеными. За последние два года, я думаю, основной прогресс связан с выполнением проекта. Стало ли качество данных выше? Данные увеличились? Стало ли его распространение богаче? Можно ли распараллелить вычисления? Все это вызвано очень важными деталями в инженерной области. Развитие от 0 до 1 требует научных прорывов, но от 1 до 100 требует инженерной строгости и исполнительских способностей, чтобы продвигать его на разных этапах.

«Силиконовая долина 101»:Сейчас все с нетерпением ждут GPT 5. Как вы думаете, если GPT 5 выйдет, это будет скорее научная проблема или инженерная проблема?

Чэнь Юбэй:Я думаю, что в инженерии предстоит пройти долгий путь. Мы можем даже думать, что закону масштабирования предстоит пройти долгий путь, и конца ему не видно, включая качество данных и расширение вычислительных мощностей. Но в то же время я думаю, что даже если самым надежным способом, который мы нашли сейчас, является закон масштабирования, этого определенно недостаточно.

Так что еще нам нужно? Я думаю, что необходима высокая эффективность, как у людей. Так как же достичь такой эффективности? Это может быть вызвано данными, но может быть и чем-то другим, поэтому я думаю, что если мы говорим о процессе достижения ОИИ, то должны быть относительно большие изменения от 0 до 1.

«Силиконовая долина 101»:Даже при наличии научного прогресса в технике еще есть много возможностей для совершенствования.

новости

Давайте поговорим о том, как думать о больших моделях, с ученым по глубокому обучению Яном ЛеКуном.

Введение

Моя контактная информация