o1 внезапное разоблачение инсайдеров? google раскрыл принцип ранее. для больших моделей только с программным обеспечением рва нет.

2024-09-17

минмин родом из храма аофэй.
кубиты | публичный аккаунт qbitai

менее чем через неделю после его выпуска ров самой сильной модели openai o1 исчез.

кто-то обнаружил, что статья, опубликованная google deepmind в августе, раскрывает принцип и то, как работает o1.почти единогласно。

это исследование показывает, что увеличение времени вычислений более эффективно, чем расширение параметров модели.

основываясь на стратегии расширения вычислительного времени, оптимальной для вычислений, предложенной в статье, меньшая базовая модель может превосходить одну в некоторых задачах.в 14 раз большемодель.

пользователи сети сказали:

это почти принцип о1.
как мы все знаем, ultraman любит опережать google, так не поэтому ли o1 первым выпустил предварительную версию?

некоторые люди посетовали на это:

ведь, как сказал сам google, рва ни у кого нет и ни у кого никогда не будет.

только что openai увеличила скорость o1-mini в 7 раз и может использовать 50 предметов в день, o1-preview упомянул 50 предметов в неделю;

сэкономьте в 4 раза больше суммы расчета

название этой статьи google deepmind:при оптимизации тестирования llm расчет более эффективен, чем расширение шкалы параметров модели.。

исследовательская группа исходила из моделей человеческого мышления. поскольку людям требуется больше времени, чтобы думать и принимать решения, когда они сталкиваются со сложными проблемами, может ли то же самое быть верно и для llm?

другими словами, столкнувшись со сложной задачей, сможет ли llm более эффективно использовать дополнительные вычисления во время тестирования для повышения точности.

некоторые предыдущие исследования показали, что это направление действительно осуществимо, но эффект относительно ограничен.

целью данного исследования было выяснить, насколько производительность модели может быть улучшена при использовании относительно небольшого количества дополнительных вычислений?

они разработали серию экспериментов для проверки набора данных math с использованием palm2-s*.

в основном анализируются два метода:

(1) итеративная самопроверка: пусть модель попытается ответить на вопрос несколько раз, пересматривая его после каждой попытки, чтобы получить лучший ответ.
(2) поиск: при таком подходе модель генерирует несколько вариантов ответов,

видно, что при использовании метода саморедактирования по мере увеличения объема вычислений при тестировании разрыв между стандартной стратегией best-of-n (best-of-n) и вычислительно оптимальной стратегией расширения постепенно увеличивается.

использование метода поиска для расчета оптимальной стратегии расширения показывает очевидные преимущества на ранней стадии. и при определенных обстоятельствах она может достичь того же эффекта, что и лучшая n-стратегия.сумма расчета составляет всего 1/4 от этой суммы.。

при сопоставлении оценки flop, сравнимой с расчетами перед обучением, предварительно обученная модель в 14 раз большего размера (без дополнительных выводов) сравнивается с palm 2-s * (с использованием оптимальной в вычислительном отношении стратегии).

было обнаружено, что при использовании метода самопроверки, когда токены вывода намного меньше, чем токены предварительного обучения, эффект от использования стратегии расчета времени тестирования лучше, чем эффект предварительного обучения. но по мере увеличения соотношения или при решении более сложных задач предварительная тренировка все равно работает лучше.

то есть в обоих случаях ключом к вычислению того, действителен ли метод расширения в соответствии с различными тестами, являетсяподсказка о сложности。

в исследовании также сравнивались различные методы поиска prm, и результаты показали, что прямой поиск (крайний справа) требует большего количества вычислений.

когда объем вычислений невелик, использование оптимальной стратегии расчета позволяет сэкономить ресурсы до 4 раз.

сравнивая модель o1 openai, это исследование дает почти тот же вывод.

модель o1 учится совершенствовать свой мыслительный процесс, пробовать разные стратегии и признавать свои ошибки. а благодаря большему обучению с подкреплением (рассчитывается во время обучения) и большему времени на размышление (рассчитывается во время тестирования) производительность o1 продолжает улучшаться.

однако openai выпустила модель быстрее, а google использует palm2 и не выпустила обновление для gemini2.

пользователи сети: разногласия касаются только аппаратного обеспечения?

такие новые выводы неизбежно напоминают людям о взглядах, высказанных во внутренних документах google в прошлом году:

у нас нет рва, как и у openai. модель с открытым исходным кодом может превзойти chatgpt.

в наше время скорость исследования каждого очень высока, и никто не может гарантировать, что он всегда будет впереди.

единственный ров может быть аппаратным.

(значит, маск собирается построить вычислительный центр?)

некоторые говорят, что nvidia теперь напрямую контролирует, у кого больше вычислительных мощностей. что же произойдет, если google и microsoft разработают собственный чип, который будет работать лучше?

стоит отметить, что первый чип openai был представлен некоторое время назад и будет использовать самый передовой процесс tsmc на уровне ангстрема a16 и специально создан для видеоприложений sora.

очевидно, что для больших модельных полей боя просто перекатывать саму модель уже недостаточно.

справочные ссылки:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

новости

o1 внезапное разоблачение инсайдеров? google раскрыл принцип ранее. для больших моделей только с программным обеспечением рва нет.

сэкономьте в 4 раза больше суммы расчета

пользователи сети: разногласия касаются только аппаратного обеспечения?

введение

моя контактная информация