новый король больших моделей с открытым исходным кодом отменил gpt4o, новая технология может самокорректироваться, а mathematics 99.2 максимально исчерпал набор тестов.

2024-09-06

западный ветер дует из храма аофэй.
кубиты | публичный аккаунт qbitai

трон крупных моделей с открытым исходным кодом внезапно перешел из рук в руки, и он перешел к небольшой команде предпринимателей, мгновенно взорвав отрасль.

новая модель называетсяотражение 70б, используя новую технологию обучения, позволяющую ии научиться исправлять свои собственные ошибки и иллюзии в процессе рассуждения.

например, в недавно популярном цифровом r-тесте он вначале допустил те же ошибки, что и большинство моделей, но взял на себя инициативу, чтобытег <отражение>чжун поправил себя.

в официальной оценке модель 70b полностью превзошла самые сильные llama 3.1 405b с открытым исходным кодом, gpt-4o, claude 3 opus и gemini 1.5 pro. в частности, она напрямую превзошла математический тест gsm8k.набрал 99,2%。

этот результат также заставил ноама брауна, ученого openai и отца покерного ии, с энтузиазмом открыть микрофон:

gsm8k набирает 99%! можно ли официально отказаться от этого показателя?

как только модель появилась в сети, пользователи сети были ошеломлены пробной версией, и meta также активно поддерживала увеличение вычислительной мощности.

в тестах пользователей сети reflection 70b может отвечать на вопросы, на которые есть неверные ответы в наборе данных gsm8k:

я представил проблемы «ground_truth» модели 5, существующие в gsm8k, которые по своей сути неверны.
вместо того, чтобы повторять неправильные ответы в наборе данных, модель правильно их дала, что впечатляет.показывает, что точность 99,2% достигается не за счет запоминания набора тестов.！

легко сосчитать все виды букв, дажесозданные слованесколько букв r в слове «drirrrrngrrrrnnnn» также можно посчитать правильно.

пользователи сети удивлены тем, что версия с открытым исходным кодом, созданная небольшой командой, превзошла лучшую модель с закрытым исходным кодом. теперь самую мощную модель с открытым исходным кодом можно запускать локально.

ключ 70b — это только начало. официальные лица заявили, что на следующей неделе будет выпущен более крупный вариант.отражение 405б。

ожидается, что производительность 405b будет значительно лучше, чем у sonnet и gpt-4o.

веса reflection 70b были обнародованы, а доступ к api будет предоставлен hyperbolic labs позже сегодня.

модели могут саморефлексировать и исправлять ошибки.

более подробная информация о reflection 70b, доступная на данный момент, приведена ниже.

ключом к улучшению возможностей reflection 70b является использование метода под названиемотражение-настройкаметод обучения, который позволяет модели размышлять над генерируемым ею текстом, обнаруживая и исправляя ошибки в собственных рассуждениях, прежде чем завершить ответ.

данные для обучения поступают из синтетических данных, созданных с помощью платформы glaiveai.

reflection 70b основан на инструкции llama 3.1 70b и может быть взят из reflection llama-3.1 70b, используя тот же код, конвейер и т. д., что и другие модели llama.

он даже использует стандартный формат чата llama 3.1.

однако reflection 70b вводит некоторыеспециальные жетоны, структурированный процесс вывода.

как показано в следующем примере, разделение процесса планирования на отдельный этап может улучшить эффект цп и сохранить точность результатов:

модель будет из<thinking> и</thinking> начинается выходной вывод внутри метки, и как только он будет удовлетворен,<output> и</output> окончательный ответ выводится в метке.

таким образом, он способен отделить свое внутреннее мышление и рассуждения от окончательного ответа.

существовать<thinking> раздел, модель может выводить один или несколько<reflection>этикетка, что указывает на то, что модель обнаружила ошибку в своих рассуждениях и попытается исправить ее, прежде чем дать окончательный ответ.

система подсказывает следующее:

вы — система ии мирового класса, способная на сложные рассуждения и размышления. рассудите запрос внутри тегов, а затем предоставьте свой окончательный ответ внутри
теги. если вы обнаружили, что в какой-то момент допустили ошибку в своих рассуждениях, исправьте себя внутри тегов.
(вы — система искусственного интеллекта мирового класса, способная к сложным рассуждениям и размышлениям. рассуждайте о запросах внутри тегов, а затем
укажите окончательный ответ в теге. если в какой-то момент вы обнаружите, что рассуждаете неправильно, исправьте себя внутри ярлыка. )

стоит также отметить, что в ходе эталонного теста все тесты были проверены на наличие загрязнений и изолированы с помощью llm decontaminator от lmsys.<output> раздел и протестируйте этот раздел в одиночку.

при использовании reflection 70b чиновник также поделился некоторыми советами:

первоначально рекомендуется, чтобы температура параметра была равна 0,7, а top_p — 0,95.
для повышения точности лучше всего добавить в конце подсказки «подумайте внимательно».

официальные лица также заявили, чтоотчет будет опубликован на следующей неделес подробным описанием процесса обучения модели и результатов.

создано предпринимательской командой агента

за reflection 70b стоит небольшая команда во главе с генеральным директором hyperwriteai. матт шумервести.

по данным linkedin, матт шумер — серийный предприниматель, окончивший сиракузский университет в сша и в настоящее время являющийся соучредителем и генеральным директором othersideai.

othersideai — компания, занимающаяся разработкой приложений для искусственного интеллекта, занимающаяся разработкой самых передовых в мире инструментов автозаполнения с помощью крупномасштабных систем искусственного интеллекта. она также является автором hyperwrite.

hyperwrite — это агент управления браузером, который может управлять google chrome, как человек, для выполнения ряда задач, таких как заказ пиццы:

как и gpt-llm-trainer, вам нужно только описать цель в тексте, и он выполнит ее, перечислив шаги.

когда он был впервые запущен, утверждалось, что он «лучше, чем autogpt».

hyperwrite также можно установить как расширение google.

кроме того, матт шумер основал visos, когда учился в старшей школе, и занимается разработкой следующего поколения программного обеспечения виртуальной реальности для медицинских целей.

также основал furi, компанию, стремящуюся революционизировать индустрию спортивных товаров, создавая высокопроизводительную продукцию и продавая ее по справедливым ценам.

хотя есть поддержка meta, пробная версия на данный момент открыта, но она все равно: временно недоступна.

если вас интересует детская обувь, вы можете сначала разместить заказ~

https://reflection-playground-production.up.railway.app/

справочные ссылки:
[1]https://huggingface.co/mattshumer/reflection-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

новости

новый король больших моделей с открытым исходным кодом отменил gpt4o, новая технология может самокорректироваться, а mathematics 99.2 максимально исчерпал набор тестов.

модели могут саморефлексировать и исправлять ошибки.

создано предпринимательской командой агента

введение

моя контактная информация