новости

можно ли сравнить новую модель openai с докторской степенью? я попросил доктора цинбэя попробовать его: проснитесь.

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

честно говоря, терпеть не могу эти компании, они всегда среди ночи совершают большие ошибки. . .

на этот раз компания под названием openai без всякого уведомления выпустила новую модель, о которой все давно думали.

я уже упоминал, что клубника – это не клубника. фотография клубники гуляет уже несколько дней.

в результате на этот раз новая модель не имеет ничего общего с strawberry hair, а имеет совершенно новое имя.оепн ии модель о1

и эта штука уже известна как zenith star technology от openai. ultraman напрямую опубликовал сообщение, в котором говорилось, что это их самая сильная и последовательная модель на данный момент.

отличие от предыдущих раз в том, что openai особо не хвастался тем, насколько эта штука крутая, но те немногие картинки, которые она выдавала, заставляли людей чувствовать себя немного оцепенелыми.

как показано на рисунке ниже, можно объяснить результаты трех тестовых проектов, а именно международной математической олимпиады, соревнований по программированию и научных задач докторского уровня.

самый левый здесь — gpt-4o, средний — это открытая в настоящее время предварительная версия o1, а высокий красный столбик в крайнем правом углу — это полная работоспособность o1. взгляните, практически каждый предмет, о1 по сравнению с его предшественниками,оба улучшения близки к 8-кратному. . .

если разобрать результаты этих тестов, новый o1 превосходит 4o почти во всех дисциплинах и областях.

что действительно заставляет плохих рецензентов чувствовать себя ужасно, так это то, что openai заявила, что специально пригласила докторов наук, чтобы ответить на вопросы.

результаты основаны на результатах тестов на докторскую степень,мы видим, что баллы за ответы o1 превысили баллы докторантов. o1 набрал 78, люди — 69,7. . .

даже доктор проиграл, так что я имею в виду по сравнению с ним?

чувствительные пользователи сети были немедленно шокированы. он снова начал кричать, появился новый бог.

если вы просмотрите его случайно, вы найдете сверхвысокие оценки со словом «что?». «просто потрясающе!», «ближе всего к человеческому мышлению»

многие из наших друзей даже приходили к нам за кулисы и с умилением говорили: о1, в тебе действительно что-то есть.

звучит потрясающе? сами openai, очевидно, думают так же.

конкретная сумма денег, потраченная на него openai, не озвучена, но по использованию пользователей хорошо видно, что эта штука стоит немалых денег.

o1 предварительный просмотр 15 долларов сша за миллион входов, 60 долларов сша за миллион выходов

то, что доступно пользователям на этот раз, — это даже не полнокровная версия, а ранняя предварительная версия и небольшая кастрированная версия.

даже если вы просто пробуете это впервые, это не только не бесплатно, но даже если вы платите за членство, количество ваших вопросов и ответов будет ограничено.в предварительной версии всего 30 записей в неделю, а в мини-версии — только 50 записей в неделю. . .

хотя это немного дороговато, мы определенно не можем позволить openai хвастаться тем, что он говорит.

разве они не говорили, что это больше, чем врач?плохой рецензент открыл несколько аккаунтов и нашел нескольких врачей, чтобы проверить это лично.

в целях обеспечения профессионализма и объективности к участию в оценке мы специально пригласили кандидатов наук трех наук и комплексных дисциплин, включая биологию, физику твердого тела, химию материалов и др.

в,нанкинфизика твердого тела в университетеоценка, данная доктором цуи, является самой высокой среди нескольких человек. он чувствует, что о1 достиг уровня 60-80 баллов (из 100).

даже частичные ответы могут дать 90 баллов.

первый вопрос от доктора цюи:распространение запутанных фотонов на большие расстояния есть ли способ преодолеть белый шум?

примерно за 9 секунд o1 выдал 10 возможных измерений.

конечно, мне не понятен ни один момент. тем не менее, оценка доктора цуи в порядке: ответы являются исчерпывающими, соответствуют последним достижениям существующих исследований и являются ответами научно-популярного уровня.

среди них упомянутое направление адаптивной оптики является даже последним научным достижением этого года.

сравнивая его со старой версией 4о, сразу вижу разницу.

не говорите, упоминалось новое направление или нет, оно просто было дано.по количеству мер разница большая.

поэтому далее мы специально спросили о новом направлении адаптивной оптики:какой принцип квантовой запутанности используется для улучшения отношения сигнал/шум? можно ли распространить это на квантовую адаптивную оптику?

после нескольких раундов ответов доктор цуй поставил высокую оценку в 80-90 баллов. он также великодушно признался мне, что часть мышления была его слабым местом и послужила ключом к его направлению.

однако, когда мы позже спросили, проблема обнаружилась. когда его спросят о более сложных деталях эксперимента, эффективность ответа o1 снизится.

но в целом с точки зрения физики производительность o1 довольно хорошая. по сравнению со старой версией улучшение в основном составляет около 20 пунктов.

однако в тесте openai физика получила высший балл. поэтому мы привезли еще одинматериалы для чтения пекинского университетахимическаядоктор к., я хочу задать несколько непростых вопросов по химии, у которой самый низкий рейтинг.

доктор к. окружаетfe-n4 был задан ряд вопросов, и o1 дал длинный список ответов. чтобы упростить изложение, мы показываем здесь только некоторые вопросы и результаты.

после общего теста оценка доктора к. была аналогичной: у него может быть высшее образование, но его глубокое понимание и способность предлагать решения относительно слабы, и он в основном отвечает на вопросы, основанные на известном содержании.

например, на вопрос, как настроить fe-n4, o1 может сказать, что это основано на электронной регулировке состояния, но что, если вы спросите?регулировать, оно немного застревает.

хоть ерунды и меньше, чем у gpt4o, но ни один из них не может дать много советов по конкретным вопросам. старая версия теряет детали и говорит ерунду, а новая версия имеет ограниченные возможности и будет теряться в словах.

помимо этих двух, биология определенно незаменима в третьей науке и общеобразовательных предметах.

мы также проконсультировалисьдоктор синь из университета цинхуа, изучает биологию., его вопрос: " как отличить лактилирование и карбоксиэтильную модификацию остатков лизина из набора данных масс-спектрометрии?

хотя я этого не понял, o1 также дал очень длинный ответ, похожий на рецензию на статью, с прикрепленными в конце ссылками.

но неожиданно, когда мы дали этот ответ доктору синю, он после прочтения обнаружил, что что-то не так, и на первый взгляд это была настоящая проблема.

дело не в том, что все ответы ии были неправильными; если вы случайно выберете это в ссылках, этой статьи не существует вообще!

хотя он был отредактирован, он не отредактирован полностью. вообще говоря, университет доктора цинхуа по-прежнему считает, что он намного лучше, чем предыдущий ии. по крайней мере, способность к пониманию видна невооруженным глазом, и редактирование также очень похоже. . . .

однако существуют различия в оценке докторских степеней по разным направлениям, которые также могут быть связаны с собственными областями специализации o1.

судя по официальным общеобразовательным баллам по естествознанию, хотя балл gpt4o по биологии выше, чем по химии и физике, на этот раз o1 совсем другой.

оценка o1 по физике достигла 92,8, что намного выше, чем по двум другим предметам. возможно, поэтому доктор цуй настроен более оптимистично.

вообще говоря, когда речь идет о преодолении профессионального уровня докторантуры, врачи считают, что притормозить все же необходимо.

доктор цуй прямо сказал, что в реальных научных исследованиях ученым в большинстве случаев приходится делать это самостоятельно. ии может давать только общие указания, поэтому нет смысла тратить деньги на такой подробный ии.

онбольше рекомендуется для студентовесли вы выберете этот ии, если вы находитесь на уровне магистра или доктора, то ответы ии фактически не соответствуют стандартам преподавателя, и вас обязательно будут критиковать на собрании группы.

доктор синь из университета цинхуа также придерживается этой точки зрения. не говоря уже о проблеме литературы по изготовлению галлюцинаций с точки зрения профессионального уровня, ответ ии также является.вы можете только обмануть своих коллег, то есть людей разных направлений в одной профильной дисциплине, в глазах младших коллег и людей, специализирующихся в этом направлении, недостатки ии по-прежнему весьма очевидны;

доктор к. из пекинского университета углубился в эту тему. он считает, что об этом ии можно сказать только на уровне магистратуры по познанию, но он всего лишь мастер и ничего не может сказать о творческих достижениях.с точки зрения творчества ии далеко уступает уровню магистра., что также является важной проблемой, которую должен решить ии.

в оценках врачей мы, кажется, можем уловить важный момент: причина, по которой модель o1 относительно сильна, заключается в том, что она имеет более высокомерную когнитивную и мыслительную модель.

это также основная идея этого обновления o1. мы нашли статью «учимся рассуждать с помощью llm» на официальном сайте openai. в статье говорилось, что основная причина заключалась в том, что они использовали длинную цепочку мыслей (cot, chain of thought) вместо традиционной цепочки подсказок (prompt chain). .

на первый взгляд это кажется немного запутанным. честно говоря, эта большая модель изменила прежний образ мышления, когда вы спрашиваете, а я отвечаю.

в предыдущем режиме отвечать на вопросы по большим моделям было похоже на подсознательный ответ на вопрос. например, если бы вы спросили меня, какого цвета небо, я бы мгновенно ответил «синий», даже не задумываясь об этом. на самом деле это требует, чтобы я уже знал этот пункт знаний, а затем дал вам прямой ответ.

но эта длинная цепочка размышлений эквивалентна не только знанию того, что такое синий цвет, но и рассуждению о том, почему он синий, атмосферному рассеянию и спектральным длинам волн, и все это необходимо принять во внимание.

другими словами, для этого требуется, чтобы ии обладал способностью реально выстраивать логику, рассуждения и аргументацию., ему нужно не только развивать свой мозг, но и использовать его.

хотя концепция цепочки мыслей была предложена google в 2022 году, openai на этот раз первой реализовала ее.

во время фактической работы, теперь, когда вы разговариваете с моделью o1, вы можете не только получать ответы, но и расширять и видеть логику его мышления при ответе на вопросы. его мышление является конкретным, а не черным ящиком.

например, возьмем вопрос доктора цюи: «есть ли способ преодолеть белый шум при распределении запутанных фотонов на большие расстояния?» процесс мышления в модели o1 выглядит следующим образом:

однако, так же, как он может решить проблемы в профессиональных сферах, кажется, что некоторые простые вопросы в повседневных сценариях также могут поставить его в тупик.

возьмем предыдущий пример классического сравнения версий 9.11 и 9.8. сяохуншу @小水, как только проснулся, обнаружил, что эта штука «рушится, как только достигается сложность… бесконечный цикл и толкает цепочку мыслей ( cot) как сумасшедший»

наша редакция также обнаружила эту проблему во время собственной оценки, но на вопрос почему она сразу ответила, что ее рассуждения неверны, а затем сделала повторный вывод.

ладно-ладно, ты достоин быть врачом, ты умеешь находить ошибки, да?

после целого раунда тестирования отрицательный рецензент должен признать, что система действительно значительно улучшилась. увидев друг друга три дня, мы действительно должны смотреть друг на друга с восхищением.

по эффекту оно действительно лучше предыдущего поколения, иприменение долгосрочного мышления полезно для будущего развития ии.

но после того, как несколько врачей по очереди пороли его, его проблемы стали ясно видны в некоторых аспектах, таких как творчество, творчество.он не может заменить экспертов-докторов наук

однако ноам браун, исследователь из openai, сообщил, что будущие версии o1 будут думать часами, днями или даже неделями. хотя это потребует больше денег, оно оправдает затраты на такие задачи, как разработка противораковых лекарств.

кроме того, я думаю, что модель цепочки мышления, реализованная gpt o1, вероятно, будет похожа на предыдущую архитектуру transformer и архитектуру dit.лидерство в мире в направлении больших моделей

поэтому дорога к agi не близка, но и не далека, жду, когда рядом по очереди появятся игроки из разных компаний.

написать статью:наси и большая четверка

редактировать :цзян цзян и лапша

художественный редактор :хуаньян

фотографии, источники : openai, x, ibm, xiaohongshu и т. д., picture source network.