ニュース

openai の新しいモデルは博士号に匹敵しますか?私は青北博士にそれを味わってもらいました。目を覚ましてください。

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

正直に言うと、私はこれらの企業に我慢できません。彼らはいつも真夜中に大きな間違いを犯します。 。 。

特にopenaiという名前ですが、今回は誰もが長い間考えていた新しいモデルを何の前触れもなくリリースしました。

イチゴはイチゴではないと前にも書きましたが、イチゴの写真が数日間歩き回っています。

その結果、今回の新型はストロベリーヘアーとは全く関係なく、名前も新しくなりました。オープン 人工知能 o1モデル

そして、これはすでに openai の zenith star technology として知られており、ウルトラマンはこれがこれまでで最も強力で最も一貫したモデルであるというメッセージを直接投稿しました。

前回と違うのは、openaiがこれがどれだけすごいのかをあまり自慢しなかったのですが、軽く数枚の写真が放り出され、少ししびれた感じになったことです。

下の図に示すように、国際数学オリンピック、プログラミング コンテスト、博士レベルの科学問題という 3 つのテスト プロジェクトの結果を説明できます。

ここの一番左が gpt-4o、真ん中が現在公開中のプレビュー版 o1、右端の高い赤い柱がフルヘルス o1 です。基本的にすべてのアイテムを見てください。o1 を前任者と比較して、どちらも 8 倍近い改善です。 。 。

これらのテスト結果を分析すると、新しい o1 は、ほぼすべての分野および分野で 4o を上回ります。

悪い査読者が本当にひどいと感じているのは、openaiが博士課程の専門家を特別に招待して質問に答えてもらったと述べていることだ。

結果は博士レベルの試験結果に基づいており、o1 の解答スコアが博士の専門家の解答スコアを上回っていることがわかります。 o1 のスコアは 78、人間のスコアは 69.7 でした。 。 。

ドクターですら負けているのに、それに比べて何を言うのか?

敏感なネチズンはすぐにショックを受けた。彼は再び叫び始めた、新しい神が現れた。

何気なく覗いてみると「一番」という超高評価が。 「ただただすごい!」「人間の理性に一番近い」

私たちの友人の多くも私たちのバックステージに来て、「おお、あなたは本当に何かを持っているね」と感激しながら言いました。

すごいですね? openai 自身も明らかに同じように感じています。

openai がそれに費やした具体的な金額は発表されていませんが、ユーザーの使用状況から、これには多額の費用がかかることが明らかです。

o1 プレビュー 100 万入力あたり 15 ドル、100 万出力あたり 60 ドル

今回ユーザーに公開されているのは完全版ですらなく、初期プレビュー版と小規模な去勢版です。

初めて試す場合でも無料ではないばかりか、有料会員になっても質問や回答の数には限りがあります。プレビュー バージョンには 1 週間あたり 30 件のエントリしかなく、ミニ バージョンには 1 週間あたり 50 件のエントリしかありません。 。 。

少々高価ではありますが、openai の内容を自慢させるわけにはいきません。

医師以上の存在だと言われませんでしたか?悪い批評家はいくつかのアカウントを開設し、個人的にテストしてくれる数人の医師を見つけました。

専門性と客観性を確保するために、生物学、固体物理学、材料化学などを含む 3 つの科学および総合的な分野の博士号を特別に招待し、評価に参加してもらいました。

で、南京大学での固体物理学崔博士の評価は数人の中で最も高い。 o1 は 60 ~ 80 点(100 点満点)のレベルに達していると感じています。

部分的な解答でも90点を獲得できます。

崔博士からの最初の質問:長距離にわたるもつれ光子の分布 ホワイトノイズを克服する方法はありますか?

約 9 秒で、o1 は 10 個の実行可能な措置を示しました。

もちろん、私には何一つ明確な点はありません。しかし、cui 博士の評価は受け入れられます。回答は既存の最新の研究の進歩に沿った包括的なものであり、一般的な科学レベルの回答です。

その中で、言及された補償光学の方向性は、今年の最新の科学的成果ですらあります。

古いバージョン 4o と比較すると、違いがすぐにわかります。

新しい方向性が言及されたかどうかは言わないでください、それはただ与えられただけです。対策数の点では大きな違いがあります

そこで私たちはその後、補償光学の新しい方向性について具体的に尋ねました。信号対雑音比を改善するには、どのような量子もつれの原理が使用されますか?量子補償光学に拡張できるでしょうか?

数回の回答の後、崔博士は 80 ~ 90 点の高得点を付け、その考え方の一部が自分の弱点であり、方向性のヒントになったことも寛大に認めてくれました。

しかし、後でさらに詳しく調べてみると、問題が判明しました。より難しい実験の詳細について質問されると、o1 の回答の有効性は低下します。

しかし全体として、物理学の観点から見ると、o1 のパフォーマンスはかなり優れています。旧バージョンと比較すると、基本的には20ポイント程度の改善となっております。

ただし、openaiのテストでは物理が最も高いスコアを獲得しています。そこで別のものを導入しました北京大学の読み物化学薬品ドクターk, 最も評価の低い化学について厳しい質問をしたいと思います。

ドクターkが取り囲む鉄-n4 一連の質問があり、o1 は長い回答リストを示しました。スペースを簡素化するために、ここでは質問と結果の一部のみを示します。

全体的なテスト後の k 博士の評価も同様で、大学院レベルはあるものの、深い理解力や解決策を提示する能力が比較的弱く、既知の内容に基づいた質問が中心でした。

例えば、fe-n4の調整方法を尋ねられたとき、o1は電子状態の調整に基づいていると答えることができますが、それを尋ねたらどうしますか調整する、少し引っかかります。

gpt4o ほどナンセンスな部分はありませんが、どちらも特定の問題についてあまりアドバイスできません。一方、新しいバージョンは機能が限られており、言葉を失うでしょう。

この2つに加えて、3番目の理科・総合科目では生物が絶対に欠かせません。

私たちも相談しました生物学を学ぶ清華大学のシン博士、彼の質問は次のとおりです。 質量分析データセットからリジン残基のラクチル化とカルボキシエチル修飾を区別するにはどうすればよいですか?

私には理解できませんでしたが、o1さんも最後に参考文献を添付した論文査読のような長い回答をしてくれました。

しかし、思いがけず、私たちがこの答えを xin 博士に伝えたところ、彼はそれを読んだ後、何かが間違っていることに気づき、それが一見して本当に問題であることに気づきました。

ai の答えがすべて間違っていたわけではありません。 参考文献で適当に作ったら、この論文はまったく存在しません。

編集されていますが、完全に編集されているわけではありません。一般的に、清華大学博士は、少なくとも理解力は目に見えて改善されており、編集も非常に似ていると感じています。 。 。 。

ただし、博士号の評価には方向性の違いがあり、それはo1さん自身の専門分野も関係しているのかもしれません。

公式の総合科学のスコアから判断すると、gpt4oは化学や物理よりも生物のスコアが高いのですが、今回のo1は全く違います。

物理の o1 のスコアは 92.8 に達し、他の 2 科目よりもはるかに高かったため、崔博士はこの点について楽観的であると考えられます。

一般的に医師は、専門博士のレベルを超えるとなると、まだスピードを緩める必要があると考えています。

実際の科学研究の仕事では、ほとんどの場合、ai は大まかな指示しか提供できないため、そのような詳細な ai にお金を費やすのはあまり意味がないと、崔博士は率直に述べました。

学部生にさらに推奨もしあなたが修士や博士レベルであれば、このaiを選択した場合、aiの回答は実際には講師の基準を満たしておらず、グループミーティングで間違いなく批判されるでしょう。

清華大学のシン博士も同様の見解を持っています。aiの幻覚捏造文献の問題はもちろんのこと、専門レベルの観点からもaiの答えは次のとおりです。同僚を騙すことしかできないつまり、同じ主要分野において異なる方向性を持つ人々ですが、後輩の同僚やこの方向を専門とする人々の目には、ai の欠点が依然として非常に明白です。

北京大学の k 博士は、この ai は修士課程の学生レベルの認知能力しかないと考えていますが、それは単なるいじくり回しであり、創造的な成果については何も言えないと考えています。創造性という点では、aiは修士課程のレベルにはるかに及ばない。、これもaiが解決する必要がある重要な問題です。

医師たちの評価では、o1モデルが相対的に強いのは、より高次元の認知・思考モデルを持っているからであるという重要な点が掴めたようだ。

これは、o1 の今回のアップデートの主なポイントでもあります。 openai 公式 web サイトで llm による推論の学習という記事を見つけました。その記事では、主な理由は、従来のプロンプト チェーン (プロンプト チェーン) の代わりに長い思考チェーン (cot、思考の連鎖) を使用したためであると述べられていました。 。

はっきり言って、この大きなモデルは、あなたが質問して私が答えたこれまでの考え方を変えました。

以前のモードでは、大型モデルの問答は、たとえば空は何色かと聞かれたら、何も考えずに即座に青と答えていたのと同じでした。実際には、この知識ポイントをすでに知っていて、直接回答する必要があります。

しかし、この長い思考の連鎖は、青とは何かを知るだけでなく、それが青である理由、大気散乱、スペクトル波長を推論することにも相当し、これらすべてを考慮する必要があります。

そのためには、ai が実際に論理、推論、議論を構築する能力を必要とします。、彼は脳を成長させるだけでなく、頭を使う必要もあります。

思考連鎖の概念は2022年にgoogleが提案したが、今回はopenaiが初めて実装した。

実際の操作では、o1 モデルと会話しているため、質問に答えるときに、回答を得るだ​​けでなく、彼の思考ロジックを展開して確認することもできます。彼の思考は具体的であり、ブラック ボックスではありません。

たとえば、「長距離もつれ光子分布におけるホワイトノイズを克服する方法はありますか?」という cui 博士の質問を考えてみましょう。o1 モデルの思考プロセスは次のとおりです。

しかし、専門的な分野の問題を覆すことがあるのと同じように、日常的な場面でのいくつかの単純な疑問によってもつまずいてしまう可能性があるようです。

前述の 9.11 と 9.8 の古典的な比較の例を見てみましょう。xiaohongshu ネチズン @小水は、目が覚めるとすぐに、これは「困難に達するとすぐに崩壊します...無限ループになり、思考の連鎖が押し進められる」ことに気づきました。 (cot) 狂ったように」

編集部も独自の評価中にこの問題を発見しましたが、理由を尋ねると、その推論はすぐに間違っていると答え、再度推論し直します。

わかった、わかった、さすが医者、間違い探しが上手いよね?

一連のテストを終えた後、否定的なレビューを行った人は、実際に大幅に改善されたことを認めざるを得ません。三日間会った後は、本当に感心して見つめ合うべきです。

効果という点では、確かに前世代よりも優れていますが、長期的な思考を適用することは、ai の将来の発展にとって良いことです。

しかし、数人の医師が交代で鞭打ちをした結果、創造性などのいくつかの面でその問題が明らかになった。人間の博士号専門家に取って代わることはできません

しかし、openai の研究者である noam brown 氏は、o1 の将来のバージョンでは、より多くの費用がかかるものの、抗がん剤の開発などの作業に費やす価値はあると明らかにしました。

また、gpt o1が実装する思考連鎖モデルは、これまでのtransformerアーキテクチャやditアーキテクチャに近いものになる可能性が高いと思います。世界をリードする大型モデルの方向性

ですので、agiへの道は近いわけではありませんが、遠いわけでもありません。次は各社の選手が交代で登場するのを楽しみにしています。

記事を書く:ナシ族と四大族

編集 :ジャンジャン&ヌードルズ

アートエディター :華艶

写真、ソース :openai、x、ibm、xiaohongshuなど、画像ソースネットワーク