
7,340 文字

やあみなさん、フューチャークルーへようこそ。今日は非常にエキサイティングなニュースがあります。オープンAIのクリスマス12日間の初日に、最初の大きなクリスマスプレゼントを受け取りました。それはo1推論モデルの完全版です。サム・アルトマン自身の言葉によると、これは地球上で最も賢いモデルとのことです。試してみましょう。彼らはまたPRモードもリリースしましたが、これについては200ドルの購読料を準備できた後で見ていきます。今は、サムが大多数の人々にとって十分だと主張する完全版モデルを見ていきましょう。ミニ版とプレビュー版で行った同じテストを実施します。ベースラインについて知りたい方は、それらの動画をチェックしてください。さあ、始めましょう。ということで、o1がリリースされました。準備が整ったので、2つの実世界の例から始めていきます。最初に、いつものように、コーディング例を見ていきます。この例では、惑星がある手続き型のようなゲームを作ってみます。準備した素材がいくつかあることにお気づきかと思います。新しいo1は画像を与えることができる、基本的にマルチモーダルであることがわかっています。まず初期のプロンプトを与え、その後画像を与えて改良できるかどうか見てみましょう。実世界の例から始めますが、数学の問題では非常に印象的に見えても、実際の問題でどのように推論するかについてはまだわかりません。プロンプトはシンプルで、3jsを使って惑星をレンダリングし、すべてを単一のHTMLファイルに入れるように依頼しているだけです。実行が簡単になりますからね。6秒というのは悪くありません。スクロールしていくと、o1はo1プレビューからの改善点が見られますが、o1プロはもっと長い計算時間がかかります。6秒というのは短いですね。パーリンノイズの実装も見られて良いですね。実行してみましょう。かなりでこぼこした惑星ですが、惑星らしきものができました。少なくとも照明効果があり、回転もします。実際にかなりの実装がされています。ここでのテストの重要な点は、曖昧なプロンプトでの実世界のコーディング能力です。人々は必ずしも常に難しい数学の問題を持っているわけではありません。遺伝的な観点からどれだけ上手くなっているか試してみたいと思います。これはトレーニングデータにあるはずなので、そこまで難しい問題ではありません。より難しい問題に取り組むためにフィードバックを与えてみましょう。これが大きな飛躍かどうかを言うのは難しいですが、後退していないのは良いことです。次に与えるフィードバックは、これらの推論レベルのモデルがより優れていることを期待する部分です。より費用がかかり、時間もかかるので、印象的であるためにはより良くなければなりません。新しい改良を加えてみましょう。ジェイコブが行っているように、実際の惑星のような物体を紙に描いて、その写真を撮ってo1に与えます。すでに円形の球体ができているので、それが惑星だと認識し、編集する必要があることを理解することを期待しています。まずカメラに見せましょう。三角形を示すために惑星の非常に雑な描画をしました。山、水、丘のある草地があります。これらを認識し、このより難しい課題を実装できるかどうか見てみましょう。改良のプロンプトを入れました。かなりシンプルで、モデルが私たちが与えたものをどのように受け取るかを見ようとしています。先ほど見た描画を与え、最後は意図的に曖昧にしています。水、緑、山について考えろとは言わず、色を使って表現しました。標高に基づく着色を見ているようですね。青と緑を理解しています。待ってください、複数のオクターブを組み合わせると言及していますね。これが私が求めていたキーポイントです。単純なパーリンノイズを使用していて、より複雑で自然な見た目にするには複数のオクターブを使用する必要があることを理解してほしかったのです。また、ディランが指摘したように色も理解しています。10秒で描いた画像の理解という最初のステップは非常に良好です。次に、効果的に長いプロンプトを書いたこの内容を取り、実際に実装できるかどうか見てみましょう。興味深い質問は、最初からこの長いプロンプトを与えていたら考えていたかということです。おそらくそれもテストすべきでしょう。とにかく、まずコードを見てみましょう。これは非常に印象的なものです。1年前を振り返ると、テックデモはありましたが、この描画から実際に何かを作れるようになってきているのは確かな進歩です。標高に基づく着色を行い、より変化に富んだ地形になっています。海を平らにするように頼むこともできますが、問題をよく理解していることは確かです。もう一つプロンプトを与えて、より視覚的に魅力的にする方法を考えさせてみましょう。背景の星空、惑星の回転…まさか一度にすべてやってくれるわけないですよね。まだ書いていて、考えたのは5秒だけです。なぜ考えの詳細を示さないのでしょうか。興味深いですね。5秒しか考えなかったので、生成するには十分ではなかったのかもしれません。実際にはトークンを表示せず、途中でデコードする処理があるようです。回転、星空、大気、色のグラデーションを主張していますが、それは多くの作業です。何が起こったか見てみましょう。なんということでしょう。良くなりましたか?回転していますか?はい、回転しています。見るのが少し難しいかもしれませんが、確かに回転しています。色の間のスムージングも明確に見えます。これはかなり印象的です。公平を期すために、これは私たちの最初の反応で、思いつきでプロンプトを試しただけです。過去の他のモデルはこの種の課題に本当に苦戦してきました。Sonetは惑星を作る最初のステップまでは到達できましたが、地形間のスムージングやこのようなものは、YouTubeにたくさんの解説動画がありますが、過去のモデルではできなかったことです。これは確かにコーディング能力の一歩前進です。次の例に移りましょう。これも非常に印象的でした。次も実世界の例ですが、難しい問題ではなく、より曖昧な問題で、投資について質問します。株式への投資をすべきかどうかについて、少し推論してもらいたいと思います。最初のプロンプトは、知識のカットオフを見てテストすることに焦点を当てます。情報を与えずに、この問題についてどのように考えるか見てみましょう。その後、最新の情報を与えます。株価チャートとチャットGPTが生成した以前の情報が含まれたPDFがありますので、それを示して推論が調整されるか見てみましょう。プロンプトはかなりシンプルで、知っていることに基づいてテスラに投資すべきかどうかを尋ねています。複数の角度から考えるように促しています。ワオ、明らかに正しい情報を得ています。価格戦争、車以外のイノベーション、エネルギーと蓄電、自動運転、そしてイーロン・マスク要因です。ある意味、これは考えを求めていないので、本当にすべての質問を求めているようなものです。では、本当の質問をしてみましょう。基本的に、チャットGPTにテスラとイーロン・マスク、そして大統領選についての過去6ヶ月の詳細な要約をウェブ検索で求めました。これはかなりの量です。この情報と株価情報を与えて、何を読み取れるか、どのような結論を導き出せるか見てみましょう。基本的に、テスラの最近の数ヶ月についてのPDFテキストの要約と、過去6ヶ月のテスラの株価チャートを与え、これらすべてについて深く考え、分析を行うように求めました。今日何をすべきか、そして特定の事態が発生した場合の将来の行動についても答えてもらいます。4秒考えているようですね。このモデルにもっと考えさせることができないのは残念です。これはo1とo1 Proの違いかもしれません。iPhoneのように考えてしまいますが、おそらくProバージョンはより考えるように調整されているのでしょう。プラスユーザーはこれを使えるので、かなり抑え気味なのかもしれません。もっと考えるトグルがあれば良いのですが。明らかに、すべての情報を理解しています。納入目標、サイバートラックの発売など、これはすべてウェブ検索から得た情報です。ウェブ検索の方法の例も示せます。チャットGPTを使ってこの情報を取得しました。将来的にはウェブ検索があれば、この手動のステップは必要なくなるでしょう。今日はテストのために手動で行っています。そして、これは興味深いリスク要因です。これは正確にはドキュメントにはなかったものです。これは考え始めているということで、現在の高い評価、これは正しいです。新しいベンチャーでの実行リスクや自動運転タクシーなど、情報を拾い上げています。今日の推奨事項として、楽観的な仮定が多く織り込まれているとしています。慎重なアプローチを提案していて、私もこれに同意します。最近のニュースへの反応が多くあり、特にイーロンとトランプの関係が変化した場合など、その最近のニュースがどれだけ長く価格に織り込まれ続けるかはわかりません。長期の信者にとってはホールドというのは理にかなっています。そして、何が起こり得るかを述べているのは興味深いですね。これは重要な触媒になる可能性があります。これは実際に考え始めているところです。他のモデルではこのような構成やアプローチを見ることはあまりありません。これは新しい領域に入り始めています。例えば、大手企業のインターンがこのような文書を作成したとしたら、これはかなり悪くないですね。他のモデルにこのような質問をすると、以前の動画でリンクを貼りますが、非常に一般的な回答しか得られませんでした。「収益が上がれば買い」というような答えです。確かにそうですが、この場合は与えられたデータだけでなく、テスラとその事業の歴史について持っている知識も適用しています。モデルからほとんど考える時間を与えられていないにもかかわらず、以前よりも確実に良い回答です。従来のモデルとは明らかに異なる考え方をしています。おそらくわずかに優れているかもしれません。難しいのは、このテキスト出力は非常に主観的だということです。一部の人々は単に1段落でイエスかノーを求めるかもしれません。これは明らかに中間的なもので、「見て、あなたが言ったことをやりました。詳細な分析を提供しました」というものです。これは素晴らしいです。最後の矢印付きの部分も素晴らしいですね。このようなものは見たことがありません。これは今や人間が作るようなものに見えます。人間が書いたのかどうかさえわからないくらいです。このようなラベル付けは…このタイプの質問は評価が本当に難しいです。視聴者の方々が自分で使ってみて、どう感じるか興味があります。このような主観的な質問で、o1がより良くなっていると思うかどうか、コメントで教えてください。個人的には、これは40から得られる回答よりも良いと感じます。近々行う必要があると話していたように、完全版o1を他のモデルと比較する必要があります。o1ミニ、40、ニューオンと比較して、これらのモデルが本当にどこで頭角を現しているのか、どこが最も優れているのか見極める必要があります。最後のテストに移りましょう。モデルのエージェント的推論の性能を見てみたいと思います。今朝のプレゼンテーションでサムは、このモデルが良いエージェント的推論者になるように設計されていることを示唆していました。エージェントとして最も重要な部分の一つは、計画を立て、その計画を目標達成につながる方法で実行することです。人間でこれをテストする最もよく知られたテストの一つが「ロンドンの塔」です。o1ミニとo1プレビュー、そして他の多くのモデルでこのロンドンの塔テストを実行した動画へのリンクを貼ります。ネタバレになりますが、すべてのモデルがある程度失敗しています。o1プレビューが一度うまくいった時がありましたが、それ以外は本当に難しかったです。画像を貼り付けましょう。この画像はテストを説明するものです。開始状態があり、ペグに玉が置かれています。一度に一つの玉だけを動かすことができ、一番上の玉だけを動かせます。通常これは木製のおもちちゃで行われます。開始状態から、推論を使って最小の手数で目標状態に到達する必要があります。この動画を見ている大人なら簡単にわかると思いますが、目標状態に到達するには、緑の上から赤を取り除いて、緑をAペグに移動する必要があります。いくつかの入れ替えが必要で、最終的に終了状態に到達します。前述の通り、モデルはこの課題で必ずしも良い成績を収めているわけではありません。むしろその逆で、非常に困難な課題でした。これは私たちがまだエージェントを持っていない理由を示しています。このモデルが最もエージェント的なものだと主張されているので、このテストでどうなるか非常に興味があります。考えているようですね。興味深いことに、私たちはカットしましたが、より深い指示なしで送信したとき、単にテストの説明を求めているだけだと思い、考えませんでした。これは数秒以上考えさせることができた初めてのケースで、15秒考えました。詳細はありませんね。では、ステップバイステップの解決策を見てみましょう。ビジュアルを表示して、一緒に確認していきましょう。右側に開始状態と目標状態があります。これは自由形式のホワイトボードなので、o1の手順を確認しながら更新していきます。まず、開始状態を理解できているか確認しましょう。はい、開始状態は理解していますが、目標の構成を理解していませんね。すでに失敗です。ここからテキストをコピーペーストして修正し、画像とテキストの両方で問題をより理解できるようにプロンプトを再実行してみましょう。戻ってきました。プロンプトを再読み込みし、開始状態と目標状態の両方をテキストと画像で説明し、ルールと問題を解くための要求も含めました。どうなるか見てみましょう。考えています。2秒以上考えていますね。これをさらにテストし続けます。おそらくこの部分は少し編集することになりますが、これは物理の仕組みについての実世界の理解であり、多くのモデルがここで失敗しています。状態を正しく理解しているか確認しましょう。時々画像を誤解することがあります。その後、移動が正当かどうか確認するために、その移動をコピーします。右側で見えるようにしましょう。BからAに赤を移動します。これは正しい移動です。次にAからCに赤を移動します。青は… 待って、何をしているんでしょう。ここで誤った仮定をしています。BからAに緑を移動します。空のAに緑を置きます。いいですね。CからBに赤を移動します。赤があちこち動いています。混乱させています。CからAに青を移動して緑の上に置きます。最終状態が目標状態と完全に一致するか確認します。これは読みやすく書かれていたかもしれませんが、うまくいきました。正直に言って、適切に機能し始めているのが見え始めています。上にスクロールすると、なぜか大きい部品と小さい部品だけを動かせるとか、通常は赤い部品が青い部品よりも小さいといった仮定を追加しているようです。通常の物理的なパズルでは異なるサイズのリングがあり、目標は積み重ねることなので、そこで混乱しているのだと思います。しかし、これは確実に進歩です。o1プレビューとミニはこれで苦戦していましたよね。苦戦していました。良いプロンプトを与えれば解決できるというわけではありませんでした。将来の動画でおそらく行うことの一つは、これをスケールアップして、特にソネットと比較する際に、誰が勝者かを決定したいと思います。4本のペグや5個の玉にスケールアップして、問題が始まるかどうか見てみましょう。このテストの良い点の一つは、ロンドンの塔テストのルールはトレーニングデータに含まれていますが、特定のインスタンスはトレーニングデータに含まれていないということです。これを推論して、エージェント的に見えることができたのは確実です。全体的にo1は印象的でした。これは単なるメディアテストで、実行したかったものですが、確実にo1プレビューよりも多くの面で良好なパフォーマンスを示しています。ロンドンの塔は私にとって大きなテストでした。コーディングやビジネスタスクでの微細な進歩を見るのは良いことですが、これまで見たことのない問題を推論し、与えられたルールとツールを使用して、実際に解決策に到達する計画を立てることは、モデルが大きく欠けている部分でした。そして、これは良いエージェントに必要なものです。これは本当の知能ですよね。これらが知的だと思い込んでいましたが、実際にはそうではありませんでした。今、私たちは「ちょっと待って、理解できるようになってきた。このペグを単に通り抜けさせることはできない」というように、実際にルールと物理学を理解し始めている兆しを見ています。これは驚くべきことです。確かにもっと見てみたいですね。言ったように、他のモデルと比較してテストを実施し、いつか誰かがプロモードを試す決心をするでしょう。この旅に興味がある方は、ぜひ購読してください。動画が良かったと思えばいいねをお願いします。インタラクションは私たちのチャンネルの成長に本当に役立ちます。まだ新しいチャンネルなので。オープンAIが復活し、次の数日間で何か面白いリリースがあることを期待しています。それではまた次回お会いしましょう。さようなら。
コメント