o1-プレビュー: 驚くべき11の使用例

8,847 文字

せやから、OpenAIの新しいモデルがリリースされて、多くの人がこのモデルを実際にどう使えるんかって気になってるんやけどな。よく聞かれる質問の一つが、このモデルをどないして効果的に使うんかってことやねん。
この質問がめっちゃ多いのは、このモデルが基本的に推論モデルやからなんや。従来のチャットAIとはちゃうねん。このモデルは超賢くなるように訓練されてるから、いろんな問題について長い手順で推論できるんや。
このモデルがめっちゃ賢いから、普通の人やったらこのモデルの使い道がわからへんかもしれん。評価とか他のいろんな指標を見ると、これがめっちゃ賢いってわかるんやけど、それが即応用できるっちゅうわけやないねん。
せやから今日は、超賢いモデルをどないして活用できるか、たとえプログラミングコンテストで89パーセンタイルの成績を取るモデルとか、人間の博士レベルのモデルが必要ないとしてもな、実際の日常生活で使える方法について話していくで。
この動画の後半では、5つの主要なカテゴリーについて説明するから、最後まで見てな。少なくとも一つのカテゴリーがあんたの生活のどっかで役立つかもしれんで。このモデルができることに驚くかもしれんで。
まず最初に、このモデルでできることの一つは、めっちゃ優秀なコーダーってことやな。最近、このモデルが難しい問題を解決できるって話したけど、多くの人が見逃してるのは、このモデルがコーディングにめっちゃ強いってことやねん。
例えば、ここでいくつかの例を紹介するで。コーディング経験が全くない人でも、使えるプログラムを作れたんや。せやけど、なんでこれがすごいのか、日常的に使う上でどないして凄いのか、説明していくで。
ここで見てもらえるのは、ある人が「o1プレビューで、HTMLだけで3DのFPSゲームを作った」って言うてるんや。「コーディングスキルは全くないから何度か試したけど、最終的にはうまくいった」って。
ここに見えるのは、ほんの数回のプロンプトだけで作られたゲームやねん。このモデルを使うと、他のモデルでは作れへんかったものが作れるようになるんや。例えば、服のシミュレーションとかジャンプの動きとかな。
GPT-4を知ってる人やったら、あのジャンプがコーディング能力のちょっとした改善だけでできるようになったのを覚えてるやろ。コードが一貫性があって動くようになると、人々はいろんなもんを作れるようになったんや。
これは基本的に、コーディング経験のない人のための段階的な説明やねん。コーディング経験のある人もおるやろうけど、大半の人はソフトウェア開発者やないやろ。でも、多くの人がこの能力を活用してへんのは、少なくともプログラムの基本的な仕組みを理解したり、自分でプログラムを作ったりする能力があるってことやねん。
some人は「3DのHTMLゲームをコーディングするのに、このプログラムを使えるっていうけど、それの何が大事なん？これはAAAゲームみたいに遊んだり売ったりできるもんやないやん。ただの面白い実験やん」って思うかもしれん。
そやな、この特定の例が世界を変えるようなもんやないってのは正しいな。でも、それに注目するべきやないんや。注目すべきは、コーディングの主要な概念を理解しているモデルを使って、理にかなったものなら何でも段階的に理解し、構築できるってことやねん。そして、その意味合いが思ってる以上に深いってことを説明するで。
例えば、ここで見られるのは、am_maresiが言うてることや。「OpenAI o1とCursor Composer（AIを使って効率的にコードを書けるAIアプリケーション）を組み合わせて、10分以内にiOSアプリを作った」んやと。「A1 Miniがプロジェクトを開始して、o1が考えるのに時間がかかりすぎたから、o1に切り替えて詳細を仕上げた。そしたら、ほら、10分以内にアニメーション付きの完全なiOS用天気アプリができたんや」って。
これが、段階的にコードを書いて、以前のモデルよりもずっと高い精度を達成できるシステムがあるってことで、大きなパラダイムシフトが起きてるって言うてる理由やねん。これは普通のユーザーにとってはええ結果をもたらすんや。
以前やったら、自分のiOSアプリを作ろうと思ったら、何千ドルもかかって、有能なソフトウェア開発者を1人か2人雇う必要があったんや。でも今は、AIシステムにプロンプトを与えて、自分が欲しいものを正確に理解させることができるんや。
何も分からへんくても、システムの仕組みを学べるんや。文字通り、スクリーンショットを撮って、GPT-4やo1に聞いて、自分が作ってるものや、自分がやってることを正確に理解する方法について、継続的にフィードバックをもらえるんや。
これがどれだけすごいことか、みんな分かってへんと思うわ。そして、一番悪いのは、このモデルがコーディングモデルっていうよりも、推論モデルやってことやねん。つまり、このモデルは長い時間考えて、たくさんの異なるステップが必要な難しい問題を解決しようとしてるんや。もちろん、コーディングもその範疇に入るけどな。
GPT-5や将来のAIシステムで何が作れるようになるか、想像もつかへんわ。だからこそ、今o1プレビューを使って特定のアプリケーションを作ってみるのは、たとえGPT-4があっても、意味があると思うんや。
なぜかって言うと、AIとコーディングを組み合わせる基本的な理解が得られるからや。将来、もっと良くなったときに、アプリのアイデアがあったり、自分の会社や管理のためのソフトウェアを作りたくなったりしたときに、それでどれだけお金を稼げるか、驚くかもしれへんで。
他にも、誰かがo1モデルを使って、AIの相手と対戦できる完全に機能するチェスゲームを作った例もあるんや。これの意味するところはめっちゃ大きいんやけど、OpenAIの公式ドキュメントから、彼らが特定の分野でコーディングをどう使ってるかについて、もう2つ例を挙げるわ。
o1プレビューができるけど、以前のモデルでは難しいかもしれんコーディングプロンプトの例を示したいんや。そのコーディングプロンプトは、「リスファインダー」っていう超シンプルなビデオゲームのコードを書くことや。
o1プレビューがこういうプロンプトに強い理由は、コードを書くときに、最終的な答えを出す前に考えるからなんや。この思考プロセスを使って、コードの構造を計画したり、制約に合うようにしたりできるんや。
じゃあ、これを貼り付けてみよう。プロンプトの簡単な概要を説明すると、「リスファインダー」っていうゲームは基本的に、矢印キーで動かせるコアラがおって、イチゴが1秒ごとに出現して跳ね回るんや。イチゴは避けなあかんねん。3秒後にリスのアイコンが出てきて、勝つためにはそのリスを見つけなあかんのや。
他にも、ゲーム画面にOpenAIって入れたり、ゲーム開始前に説明を表示したりする指示もあるで。
まず、モデルが最終的な答えを出す前に21秒考えたのが分かるな。その思考プロセスの間に、ゲームのレイアウトの詳細を集めたり、指示をマッピングしたり、画面をセットアップしたりしてるのが見えるわ。
ここに出てきたコードを、ウィンドウに貼り付けてみるわ。動くかどうか見てみよう。
ほら、説明が出てきたな。ゲームをやってみよう。おっと、リスがめっちゃ早く出てきたわ。あかん、イチゴに当たってもうた。もう一回やってみよう。
イチゴが出てくるのが見えるな。リスを見つけて勝てるかどうか見てみよう。おっ、勝ったみたいや！
次に見せる例は、可視化のためのコードを書くことや。時々、チャットGPTみたいなモデルの背後にある技術であるトランスフォーマーについての授業を教えてるんやけど、チャットGPTに文を与えると、単語間の関係を理解せなあかんのや。
つまり、これは単語の連続で、それをモデル化せなあかんのや。トランスフォーマーは、セルフアテンションっていうのを使ってそれをモデル化するんや。いつも思うんやけど、このセルフアテンションの仕組みを可視化して、インタラクティブな要素を加えられたらめっちゃええなって。ただ、そのスキルがなかってん。
そこで、新しいモデルのo1プレビューに助けを求めてみよう。このコマンドを入力してみて、モデルがどうするか見てみよう。
GPT-4.0みたいな以前のモデルとは違って、出力する前に考えるんや。考え始めたから、どんな要件を与えてるか見せるわ。
たくさんの要件を考えるように言うてるんや。まず一つ目は、「the quick brown fox」っていう例文を使うことや。二つ目は、トークンにカーソルを合わせたときに、アテンションスコアに比例した太さのエッジを可視化することや。つまり、二つの単語がより関連性が高ければ、エッジを太くするってことやな。
既存のモデルによくある失敗のパターンの一つは、たくさんの指示を与えると、その中の一つを見逃してしまうことなんや。人間が多すぎる指示を一度に与えられたときに一つを見逃すのと同じようにな。
でも、この推論モデルはゆっくりと注意深く考えられるから、各要件を深く検討できるんや。そうすることで、指示を見逃す可能性が減るんやな。
この出力コードを、ターミナルにコピペしてみるわ。2024年のエディタ、つまりVim HTMLを使うわ。これをそこに貼り付けて保存するだけや。
ブラウザで開いてみると、これにカーソルを合わせると矢印が表示されるのが分かるな。「quick」と「brown」とかな。カーソルを外すと消えるんや。
これをクリックすると、頼んだ通りにアテンションスコアが表示されるんや。ちょっとレンダリングの問題で重なってるけど、それ以外はほんまに自分でできるよりずっとええもんができたわ。
このモデルはめっちゃうまくやってくれたと思うわ。これは、新しい授業セッション用にいろんな可視化ツールを考え出すのに、めっちゃ役立つツールになりそうやな。
次の分野は、今すぐには必要ないかもしれんけど、めっちゃうまく機能してるのを見たんや。それはビジネスや経営のアドバイスやねん。
このモデルがめっちゃ優秀な理由は、ビジネスや経営では、日々の意思決定に影響する多くの要因を考慮せなあかんからや。これはあんまり活用されてへんと思うわ。ほとんどの人は従業員やからな。
でも、副業を始めたいと思ってるなら、これはビジネス面でめっちゃええアドバイザーになるかもしれんで。
OpenAI o1がリリースされたとき、いくつかの動画を見てたんやけど、その中の一つがここにあるな。この動画はSamar Hadadのもんで、最近彼は複雑なビジネス問題に関する詳細なテストをしてたときに、自分が間違ってたって話してたんや。
最初、彼はGPT-1モデルの複雑な問題に対するパフォーマンスを批判してたんやけど、フィードバックを受けて、もっと詳細なプロンプトでモデルを再テストすることにしたんや。
彼がやったのは、台湾のサプライヤーから半導体チップを大量に仕入れてる、地政学的・環境的な課題に直面してるスマートフォンメーカーの、サプライチェーン危機に関するビジネス問題を提出することやってん。
このプロンプトには、財務への影響、生産拠点、市場シェア情報、サプライチェーンの詳細、チップ不足による予想損失などの詳細が含まれてたんや。
タスクは即時の危機管理計画を作ることやった。彼がこのプロンプトを提出したら、モデルは複数の戦略をカバーする包括的な計画を提供してくれたんや。
全ての詳細には触れへんけど、優先的な供給の交渉とか在庫の増加なんかがあったな。モデルは各戦略の予算の詳細な見積もりを提供して、それぞれの数字をどう導き出したかも含めてたんや。彼が気づかへんかったような洞察もたくさんあったんやで。
もちろん、これが注目されへんかった理由は、ほとんどの人がこういう問題を抱えるビジネスを持ってへんからやな。でも、わかってることは、自分の個人データでこれらのモデルと推論できるってことや。
個人データっていうのは、例えば「私は37歳で、IT業界で働いてて、子供が2人おって、このニッチや業界で副業を始めようと思ってる」みたいなことやな。「始めるのに一番ええステップは何やろ？」とか「私の個人的な状況に基づいて、このアイデアを検証してくれへんか？」みたいな質問ができるんや。
モデルがたくさんの異なるステップを通じて推論するから、他のモデルでは見逃してたかもしれんような分野で、めっちゃええ洞察が得られる可能性が高いんや。モデルは他のモデルでは見えへんような比較や洞察を引き出すんやで。
人々がこれらのモデルが思ってたよりもずっと賢いって気づいてる理由は、もちろんこれらのモデルがかなり急激に進化してるからやな。限られた時間しか使えへんかったら、モデルが正確に何ができるかを把握するのはめっちゃ難しいんや。
だから、このモデルと異なるプロンプトを試してみるのはまだええと思うわ。これはビジネスを持ってへんとしても、副業を始めたり、副業を検証したり、友達のビジネスにアドバイスを提供したりするのにめっちゃ役立つ可能性があるんやで。
次のやつは、まあグレーな領域やと言えるかもしれんけど、ヘルスケア分野のもんや。健康科学の分野では、GPT-4.0とOpenAI o1プレビューの比較があるんや。
基本的に、ここで見られるのは、OpenAI o1が異なる診断を下すときにめっちゃうまく機能してるってことや。もう一度言うけど、多くの異なる要因を考慮して、最も可能性の高い結論に達することができるんや。
左側を見ると、GPT-4.0が次のレポートに基づいて診断をしようとしてるのがわかるな。表現型と除外された表現型が見えるやろ。そして、残念ながら間違った診断結果が出てるんや。
でも、もちろんOpenAI o1プレビューを見ると、全く同じプロンプトで、めっちゃ広範囲な思考の連鎖があって、実際に正しい症候群と診断してるんや。
これはかなりの意味を持つと思うわ。なぜなら、このモデルが表現型に基づいてこのレベルの推論ができるなら、臨床診断にもめっちゃ効果的やと言えるからや。
基本的に、このモデルは慢性的な問題を抱えてるかもしれん人や、目に見えにくい問題を感じてる人のための個別化された健康プランの作成を支援できるんや。
みんながみんな個性的で、ユニークな人間やってことはわかってるし、そうやからこそ、人々は特定の問題を検索するときに従来のカテゴリーに当てはまらへんようなデータをたくさん持ってるんや。
もちろん、何か診断してもらうときは必ず医者に行くべきやで。医者は健康記録を持ってるし、大規模言語モデルよりもずっと詳しいはずやからな。
でも、ライフスタイルの変更を提案したり、考えてへんかったかもしれんことについて特定の診断を提案したりするのに役立つと思うわ。
これが医者と同じやとは言うてへんで。ただ、個人的な状況の詳細と組み合わせると、医者に共有しにくいかもしれんデータに基づいて、よりパーソナライズされたレポートを提供できる可能性のある、めっちゃ役立つツールやと言うてるだけやで。
もし最初のOpenAI o1に関する動画を見てたら、この医学者と免疫学者が、OpenAI o1プレビューがGPT-4とGPT-4.0を完全に上回るパフォーマンスを示したって話してたの覚えてるやろ。エージェントクリニックMedQAでな。
基本的に彼は、このモデルがGPT-4.0を大きく上回るって言うてるんや。複雑な医療情報を処理し、正確な診断を下し、医学的アドバイスと推奨される治療法を提供する能力はますます加速するやろうって。
ここで見られるように、このパフォーマンスはめっちゃ優れてるんや。だから、GPT-4で問題があった人は、同じプロンプトを試してみるのもええかもしれんな。
例えば、ペットに何か問題があって獣医に行けへん場合、o1プレビューに聞いてみるのもええかもしれん。解決策につながる回答が得られるかもしれんで。
面白いことに、彼はこの統計を続けて出してるんや。これは事実確認してへんけど、多くのアメリカ人が危険な病気を誤診されて、より悪い状況に陥ってることは知ってるんや。
これは様々な国で起こってることやで。先進国でも、人為的ミスでこういう状況が起こりうるんや。医師や医者はよく過労気味で、それが時々パフォーマンスの低下につながることがあるんや。もちろん、それは彼らの責任やないで。彼らはできる限りのことをしようとしてるんや。
でも、時々これらの誤診が見過ごされて、かなり良性やった問題が生活を変えるような問題になってしまうことがあるんや。
だから、ポケットに入るPhDからの3つ目や4つ目の意見は、悪くないと思うわ。もちろん、ライフスタイルを変更する前には必ず医者に相談すべきやって前置きは常にするけどな。
でも、これらのモデルに関しては、与える詳細が多ければ多いほど、現在の情報に基づいてより良い推奨事項を提供できるってことがわかってんねん。
次の分野は、今すぐには必要ないかもしれんけど、かなりうまく機能してるのを見たんや。それは法律関係の仕事やで。
基本的に、OpenAI o1を使って、かなり標準的な契約書、めっちゃシンプルなやつやけどな、そういうのをドラフトするのに使ったことがあるんや。もちろん、すごく複雑なもんやないし、必ず弁護士にチェックしてもらって、抜け穴がないか確認せなあかんけどな。
基本的に、この記事は法律関係の仕事でOpenAI o1を使うことについて話してるんや。「スペルブックの最初の印象：法律関係のワークフローにo1プレビューを実装して」って書いてあるな。
OpenAIのシステム1思考は、モデルがより良い結論に達することを可能にするもんやって。「一番興奮してるのは、文書改訂作業でのo1のパフォーマンスや」って書いてあるな。
多くの生成AIの体験では、完全に新しい文書を吐き出すんやけど、弁護士はめったに一から書くことはないんや。通常は修正したい先例があるんや。株式売買契約のような契約は100ページにもなることがあって、それに大きな修正を加えるには、あちこち飛び回ったり、一貫性をチェックしたり、数字が合ってるか確認したりせなあかんのや。
システム1思考はここではうまく機能せえへんし、これらのタスクをうまくこなすのは深刻な課題なんや。この例では、o1をスペルブックアソシエイトと一緒に使って、商業リースを更新したんや。
o1では、文書改訂タスク全般で劇的な改善が見られてるんや。我々の予測の一つは、今後1年間でBLのニュアンスのある文書改訂作業が増えるやろうってことやな。
ここでは、法律関係の数学におけるo1について話してるで。「GPT-4.0の一貫した弱点の一つは、契約書内の数値内容を本当に理解し、それが全部合ってるかを確認する能力やった」って。
キャップテーブルのスプレッドシートと契約書の不一致で、株主が何百万ドルも損してきたんや。スペルブックのようなツールは法的な問題をテキストで検出するのにはええんやけど、株価や所有率の割合が本当に合ってるかどうかは見えへんかったんや。
これらの計算で、彼らは物事が実際にうまくいくかどうかを把握できるようになって、これらのモデルの信頼性が向上してるのを見てるんやて。
法律関係の仕事をしてる人やったら、これらのモデルを内部のベンチマークでテストしてみると、それらのモデルがどれくらい有用かについて洞察が得られるかもしれんで。
そして、もちろん研究もあるんや。博士課程の研究をしてる人でも、ビジネスの研究をしてるだけの人でも、これはめっちゃ効果的やと思うわ。
多くの異なるシナリオで新しい領域を探求しようとしてる人にとってな。この使用者が言うてるのを見てみ。「ChatGPT o1が1時間で、あんたの博士課程で約1年かかったことを達成した感覚」やて。
この動画は、インターネットを破壊したわけやないけど、このモデルが何ができるかをはっきりと示したんや。基本的に、使用者は、ChatGPTが彼らの博士課程のプロジェクトの機能を模倣するコードを成功裏に実行・生成するのを見て、驚いたって表現してるんや。
ChatGPTが生成したコードは、合成データと独自の関数を使って生成されたにもかかわらず、元のコードがやってることの本質を再現してるみたいなんや。
ChatGPTが生成したコードは完璧なコピーやなかったんや。合成データを使ってて、いくつかの注意点があるんや。例えば、独自の入力を作成して、通常は追加のソフトウェアと労力が必要な手動のステップ、例えば曲線のフィッティングや畳み込みのエッジ効果の管理なんかを省いてるんや。
使用者は、まだ微調整と検証が必要やって注意してるけど、全体的なポイントは、彼の言葉を借りると「博士課程の最初の1年で約10ヶ月苦労したことを効果的に達成した」ってことやな。「o1を他のユースケースに適用するのが楽しみや」って言うてるで。
この動画があんたにo1の使い方を理解するのに役立ったらええなと思うわ。このモデルはかなり賢いから、モデルの能力を効果的に活用するプロンプトを考えるのは大変かもしれへん。でも、この動画がこんなに強力なモデルをどう使って関わっていけばええのか、理解する助けになったらええなと思うわ。
もし、日常生活でこれらのモデルをどないして活用できるかについてアイデアがあったら、コメントに書いてな。あんたのアイデアを聞きたいんや。