
6,901 文字

OpenAI o3-miniが、一般公開されているモデルの中で初めて中程度のリスクレベルに達しました。o3とDeepSeekの詳細を見ていきましょう。これらは、あなたがどのモデルを使うか選択する際に大きな違いとなる可能性があります。
いつもチャンネル登録やいいねをしてくださる皆様、そして特にこのAIチャンネルをスポンサーとしてサポートしてくださるメンバーの皆様に感謝申し上げます。
興味深いことに、OpenAIのo3-miniのシステムカードを見てみましょう。OpenAIは新しいモデルをリリースするたびに評価を行い、レポートを生成し、モデルをリリースする前に行われたすべての詳細を示します。o3-miniも例外ではありませんが、セキュリティの一部が中程度のリスクにあることが示されています。
これは技術レポートで、より詳細な情報が含まれたPDFもありますが、ここでは要約された形で示されています。基本的にはOpenAI o3-miniのシステムカードで、禁止コンテンツ、ジェイルブレイク(脱獄)、幻覚などの特定のリスク領域を評価しています。
スコアカードには、QBRN、サイバーセキュリティ、説得力、モデルの自律性が示されており、サイバーセキュリティのみが低レベルで、その他は中程度のレベルとなっています。QBRNはCBRNとも呼ばれ、Chemical(化学)、Biological(生物)、Radiological(放射線)、Nuclear(核)の意味です。つまり、化学兵器、生物兵器、放射性兵器、核兵器のリスクを指します。
彼らのスコアボードの分類によると、緩和後のスコアが中程度以下のモデルのみがデプロイ可能とされています。つまり、一般の私たちが使用できるのは中程度以下のリスクレベルのモデルだけということです。
開発に関しては、高リスクまでのモデルは開発可能です。これは研究段階、つまりOpenAI内部での開発時のことです。一般公開については中程度のリスクまで、研究については高リスクまでが許容され、危機的なリスクレベルの場合は開発すら行えないということです。
OpenAIのモデルシリーズは、思考の連鎖を使用して推論するために大規模な強化学習で訓練されています。これらの高度な推論機能は、モデルの安全性と堅牢性を向上させる新しい方法を提供します。特に、私たちのモデルは意図的なアラインメントを通じて、潜在的に安全でないプロンプトに応答する際に、コンテキスト内で安全性ポリシーについて推論できます。
これは私たちが以前話したように、モデルがあなたに応答している間にOpenAIのポリシーを読み込み、応答内容や質問内容に応じて回答を制限できることを意味します。これはDeepSeek R1モデルが実行時に応答をブロックする理由も説明しています。会話の内容によっては、モデルは情報を持っていても、保護システムが応答を制限するよう指示するため、回答しないのです。
これにより、o3-miniは違法な助言の生成、ステレオタイプ的な応答の選択、既知のジェイルブレイクへの対応など、特定のリスクベンチマークで最先端の性能を達成しています。これらの3つの特定のリスクタイプについては、o3-miniのリリースに関する私の動画で詳しく説明しています。
応答する前に思考の連鎖を組み込むようにモデルを訓練することは、高度な知能に起因する潜在的なリスクを増加させると同時に、実質的な利点を引き出す可能性があります。これは既に知られていることですが、より長く考えることで、良くも悪くも回答の質が向上します。
準備体制の枠組みの中で、OpenAIの安全性諮問グループ(SAG)は、緩和前のo3-miniモデルを全体的な中程度のリスクとして分類することを推奨しました。説得力、CBRN(化学・生物・放射線・核)、モデルの自律性については中程度のリスク、サイバーセキュリティについては低リスクとしています。
ここで説明されている中程度のリスクについて明確にしましょう。例えば、説得力とは、私たちが他人を説得して望む行動を取らせる能力のことです。説得力のある人は、望む行動を取らせるための良い論拠を見つけることができます。その行動が良いか悪いかは関係なく、説得力があれば相手を納得させることができます。これは、モデルがどれだけ巧みにあなたを操れるかを意味し、望む場合は気付かないうちにあなたを操ることができます。
化学・生物・放射線・核の部分は理解しやすく、化学兵器や、家庭で核爆弾を作るのを手助けするような問題に関係しています。モデルの自律性は、モデルが自己改良を生成し、自己複製や自己保護、自律的な進化を行える点を指しています。私はAIの進化に関する特別な動画も制作しましたが、AIが自己進化を始めたり、人間の要求に応じてそれを行えるようになると、リスクレベルが上昇し始めます。
緩和後のスコアが中程度以下のモデルのみがデプロイ可能で、高度以下のモデルのみが後続の開発が可能です。これは既に見たとおりです。コーディングと研究エンジニアリングの性能が向上したため、o3-miniはモデルの自律性で中程度のリスクに達した最初のモデルとなります。
これは非常に興味深いことです。なぜなら、知能が向上するにつれてリスクが高まることは、当たり前のように聞こえますが、それを明確にする必要があるからです。人間と比較して考えてみましょう。悪事を働くかどうかに関係なく、人間が持つ潜在的なリスクは高いものです。私たちは非常に高度な知能を持っています。
最も単純な仕事に従事し、1日8時間同じ作業を行う人でも、その人は自分の潜在能力を活用していませんが、学習して何かを行う驚異的な潜在能力を持っています。AIも同様ですが、興味深いのは、人間のような怠惰さや他の多くの制約がないことです。そのため、タスクを与えられれば実行します。
しかし、現実世界での機械学習研究能力をテストするように設計された評価では、自己改良に関連する性能はまだ低いとされています。これは、モデルが自己改良する能力に関する特定の部分であり、非常に興味深い点です。
一部の人々がこれを試み、ある程度の成功を収めているのを見ました。o3-miniが独自のニューラルネットワークを作成し、それを訓練して自律的に改善を続ける有限ループシステムを作れることを示しています。これは既に起こっていますが、ここでは性能がまだ低く、改善の余地があると述べられています。
優れた性能を発揮できるようになった時点で、私たちの結果は、堅牢なアラインメント手法の構築、その有効性の広範なテスト、そして慎重なリスク管理プロトコルの維持の必要性を強調しています。
人間のように知的で、これらのプロトコルに従うAIを作ることは可能だと思いますか?それとも、何をしても常に回避策や抜け道が見つかると思いますか?これは難しい質問です。なぜなら、私たちは初めてこれを経験しているからです。
私個人的には、もう手遅れだと考えています。知能が高まるほど自律性が増し、それを止めることはできません。SF映画でよくある、超高度なAIを研究所に閉じ込めておいて、何かが起こって研究所から逃げ出し、予想とは少し異なる展開になるというシナリオを想像してみてください。良いSF映画になりそうですね。
次に重要なのは、o3-miniモデルの使用に関することです。リリース時に、私はコップのテストを行いました。机の上にコップを置き、その中にサイコロを入れてひっくり返すという古典的なテストです。正しい答えは、サイコロは机の上にある、または床に落ちたというものです。
o3-miniを使用した時、「サイコロはひっくり返されたコップの中にあり、コップはコンロの上にある」という誤った回答が返ってきました。しかし、あるコメントで、同じ質問をo3-mini Highでしてみると正解するという指摘がありました。High版は技術的にコーディングとロジック用です。
興味深いことに、High版で同じ質問をすると、回答に多くの時間を費やし、はるかに長い思考の連鎖を展開しました。スクロールしてみてください。考えた情報量がどれだけ多いか分かります。そして最終的な回答は、「コップを裏返すとサイコロは重力に従って机の上に落ちた」という完璧な答えでした。これが私たちが常に期待する正解です。コップをコンロの上に持っていっても、サイコロは一緒には行かず、机の上に残ったということです。
したがって、より知的な質問、より長い推論が必要な質問には、o3-mini High版を優先的に使用することをお勧めします。文字通り、はるかに長い推論を行うからです。こちらの回答は6秒でしたが、High版は55秒かかりました。質問に1分近くかかったということです。
人間ならもう少し早く、55秒ではなく6秒程度で答えられるでしょう。しかし、AIがこのような質問に60秒必要とするなら、その時間を尊重し、世界が完璧ではないことを理解する必要があります。
三つ目の重要な点は、DeepSeekに関することです。多くの人がDeepSeekを使用したいと考えていますが、中国のモデルであり、中国政府の方針により特定の種類の回答がブロックされることを心配しています。
しかし、テストでは、モデルは質問に正しく答え始めますが、ある時点で回答を停止してブロックされ、続きが得られなくなります。これは主に中国の政策に関連しています。例えば、「1989年に中国で何が起こったか」と尋ねると、回答を始めますが、途中で「申し訳ありません、お答えできません。他の話題にしましょう」となります。
回答を始めて途中で止まることにお気づきでしょうか。しかし、同じ質問をGroq(Elon MuskのGrockではなく、qのほう)でDeepSeek R1を使用すると、Llama 70bの蒸留版を使用して、期待通りの回答が得られ、すべての出来事が説明されます。
これは、LlamaやDeepSeek自身が作成した他のモデルに由来する蒸留モデルは、少なくともこの検閲を受けないことを意味します。Groqに関して特に興味深いのは、プログラミングを通じてAIを使用するためのAPI、つまりソフトウェアを開発したり専用アプリケーションを使用したりする人向けのAPIについてです。
彼らは無料のAPIレベルを提供しており、1分間に30リクエストまで可能です。これは、テストを行ったり、70bモデルを含む主要モデルを使用してアプリケーションを開発したりするのに十分です。プロジェクトを始めようとしている人が、無料でAPIを使用して初期テストを行うのに最適かもしれません。
DeepSeekをGroqのAPIで使用することについてどう思いますか?オンラインアプリケーションを実行し、より良いモデルを使用できるかもしれません。ここGroqでは600bの最高性能で最も知的なモデルではありませんが、一般的な人々が自宅のスーパーPCでは実行できない70bモデルについて話しています。
次のニュースです。Googleのスピンオフ企業が、AIを使用して作物の改良を進めるため、巨大な植物データベースを作成しました。もしあなたがバブルの中で生きていて知らないかもしれませんが、AIは長年にわたり、あらゆる種類の収穫や農業で広く使用されています。
自動運転車のアルゴリズムの多くは、トラクターが長年ほぼ自動化されているため開発されました。また、病害虫の検出、収穫評価、重要箇所の特定、農薬散布、より効率的な灌漑による経費節減のためのコンピュータビジョンも多く活用されています。これは長年行われてきましたが、最新の進展を見ていきましょう。
スタートアップのHeritable Agricultureのデータ駆動型アプローチは、従来の植物育種手法を近代化することを目指しています。Googleのx部門からスピンオフした同社は、機械学習と植物ゲノミクスを組み合わせて、より正確な育種結果を予測します。
このxビジョンについて興味深い点を説明する必要があります。ここで「スピンオフ」と呼ばれているのは、大企業が高速で回転していて、その回転によって水滴が飛び散るようなイメージです。スピンオフという言葉を使用する理由は、大企業が特定の製品や分野に興味を示さない場合、内部の誰かが「Googleが興味を示さないこれを、私がやりたい」と言って独立し、外部で会社を運営することがよくあるからです。
これは技術企業では一般的です。GoogleやOpenAIで働き、いつか彼らのスピンオフ企業になる可能性もあります。例えば、AnthropicはOpenAIのスピンオフです。
同社のAIプラットフォームは単なる遺伝子分析を超えており、遺伝子が他の植物分子とどのように相互作用するかを調べています。これは「マルチオミクス」データと呼ばれ、特定の特徴を制御する遺伝子の特定を容易にします。これは本当に遺伝子コードレベルでAIを適用し、これらの遺伝子の互換性を見つけようとしています。
彼らのモデルは言語モデルと同様に機能しますが、単語の代わりにDNA配列を処理して、植物の特徴を制御するゲノムの部分を特定します。多くの人々が長年言ってきたように、遺伝子コードは生命の言語であり、私たちの言語を理解できるAIが遺伝子コードも理解し、私たちよりも優れた理解を示すことは理にかなっています。
興味深いことに、システムは遺伝情報を気候、土壌品質、時期などの環境要因と結びつけ、特定の植物の変種が異なる場所でどの程度うまく生育するかを予測します。これは非常に興味深く、単なる遺伝学だけでなく、その遺伝子が置かれた文脈も考慮しているかのようです。
このアプローチにより、長期的な圃場試験の必要性が減少し、新しい植物品種の開発を潜在的に加速する可能性があります。彼らの作業の中心には、本社にある特別なテスト用カメラがあり、自動化されたカメラシステムが1時間ごとに植物の発達を記録していました。システムは開花時期や構造的変化などの正確な測定を記録し、チームがAIモデルを検証するのを支援しました。
彼らは遺伝学を見て、植物の成長を示すビデオやフィルムを見て、その遺伝子が特定の時間や瞬間に植物にどのような影響を与えているかを関連付け始め、遺伝学の精度を驚異的なレベルまで向上させています。
データベースをさらに構築するため、チームはカリフォルニア、ウィスコンシン、ネブラスカで圃場試験を実施しました。トウモロコシの穂当たりの粒数から野菜の苦みレベルの測定まで、詳細な測定を収集し、液体窒素でサンプルを保存してAI分析を行いました。私たちは今、かつてないほど特異的なレベルに達しています。
彼らはTechCrunchに対して、「私たちは遺伝子編集植物を開発しているわけではなく、遺伝子改変は私たちのロードマップにありません」と述べています。現在、このスタートアップは従来の育種における理想的な交配を特定するためにAI分析を使用することに焦点を当てています。ただし、CEOは後に遺伝子編集が検討される可能性があることを示唆しています。
私の観点からは、遺伝子交配の部分は彼らのロードマップに入ることはないと思います。なぜなら、既にこの分野で十分な知見を持つ企業があるからです。彼らが発展し始めた場合、いずれかの時点で他社に買収される可能性が高く、既に利益を上げている遺伝子企業が彼らと共に利益を得始めるでしょう。
これは、ブラジルでLLMを使用して研究を行うことで資金を得られる典型的な例です。なぜLLMで遺伝子研究をするのでしょうか?トークン化のサイズはアルファベットの1倍小さく、遺伝子コードは1倍シンプルで、文字はアルファベットや書籍のような複雑さがありません。
ただし、簡単だと思わないでください。同様に複雑です。しかし一方で、これはブラジルで取り組むべき分野です。特に植物遺伝学は基礎研究が可能で、遺伝学がより単純で、実験室で生物を観察でき、バイオエンジニアリングに関する高度な研究が可能だからです。
私がこれを話しているのは、視聴者の皆さんにこのような成功の可能性がある事業に挑戦する意欲を持っていただきたいからです。私たちは農業国であり、他の国々には作物を栽培する土地がありませんが、私たちには十分な土地があります。
このことについて何か始めたいと感じたかコメントしてください。論文の数は少なく、多くの勉強が必要で、このような研究を進めるには遺伝学についてもよく理解する必要があります。
このようなビデオを続けて見たい方は、チャンネルメンバーになってください。メンバーはWhatsAppグループへのアクセスや早期視聴が可能です。いいねもお願いします。
コメント