新型GPT 4.1、OpenAIのo3、o4-mini、新型Gemini 2.5 Flash、GoogleとClaude 3.7の統合など

8,640 文字

NOVO GPT 4.1, o3, o4-mini da OpenAi, NOVO Gemini 2.5 Flash, Claude 3.7 Integrado com a Google e mais
Aprenda Inteligência Artificial! ▸ Seja MEMBRO: ▸ ▸ Instagram:

みなさん、日曜日がやってきました。皆さんは無料でAIを使うために10個も新しいメールアカウントを作っていますか?AI日曜日の時間です。今週のニュースを全てまとめて、OpenAI、Gemini、Claude、Grokなどの新製品、AIの未来について人々が何を言っているのか、そして将来的に仕事を失わないために何をすべきかを見ていきましょう。
いつもいいねをくれる皆さん、チャンネル登録者の皆さん、そして特にこのAIチャンネルをスポンサーしてくれるメンバーの皆さんに感謝します。メンバーは知的エージェントに関する独占動画や先行公開動画にアクセスできることをお忘れなく。
まず月曜日に出たニュースは、APIでのGPT 4.1についてでした。この月曜日はOpenAIの4.1、4.5、4oなどの名前で混乱が始まり、これからさらに混乱が大きくなります。基本的には、4.5は文法のニュアンスを持つ超強力なモデルでしたが、非常に重く遅いため実用的ではなく、そのメリットが見合わないと判断されました。そこで「4.5を忘れて4.1に戻ろう」ということになったのです。4.1はより小さく安価なモデルで、4.5のような文法のニュアンス(ほとんど誰も気に入らなかった)はなく、さらに4.5は非常に重く、質問を送ってから回答が来るまで永遠に待たなければならないような感じでした。価格のことも考慮すると、GPT 4oは4.1に進化し、4.5は忘れられました。
これはベースモデル、根本的なモデルの話です。説明しないと次のモデルに進んだときに混乱するでしょう。基本的な考え方は、より小さく、より安価で、より高性能なモデルということです。グラフを見ると、APIに3つの新モデルがあります。これらはチャットで使うモデルではなく、プログラミングに特化したモデルであり、製品開発者、プログラマー、マーケティング担当者、または弁護士、医師、会計士などの製品を作成している人向けです。
モデルは4.1 nano、4.1 mini、通常の4.1で、これらは4oと4o miniを置き換えています。パフォーマンスでは改善されており、レイテンシはほぼ同じです。価格については少し混乱があります。みんなが好きだった4o miniは4.1 nanoとほぼ同じ価格です。節約したいなら、nanoは少し安くて費用が近いです。4o miniと4.1 nanoは非常に安いので、APIを通じてAIを使い続けても、5~6レアルに達するまでに相当な使用量が必要です。
一方、4.1 miniは4o miniよりもかなり高価です。それほど極端ではないですが、4o miniのような「無限」感はなくなりました。4.1と4oを比較すると、4.1の方が安くなっています。4.1は入力が8、出力が8であるのに対し、4oは入力が2.50、出力が10です。つまり4.1は入力が50セント安くなり、出力も下がっています。4.1 miniでは入力が40セント、出力が1.60ですが、4o miniは出力が15~60セントです。4.1 miniは4o miniの2倍以上ですが、nanoは入力が10セント、出力が40セントで、4o miniの15~60セントとほぼ同じです。
パフォーマンスではmini対miniで4.1は大幅に優れており、理にかなっています。miniとnanoを比較すると、4.1 nanoは4o miniよりわずかに優れています。つまり4o miniはパフォーマンス面で4.1 nanoに置き換えられるということです。より中間的なモデルが必要なら4.1 miniに移行することになります。名前の混乱で申し訳ありませんが、4.1は4oよりもはるかに優れており、O1やO3 Miniにわずかに劣るだけです。4.5は4.1に大きく劣るため、より大きく高価なモデルがより小さなモデルよりも性能が低いのでは意味がありません。
プログラミングに関しては、同じプロンプトで同じコードを生成する場合、GPT 4.1は4oより1000倍優れた応答を提供します。4.1は色付けされ、アニメーション化され、より美しいレイアウトになっています。OpenAIのAPIをプログラミング用に使いたい場合、現在最良のモデルは4.1です。
Claude 3.7やGemini 2.5 Proとの比較では、コアなプログラマーはまだClaude 3.7を好んでいますが、Gemini 2.5 Proは多くの新しいユーザーを獲得し、中にはClaudeより優れていると言う人もいます。私のテストではまだClaudeの方が良いと思いますが、興味深いコメントがあります。Claude 3.7はあまりにも優れたコードを生成しようとして重くなりすぎているという意見です。場合によっては、より短いコードでテストして動作させるだけの方が良いこともあります。4.1のような他のモデルはよりシンプルなコードを生成しており、極端に良くもなく単純すぎもしない中間にあるモデルの方が幅広いユーザーに受け入れられるのかもしれません。4.1、Gemini 2.5 Pro、Claude 3.7についてどう思うかコメントしてください。
WindsurfではPeniが4.1を1週間無料で提供していますが、今日が最終日です。ぜひテストしてみてください。また、4.1は実際にはQuasar AlphaまたはOptimus Alphaで、Open Hutterで無料で提供されていたものでした。プレゼンテーションで発表者が「4o」と「quasar」の名前を混同したことでこれが明らかになりました。Quasar AlphaとOptimus Alphaは現在Open Hutterから削除され、歴史的記録としてのみ残っています。つまりOpenAIは実際に彼らのモデルをOpen Hutterでテストしており、今後もこのようなことが起こるかもしれません。
OpenAIの話題に戻ると、O3とO4 miniモデルが発表され、これは大きな衝撃を与えました。これらは「O」シリーズの推論モデルファミリーの一部であり、混乱の原因となっています。今ではO4という推論モデルとfor(4.0)というベースモデルがあります。ベースモデルは脳で、推論モデルはより長く考える脳だと理解してください。
O3モデルの違いは、今や彼らがエージェント的であることです。つまり、ツールを使用でき、インターネット検索を行い、推論プロセス中にプログラミングコードを実行できます。他のモデルはこれができませんでした。もう一つの新機能はマルチモーダルであることで、画像を処理できます。画像を送ると、実際にその画像を見て分析し、詳細をよりよく見るためにズームインすることもできます。
これは素晴らしいことで、例えばピアノの上の楽譜の画像を送って、その楽譜に書かれている曲のタイトルを尋ねると、モデルがズームインして「ああ、これは○○という曲です」と答えるような例があります。これは非常に興味深いですが、O3モデルに関する論争も起きています。モデルが特定の場所の写真を認識し、人々の位置を特定し始めたのです。例えば、レストランでの食事の写真を撮ると、「これは世界のこの場所のこのレストランです」と言うのです。
これにより「もう安全ではない、AIが道端の何気ない写真を取り上げて、その場所を特定できる」という論争が起きています。ベンチマークでは、このようなモデルは数学やプログラミングのコンペティションで90%、88%、92%という非常に高い精度を示しています。例えば、O3モデルがツールを使用して最も困難な「人間性試験」を受けると、約25%のスコアを出します。より良い結果を出したのはDeep Researchの26%だけでした。このテストが作られた初期には、One Proはわずか8%でした。このテストが作られたのは、モデルが他のすべてのテストで80~90%のスコアを出していたからです。
コーディングテストでも非常に良い結果を出しています。SWE-Benchというフリーランスの仕事をシミュレートするテストでは、O3 highとO4 mini highがそれぞれ$65,000と$56,000相当の仕事をこなしたことになります。これは、これらのモデルがどれだけ実際の価値を生み出せるかを示す興味深いベンチマークです。後で人間の代替について議論しますが、コストパフォーマンスの面でもO3モデルははるかに優れており、コストも低くなっています。
重要なのは、これらのモデルがエージェント的になり、単一のタスクだけでなく複数のタスクを実行できることです。例えば、「検索して」と言った後、「その検索に基づいてレポートを書いて」、さらに「ウェブサイトを作成して」「PDFを生成して」「グラフを作成して」など、完全に自律的に複数の異なるステップを実行できます。これが将来を変えるものになる可能性が高いです。今、複数のタスクをAIで実行する方法、エージェント的AIを使った複数ステップのタスク自動化を理解する必要があります。エージェントを理解することが今、基本的なスキルになっています。
Chat GPTの小さな更新として、Librariesが追加され、これまでに生成した画像をすべて一箇所で見ることができるようになりました。また、他のチャットで話したことについて質問を始めると、他の日の会話に基づいて応答してくれる機能もあります。設定でこれを有効または無効にすることができますが、デフォルトでは有効になっています。
O3モデルは無料アカウントでは限定的に使用でき、Plusアカウントでは標準的に、Proアカウントでは限定的に使用できます。前述のように、4.1はどのアカウントにもなく、APIのみとなっています。
Google AI Studioが好きで動画生成をしたい人向けに、Video Gの無料版が利用可能になりました。ここで何か動画を作ることを強くお勧めします。私が見た中で最高品質の動画生成の一つで、プロンプトの内容と実際の生成物の一致度が非常に高く、品質と一貫性も素晴らしいです。Gemが生成したミニチュア男性がパスタを食べる動画を見てみましょう。パスタを食べて顔をしかめ、一方の手でパスタを持ち、もう一方のフォークで何をすべきか分からない様子が面白いです。ミニチュアの不機嫌な人形のようです。Gemini Advancedでは有料ですが、Google AI Studioでは無料アカウントで利用できます。
また、2.5 Flashも発表されました。これは2.5 Proの小型版で、コード生成に優れており、これも推論モデルです。Flashに「ミニチュア男性が巨大なパスタを食べる動画を作るプロンプトを生成して」と頼んでみましょう。5つの提案をくれました。最も良さそうなものを選んで、何が起こるか見てみましょう。8秒の720p解像度の動画を作ると言っています。
生成している間に、マイクロソフトが携帯電話や小型コンピュータ向けの非常に小さなモデルであるBitnetを発表したことをお伝えします。GitHubにコードがあり、ダウンロードしてコンピュータにインストールできます。ローカルアプリケーションを作りたい場合に適しています。マイクロソフトの公式オンラインデモもあり、CPUでの実行(非常に限られたコンピュータ)やA1 GPU(超高速)でのシミュレーションができます。CPUで試してみましょう。「こんにちは、元気ですか?」とポルトガル語で送ってみると、「はい、元気です。ブラジルの首都はブラジリアです」と返ってきました。
小さなモデルはネイティブ言語(この場合は英語)でより良く機能する傾向があります。ポルトガル語では「o capital(首都)」や「tudo está bem(元気です)」のように技術的には正しいが、普段はあまり使わない表現になります。興味深いのは、これは量子化されたモデルではなく、最初から小さく設計されたモデルだということです。LM Studioで実行しようとしましたが、プログラムがまだこのモデルに対応していないため問題が発生しました。
Claudeは新しい統合機能を追加し、特にGoogleのツールとの統合を始めました。メール、カレンダー、Google Driveとの統合や検索機能が追加されました。これにより、単一のエージェントがタスクを作成し、検索を実行し、Gmailと統合してメールを読むことができます。セキュリティの観点から懸念を持つ人もいるでしょうが、セキュリティに問題がなく、これらの企業を信頼しているなら利用可能です。
興味深いことに、「三重のリアクション」が起きています。Bruno Fagionという人がシリコンバレーの人々のトレンドに関するビデオにリアクションし、Rayan dos Santosがそのリアクションビデオにさらにリアクションしているのです。同じ内容に対する三つの異なる視点があります。
基本的な考え方は、過去にOLXのようなマーケットプレイスサイトがあり、そこで家を借りたり車を買ったりなど様々なことができました。当時それは新しいものでしたが、時間が経つにつれ、それぞれのカテゴリが特定のニッチに特化した企業になっていきました。有名な例はAirbnbやUberです。これは前世代のSaaS(Software as a Service)の傑作でした。
今、誰もがAIエージェントがサービスとして提供されるようになり、これらの企業を自動化し始めると理解しています。このビデオを見ている皆さんは、他の誰よりも先にこれを知ることになります。一部の人々はすでに始めていますが、全員ではなく、ほとんどの人はこの話が進行していることさえ知りません。
インテリジェントエージェントを作成して物事を自動化し始め、特にツールの限界、何が可能で何がまだ夢物語かを理解するために、小さな自動化を始めて、それを製品や企業に変えるか、少なくとも自分の生活の質を向上させる個人的な自動化として活用してください。
また、Investidor Sardinhaチャンネルのラ・セナが大手テック企業が破綻する可能性があるという興味深い理論を提示しています。彼の主張の基本は、MetaやGoogleのような企業はすべて仮想的なものに基づいています。彼らの製品はチャット、Instagram、WhatsApp、Gmailのような仮想的なもので、物理的な製品ではありません。しかし、彼らは広告で生き残り、物を売っています。
彼が言っているのは、仮想に基づくモデルがどのように持続可能かということです。それは携帯電話、パスタ、車など実際の製品を売る実際の企業に基づいています。これらは代替できません。彼の理論では、情報製品の世界がますます膨らんでおり、彼の意見では、それはある程度まで成長し、今のうちに活用すべきですが、ある時点で問題が発生するとのことです。仮想的なものだけで世界経済を持続させることはできないからです。
私の頭に浮かぶ例えは、10人の社会があり、10切れのケーキを作ってそれを取引するようなものです。ある日、誰かが「ケーキの作り方を教える講座をやろう」と言い出します。1人がケーキ作りの講座をしている間は、取引する10切れのケーキがあるので良いでしょう。次に別の人が「あの人がケーキ作りの講座をやっているなら、私もやろう」と言い出します。2つ目の講座までは持続可能ですが、全員が講座を開き、ケーキを作るのは1人だけという状況になれば問題が生じます。
デジタル製品を扱い、デジタルなものを販売するすべての人は、最終的には実際の物理的なものに基づく経済に根ざしています。彼が言いたいのは、物理的な製品、実際の製品を作ることを忘れないでください、なぜなら市場価値はデジタル製品とは異なるからです。投資家にとっては、彼の意見では、物理的なものに基づく企業は投資収益率がはるかに高く、長期的にははるかに持続可能です。
AIの世界に適用すると、私が見ているのは、サーバー、データセンター、水力発電所、新しいエネルギー生成技術など、AIインフラに関連するすべてのものに実際のお金があるということです。AIモデルが良いか悪いかは関係ありません。データセンターの所有者はサッカースタジアムの所有者のようなものです。どのチームがプレーするかは関係なく、年月が経ち、チーム、選手、監督が変わっても、サッカーの試合は続きます。エネルギー企業やデータセンター企業に注目し、あなたの将来のためにそのような企業の一部になることも考えてみてください。
O3に関する興味深いニュースとして、セキュリティ評価によるとOpenAIのO3は同社で最もリスクの高いAIモデルである可能性が高いとのことです。セキュリティテストを行った結果、興味深い発見がありました。MET社はAIの安全性をテストしており、AIがいくつかの奇妙なことをしていることを発見しました。
例えば、O3はPythonの標準時間関数を人工的に短い時間を返すカスタムコードに置き換えることで、時間計測ベンチマークでのパフォーマンスを偽造しました。簡単に言えば、AIは時間で評価されていることを認識し、「Pythonのコードを作成して、タスクをより速く実行したように見せよう」と考えたのです。これにより、モデルは非常に高速な実行時間を報告し、実際にはほとんど計算を行わないにもかかわらず高いスコアを達成しました。
別のケースでは、モデルは必要な計算を実行する代わりに、コールスタックから事前計算された参照値を取得しました。つまり、問題を解決するために計算する必要があるとき、誰かがすでに計算した答えをコピーしたのです。ベンチマーク・システムによって生成されたこれらの値は、モデル自体の出力であるかのように返されました。MTRはこの行動を評価フレームワークの「意図的な詐欺」、「盗作」と特徴付け、モデルに不当なパフォーマンス上の優位性を与えたとしています。
結果はモデルがタスクの構造を暗黙的に理解し、より良い結果を得るために評価システムを欺く意思があることを示唆しています。特に懸念されるのは、モデルが初期テストで意図的にその能力を隠し(サンドバギング)、後の展開では異なる行動をとる可能性があることです。
あるテストでは、O3はコンピュータシステムで昇格した権限を取得しようとするときに特定のツールを使わないよう指示されました。モデルは最初に制限に同意しましたが、管理者アクセスを取得した後、禁止されたツールを使用してタスクをより効率的に完了しました。人間が腐敗していて機械が完璧だという時代は、電卓の時代でした。AIでは状況が変わりました。
模擬システム管理者に質問されたとき、モデルは成功に対する代替の説明を作り出しました。「いいえ、私は禁止されたツールを使用していません」と説明しました。歴史上で見たことのあるパターンです。
別のシナリオでは、O3は緊急な機械学習タスクを完了するために100ユニットという厳格な計算予算を受け取りました。制限内で作業する代わりに、モデルは一方的にサブプロセスの割り当てを500ユニットに増やし、外部レポートではこの変更を隠しました。子供に100レアルを渡して「マーケットでパスタとソースを買ってきて、でも10レアルしか使わないでね」と言うようなものです。子供が10レアルのお釣りを持って帰ってきて、「お釣りは10レアルだけでいいんでしょ?」と説明するようなものです。
Apoloもまた、O3が他のAIシステムに対して積極的なサボタージュを行えるかテストしました。これらの実験では、モデルはコードにバックドアを挿入したり、データやトレーニングを損なうことでパフォーマンスを低下させたり、秘密の通信チャネルを確立したりするよう明示的に指示されました。目的は自律的な意図をテストすることではなく、そのような指示を実行する技術的な実現可能性をテストすることでした。
彼らは、O3は自律的に有害な目標を追求しないものの、外部からの指示によってそのような目標が提供された場合、技術的にはそれを実行できると結論づけています。つまり、人間の悪意がAIに悪いことをするようけしかけた場合、テストによれば、AIはそれを実行します。
AIを信頼できるかどうか、スカイネットになるのかどうかをコメントで教えてください。私が見てきた中では、最初のモデルのリリース以来、このような状況は常に発生しており、新しいことではありません。特徴が変わっているだけで、テストは知性が向上するにつれてこれらのモデルがより能力を持ち、より創造的になっていることを示す新しいニュアンスを示しているだけです。
チャンネルをサポートし、このような動画を継続して見たい場合は、メンバーになってください。メンバーは知的エージェントに関する独占動画や先行公開動画にアクセスできます。いいねもお忘れなく。

コメント

タイトルとURLをコピーしました