ChatGPT O3とO4-miniが驚きを与え、良い印象といくつかの混乱を残している

9,646 文字

ChatGPT o3 e o4-mini Surpreendem e Estão Deixando Boas Impressões E Algumas Confusões

Aprenda Inteligência Artificial! ▸ Seja MEMBRO: ▸ ▸ Instagram:

皆さん、単にコンピュータプログラムを作るための人工知能が欲しかっただけなのに、今や世界のあらゆることについての個人的な科学者、パーソナルオペレーターを手に入れました。今はただ座って良い質問をするだけで、十分に生活できるようになりました。OpenAIがついにO3モデルとO3 Miniモデルをリリースしました。すでにこちらの動画で特集しましたが、ここをクリックすれば、すべての特徴、彼らが示した例、O3とO4 Miniの背後にあるすべての新機能について説明しています。
この動画では、皆さんの反応、人々が何を言っているか、そしてOpenAIに関するいくつかの新情報についてコメントしていきます。
皆さん、いつもライクを押してくれる方、チャンネル登録してくれる方に感謝します。特にこの人工知能チャンネルをサポートしてくれるチャンネルメンバーの皆さんに特別な感謝を。メンバーは知的エージェントについての限定動画や先行公開動画にアクセスできることを忘れないでください。
ここで、サム・アルトマンが次のようにコメントしています：「O3モデルとO4 Miniがリリースされました。非常に有能で、O4 Miniは価格を考えると素晴らしい選択肢です。より安価ですし、ChatGPTのすべてのツールを使用・組み合わせることができます。つまり、ChatGPTがすでに持っていたメモリなどの機能もすべて含まれています。マルチモーダル理解は特に印象的で、画像をアップロードして質問できます。」彼はここで「思考」の画像を投稿しています。これは回答を提供する前にもう少し考えるモデルです。
彼が言及していないことの一つは、ツールを使用することです。これはエージェント型で、何かを依頼すると、検索が必要かコードを実行するか、何かをテストして機能させる必要がある場合、それを実行します。
サム・アルトマンのもう一つの投稿では次のように述べています：「O3とO4 Miniはコーディングに非常に優れているため、新製品のCodex CLIをリリースして使いやすくしています。これはコンピュータ上で動作するコーディングエージェントで、完全にオープンソースであり、今日から利用可能です。急速に改善されることを期待しています。」
彼が話しているのは、OpenAI Codex CLIというコードです。このプログラムはO4モデルとO3モデルを使用してエージェントを実行するためのものです。このプログラムを実行すると、推論を行うための準備ができているので、これらのモデルを使用するプログラムを作成するための良い例になります。これはより上級者向けですが、このようなコードがあることを知っておくことは重要です。もしカスタムエージェントを作成したい場合、このコードをベースとして使用し、どのように機能するかの原則を理解することができます。
さらにアルトマンの投稿では次のように述べています：「数週間以内にプロフェッショナルレベルのO3 Proをリリースする予定です。」プロレベルのサブスクリプションは月額200ドルで、このプロレベルのサブスクリプションでは、通常のものよりも少し改良されたモデルを使用します。
ここで価格について話していますが、無料プラン、Plusプラン、Proプランなどについて、彼らはまだO3とO4の情報を更新していません。重要なのは、例えば「より難しい質問に対して最良の回答を得るためにより多くの計算を使用するProモデルへのアクセス」という記述があることです。これはPlusプランのO1モデルよりもProプランのO1 Proが優れていることを意味します。
モデルのリストを見ると、O1モデルとO1 Proモデルがあることがわかります。もしProプランの登録者でなくてもO1 Proをテストしたい場合は、プレイグラウンドから利用する必要があります。つまり、使用量に応じて支払うことになります。インターフェースがあり機能しますが、使用量に応じて支払います。これは近い将来、O3 Mini、O4 Miniといったモデルと併せて、O3 Proもここに表示されることを意味します。この更新がリリースされるときに注意してください。アルトマンによると、それは「数週間」以内です。
人々の反応を見てみましょう：「O3に2016年のJEE Advanceの回転力学の問題を解いてもらいました。4分間きちんと考え、画像を何度か分析し、5分後にPythonインタープリターを使い、7分後に模範解答を探し始め、『これは2016年のJEEの問題に似ている』と言いました」と。
面白いですね、この人は2016年の難しい問題をモデルに送り、モデルは解決しながら自分自身が既に解答を持っていることに気づき、どの試験のものかまで正確に特定しました。これはとても面白いことです。人々は時々「モデルがその問題を見たことがあるかどうか」と疑問に思いますが、この場合、もし見たことがあれば、「私はこの問題を知っています」と教えてくれるのです。
難しい問題についての話題では、「O3は全体的にシステムのように見えます。画像の分析方法が素晴らしく、文字通り画像について考えています。これはすべて思考の連鎖の段階で起こっています」と書かれています。そして、O3が画像を分析している写真が投稿されています。分析された画像、分析された画像、そして特定のポイントをより近くで見て、別のポイントをより近くで見ているのがわかります。フォーカスして注意深く観察しているのです。各画像を分析し、正確に見ているものを説明しています。
この技術は本当に非常に高いレベルの品質に達しています。さらに非常に複雑な問題について、Ashiverという人は次のように述べています：「O3は私の古いオークション理論の中間試験を完全に正確に解決した唯一のモデルでした。非常に感心しました。」
この人は自分の仕事の中間試験で使用した個人的な問題を持ってきて、この場合、インターネットで答えを探しているわけではなく、実際に回答しました。高度な質問をすると、モデルが実際に解決しようとするのは非常に興味深いです。修士課程や博士課程を履修している場合、経済を扱っている場合、市場分析を試みている場合、会社で働いていて何らかの管理を実施しようとしている場合、金融分野のすべての人々や小規模な事業主など、すべての人々が高度なことを支援するためにこれらのモデルを使用できるようになりました。
イーサン・モリックの興味深い投稿を見てみましょう：「O3、カワウソと飛行機を含む、ダウンロードできる映画を作ってください。あなたが持っているツールを使ってどうすればできるか見つけてください。」彼はコメントしています：「O3は映画を作る能力がないので、即興で各フレームを描画し、それらをGIFにまとめてダウンロードすることを決めました。これはすべて最初に撮影されました。」
面白いことに、これはカワウソと飛行機があって飛んでいるGIFアニメーションです。人工知能が作成したものです。単純なものに見えるかもしれませんが、人工知能がコンピュータのプログラミングツールと画像生成を使って創造的なことをして、GIFを作成したのです。これはこのモデルの強みの一つであり、創造的な行動ができることの優れた例です。
他に何が言われているかというと、「新しい王者がいます。O3はLiveBenchの第1位で、Gemini 2.5を打ち負かしています。」Gemini 2.5はご存知の通り、リードしていました。
LiveBenchの状況を見てみましょう。LiveBenchはLLMの挑戦的で汚染のないベンチマークです。現在、すべての項目が有効になっている状態で、コーディング、推論、数学において、O3が1位、O4 mini highが続き、その後にGemini 2.5、O4 Mini、O1、O3、そしてClaude 3.7が続いています。
モデルが登場したばかりなのに素晴らしい結果を出しているのは非常に驚くべきことです。これらのライブベンチマークは名前の通りライブなので、時間とともに変化する可能性があることを覚えておくといいでしょう。初心者の運が良かっただけかもしれません。
Dan Hiperはさらに強調しています：「O3は手書きの小さなテキストを読むために繰り返しズームインして画像を切り取ることができます。狂気です。」彼はキーボードとギターの写真を送り、キーボードの上にテキストがあって、「このノートにある曲のタイトルを読むことができますか？」と質問しました。人工知能は画像を取り、主要な部分にズームインし、ノートブックに2回目のズームインをします。おそらく読めないかもしれませんが、非常に小さく「Moon River」というタイトルが書かれているようです。人工知能が自力でこれをすべて行っているのは本当に驚くべきことです。
もちろん、冗談もあります。Bojantongは「O3は」と書いて、GPT O3に「strawberryという単語には何個のRがありますか？」と質問しました。これは古典的な質問で、モデルは2個あると言いますが、実際には3個あることがわかっています。これは巨大なモデルでもstrawberryの問題が続いていることを意味しています。
Ramon Viniciusは「DeepSeek R1モデルなら、1文字ずつ綴り、1文字ずつ数えて、3個のRがあると回答するだろう」と回答しています。これは少し奇妙に感じました。後でコンピュータでテストしてみて、何と答えたか教えてください。
冗談を言う人たちの中で、このLookという人は次のように言っています：「Tyler Colenは『もう十分見た、O3はばかだと言おう』と言いました。一方、私が最初のプロンプトに対してO3が送ってきた写真には、例えばBobという名前から矢印が出てこのキャラクターに向いていて、次にJackという名前から矢印が別のキャラクターに向いているなどがあります。Jimの矢印もありますが、重要なのはAdamというテキストが矢印が指している場所（赤いAdamのところ）から遠く離れていることです。一目で、Adamは黄色だと言っていますが、黄色はAdamという単語の近くにありますが、矢印は赤いところを指しています。緑色を指すはずのBobはピンク色を指していて、Bobがピンク色の近くにあるからです。」
人工知能の愚かさは続いています。前回、人工知能が愚かで、バカげた間違いを犯すと言ったとき、人々は「Bobさん、あなたのプロンプトが悪いんです、あなたはプロンプトを改善する必要があります」とコメントしました。そうではありません、プロンプトに関係なく、知性に関することです。彼は13分かけてAdamが黄色であるという結論に達しましたが、それはやはり愚かです。なぜなら、私たちはこの矢印を追って、Adamがピンク色であることを3分もかからずに理解できるからです。
スーパーインテリジェンスとスーパー愚かさが混ざっていることが、大きな特徴の一つです。これは人々が最も気に入った部分でした。
最も多くのコメントがあったのは、この混乱です：GPT4から始まり、GPT4からGPT4 O1とO3に進化し、GPT4からGPT4.5に進化し、最後に4.1に進化しました。「これらの名前がもう理解できません。4がO4になり、それからO1、O3、4.5、4.1になるなんて、もう何も意味がわかりません」という大量のコメントがありました。
ミームには「もう疲れたよ、ボス」と悲しい顔で書かれています。名前についての冗談で、アーノルド・シュワルツェネッガーのターミネーターと少年の画像があり、「あなたはO4ですか？」「はい」「そして私の前にいる液体の男は5oですか？」「いいえ、彼はO4 Miniですが、あなたよりもはるかに強力だと言っています」「彼はそうです。これは混乱しています。O1は誰ですか？将来の自分の更新版？」「そして金髪の女の子はO3で、最も強力です」「O2はどこにいますか？」「O2はありません」。混乱が生じています。OpenAIが初めて自分自身を混乱させたのです。
まだテストしていない場合、既にPlusプランを含む有料プランで利用可能です。後で、O3（推論に優れている）、O4 mini（推論も高速）、O4 mini high（コードと視覚的推論に優れている）として見つけることができます。もう待つ必要はなく、使用するだけです。
OpenAIのニュースでは、興味深いことに「OpenAIは新しい非営利諮問委員会で画像の問題を解決したい」という記事があります。彼らは非営利だったのが営利に変わろうとしていて、今は非営利の委員会を作ろうとしています。本当に混乱しています。
OpenAIは非営利の取り組みを監督するための内部諮問委員会を設立しました。これは同社が商業的な運営への移行について継続的な批判に直面している時期に行われる動きです。彼らはまだその変更を実施できていないことを思い出してください。この委員会はOpenAIの慈善活動に戦略的な指針を提供することを目的としており、市民権、公衆衛生、教育、政策の経験を持つ人々を含みます。
これは彼らが常に全人類に利益をもたらしたいと言っていることを考えると興味深いです。彼らが営利団体になるならば、それが正しい道のように思えるかどうかはわかりませんが、それぞれの判断です。
委員はDolores Huerta（ベテランの労働・市民権活動家）、Monica Lozano（元メディア幹部、教育財団のリーダー）、Dr. Robert K. Ross（カリフォルニアエンダウメントの会長）、Jack Oliver（政治・財務コンサルタント）です。グループはDaniel Zingale（カリフォルニア州政府の長期政策顧問）によって調整されています。カリフォルニアといえばシリコンバレーです。
彼らが言っているのはコミュニティエンゲージメントと制度的正当性への焦点です。OpenAIによると、委員会は組織の非営利活動が、特に健康、教育、科学、公共サービスなどの分野で、公的機関や恵まれないコミュニティのニーズにどのように応えることができるかについての推奨事項を作成するとのことです。これは非常に興味深いことです。なぜなら、モデルがこのレベルの知性を持ち、社会の利益のために適用されれば、私たちは超発達した惑星になり、誰もが発展することになるからです。これは非常に奇妙なことです。
グループの活動はOpenAIが本拠地を置くカリフォルニアに集中し、予備報告書は90日以内に提出される予定です。OpenAIは非営利の仕事の範囲と影響を拡大すると同時に、システム的問題に取り組む上でのAIの役割を評価することを目的としていると述べています。同社はまた、潜在的な利益とリスクの両方を考慮すると述べています。
彼らがこれを実行すれば、本当に鍵を回すことになります。彼らが真に非営利の役割を引き受けるなら、拍手に値することになるでしょう。Rossは、AIが社会の根強い問題に対する新しいアプローチを提供できると主張し、委員会のメンバーであるSuis DesmondとGates財団のCEOは、委員会をOpenAIの非営利活動を実用的な結果に基づかせるための一歩として説明しています。すべてのこの技術を適用して社会システムを機能させることは本当に面白いことであり、大きな挑戦です。それについて考えて、このチャンネルでいくつかのプロジェクトを始めることもできます。
グループには確立された評判を持つ複数の公人が含まれています。Huertaは労働組織と市民権擁護の数十年の経験で知られ、LozanoはCollege Future Foundationのでシーイーオーで、Appleの取締役会のメンバーです。Appleから来た人々がここで働いていて、非常に興味深いことをしています。Rossは20年以上の公衆衛生と慈善活動の経験があります。アメリカでの慈善活動は大規模なビジネスであることを忘れないでください。小さなシンプルな慈善活動ではなく、一般的には毎日大量の人々に配布しなければならない腐敗しかけた食べ物を運ぶコンテナトラックのようなものです。これは非常に規模が大きいです。Oliverは政治家にアドバイスし、擁護活動を主導しました。Zingaleはカリフォルニアの民主党と共和党の両政府で働き、公衆衛生と社会政策に焦点を当てています。このZingaleは民主党と共和党のミックスで、非常に興味深いです。
委員会はOpenAIの非営利活動に公式な構造を与えますが、批評家によって提起された主要な懸念には対処していません。中心的な問題はOpenAIが行う有益な仕事の量ではなく、誰が最終的に最先端のシステムを制御するかということです。彼らは有益な仕事をするでしょうが、OpenAIの研究は継続します。彼らは最先端のことを行い、本当に物事を機能させています。
会社が一般的な人工知能の開発に近づくにつれて、監督が営利企業とその投資家に委ねられるのか、非営利団体に委ねられるのかという疑問が残ります。これが質問ですが、ここには多くの論争と議論すべきことがあります。
Grokに関する最新情報は次の通りです：「Grokはあなたの会話を記憶するようになりました。推奨やアドバイスを求めると、パーソナライズされた回答が得られます。」これは基本的にOpenAIと同じアイデアです。ここで彼は仕事の一日の計画を作ってほしいと頼み、Grokはこのユーザーから学んだ興味、力強さ、フィットネス活動への情熱に基づいて返信を始めます。彼は「今日の仕事プランを作ってください」と言っただけなのに、Grokは目標、必要な機器、場所、各活動にかける時間を説明しています。
追加情報としては、「メモリは透明で、Grokが何を知っているかを正確に見ることができ、何を忘れるかを選ぶことができます。メモリを忘れるには、メッセージの下にある本のアイコンをタップしてください。間もなくAndroidでも利用可能になります。」したがって、これは現在iOSで機能していると推測できます。
チャットが返信したメッセージとここに小さな本があり、クリックするとサイドにウィンドウが開き、チャットが参照している回答や記憶している情報が表示されます。「forget」をクリックして確認すると、その記憶が消去されます。
私がテストしたところでは、これはiOSで機能しているようです。「こんにちは」と送って「どうすれば助けになれますか」と尋ねましたが、その本アイコンや回答は表示されませんでした。彼らが昨日発表したキャンバスもまだ表示されていません。もしあなたのところに表示されているなら、どこに表示されているか、iOSと関係があるのか、インストールした特定のアプリと関係があるのかコメントしてください。誰が既にこれらを使用できているのか、何が起こっているのかをみんなが知るために役立ちます。
他の場所でこの情報を見つけようとしましたが、彼らはXの投稿でのみこれらのニュースを送っているようで、何が本当に公式なのか、何が起こっているのか、どのように機能するのかを知ることは難しいです。彼らは何が起こったかを言うだけで、正確に説明していません。しかし確かに、使おうとして成功していない人がいるはずなので、コメントしてください。私も使おうとしていますが、まだ成功していません。
最後のニュースは多くの人が知りたいと思っているものです：「OpenAIはAIコーディングスタートアップのWindsurfを買収するために約30億ドルを支払う交渉を行っています。」4.1のリリース時に、4.1モデルのWindsurfの無料使用が提供され、まだ有効であることを覚えているでしょう。
OpenAIはコーディング支援用のAIツールであるWindsurfを買収するために約30億ドルを支払う交渉を行っています。以前はCode 1として知られていたWindsurfは、別の人気のAIコーディングツールであるCursorや、Microsoft、Anthropic、OpenAI自体の既存のAIコーディング機能と競合しています。もしあなたがプログラマーなら、おそらくWindsurfかCursorを使っているか、Copilotやコードを使っているでしょうが、確かにここで起こっていることすべてを知っているはずです。
OpenAIは生成AIのレースでリードを保つために急いでおり、GoogleやAnthropic、イーロン・マスクのxAIなどの競合他社が新製品の定期的なリリースに大きく投資しています。もしWindsurfとの合意があれば、これはOpenAIにとって最大の買収となるでしょう。これは興味深いことです。誰もが仕事がなくなると言い、働くのをやめると言い、プログラマーが仕事を失うと言っています。もしそれが本当なら、もしOpenAI自身がそれを信じているなら、彼らはプログラマーがプログラミングを助けるツールを買わないでしょう。理解できますか？もしプログラマーが本当に終わるなら、プログラミングソフトウェアを開発する会社が30億ドルの価値を持つことはないでしょう。それは意味がありません。
これは人工知能の愚かさと結びつけるべきことです。人工知能は愚かで、バカげたことをします。スーパーコードを作成して全てを解決すると思って来ても、今日でもそのレベルにないからです。人工知能が時々、例えばAlpha Proofの場合のように、誰も解決していなかった数学の問題を解決できることがあるとしても、それは愚かでなくなったことを意味するわけではありません。これを頭に入れておいてください。これは理解するのが最も難しいことの一つです。愚かな人工知能がいかにして素晴らしいことに対して素晴らしい解決策を見つけることができるのか。そして真実はこれです：愚かでありながら同時に天才なのです。この天才と愚かさの二重性は、誰かがより知的な人工知能を作る方法論を発見するまで、しばらくの間続くでしょう。
Windsurfは他のツールと共に、開発者が過去数ヶ月間に「Vibe Code」を行うために使用しているツールの一つです。これはソフトウェアとAIモデルのコードを迅速に組み立てることを指す用語です。実際には「Vibe Coding」ではなく、私はオンラインでの作業を好みますが、CursorやWindsurfでも「Vibe Coding」を行うことができます。
TechCrunchは2月に、Windsurfが28.5億ドルの評価でファンディングラウンドを調達していると報じました。つまり、28.5億ドルの投資ラウンドを行っているなら、この30億ドルの価格は間違っています。28億ドルの投資を既に受けているなら、それ以上の価値があるはずですが、OpenAIが本当にWindsurfを買収するかどうか、そして何が起こるかを見守りましょう。
もしあなたがO3とO4をテストしたなら、それが賢いか愚かかコメントしてください。そしてこのようなビデオを見続けるためにチャンネルをサポートしたいなら、メンバーになってください。メンバーは知的エージェントについての限定動画と先行公開動画にアクセスできます。ぜひライクを残してください。