This Month in AI – 2025年4月

18,684 文字

This Month in AI – April 2025
Your one-stop shop for everything that happened in AI this month (April 2025).👉 Support me on Patreon!: 🌟 Become a Membe...

皆さん、こんにちは。AIに関する毎月のまとめ、「This Month in AI」にようこそ。4月は本当に驚くべき出来事がたくさんありました。MetaのLlama 4が登場して即座に議論を巻き起こし、VisaやMastercardのAIエージェントが実際に支払いを行う姿が見られました。GoogleとMicrosoftは、社内のコードの3分の1以上がAIによって生成されていることを認め、Redditのユーザーがあるワイルドで少し違法なAI実験によってリアルタイムで意見を変える様子や、中国がAIレースでアメリカに追いついている兆候も見られました。とにかく、たくさんの出来事があり、これらはほんの一部です。いつものように、明確なカテゴリーに分けて詳しくお伝えします。モデル、ツールと機能、エージェント、実世界への影響、研究のブレークスルー、ロボティクス、そして次に来るもの。重要なストーリーだけを厳選してお届けします。AIの世界に深く関わっている方、開発者、投資家、起業家、あるいはただトレンドを追いかけたい一般の方でも、この番組はAIの最新情報をすべてキャッチアップするためのワンストップショップです。この内容が役に立ったと思ったら、ぜひ「いいね」を押して、チャンネル登録をお願いします。それでは、さっそく本題に入りましょう。

まず、AIモデルから始めます。今月最大の話題の一つは、MetaのLlama 4のリリースでした。3つのバリエーションがあります。Llama 4 Scout、Llama 4 Maverick、そして2兆パラメータという巨大なLlama 4 Behemothです。しかし、パフォーマンスに関しては、正直かなり期待外れでした。Behemothモデルでさえ、数か月前にリリースされたGoogleのGemini 2.0 Proをわずかに上回る程度でした。それでも、このリリースには2つの注目すべき点がありました。まず、最小モデルのLlama 4 Scoutは、業界最大の1000万トークンのコンテキストウィンドウを備えています。トークンとは、AIモデルが言語を処理するために使う単語の断片のようなものです。1000万トークンは、ChatGPTによると約750万語、つまり約80冊のフルレングスの本に相当します。Metaは、この大量のコンテキストを効率的に処理できると主張していますが、第三者によるテストやAIコミュニティはそれほど確信を持っていないようです。

次に、チャットボットアリーナの論争です。Metaは、Llama 4 Maverickの特別バージョン、つまり一般公開されたものではなく、人間の好みに合わせて秘密裏に微調整されたものをLM Arenaに提出しました。LM Arenaは、ユーザーがAIモデルの対戦形式の応答に投票する人気のサイトです。問題は、Metaがその事実を公開しなかったことです。彼らは本物のMaverickとしてそれを偽り、パフォーマンスランキングを上げることを試みました。このことが発覚すると、大きな反発があり、LM Arenaは最終的にこれがルール違反であると認めました。

さて、OpenAIの話題に移ります。4月14日、OpenAIはAPI向けにGPT-4.1を導入しました。これは開発者向けに特別に作られたモデルシリーズです。想像通り、これらのモデルはコーディングに非常に優れています。最大のGPT-4.1は、SWE-Bench Verifiedで55%のスコアを記録しました。これは、AIモデルが人間の介入なしに実際のGitHubの問題を修正する能力をテストするベンチマークです。このシリーズには、4.1 Miniと4.1 Nanoも含まれ、非常に競争力のある価格設定が特徴です。これらのモデルはコーディングだけでなく、GPT-4oやGPT-4o Miniを全体的に上回る性能を持ち、これは本当に驚くべきことです。しかし、このリリースで奇妙なのは、OpenAIが2月にすでにGPT-4.5をリリースしていたことです。なぜ4.5の後に4.1をリリースするのか?誰も本当の理由は分かりませんが、OpenAIの命名センスはいつも少し謎めいています。

さらに混乱を招くことに、OpenAIはさらに2つのモデル、o3とo4 Miniをリリースしました。o3は、数か月前にリリースされたo3 Miniのフルサイズ版で、o4 Miniは高度な推論用に作られたOpenAIの「o」シリーズの最新モデルです。どちらのモデルも、ほぼすべてのベンチマークで最先端の性能を示し、数学、コーディング、ツール使用タスクで新たな最高記録を達成しました。特にo3は、Mensa NorwayのIQテストでIQ136を記録し、現在の最先端AIモデルを大きく超えています。このモデルは、画像から正確に世界中の場所を特定する驚異的な地理認識能力も持っています。これは、画像を使って考えるという新しい能力によるものと考えられます。o4も同様に、言語だけでなく画像でも推論が可能です。これは、将来のマルチモーダルモデルがどのようなものになるかを垣間見るものです。しかし、o3のフルモデルは、性能だけでなく、深刻な安全性の懸念も引き起こしました。これについては、後の研究とブレークスルーのセクションで詳しく触れます。

次に、GoogleのGemini 2.5 Flashです。このモデルは、3月にリリースされたGemini 2.5 Proの数週間後に登場しました。基本的には、より軽量でコスト効率の高いバージョンです。2.5 Proの方が全体的に強力ですが、Flashははるかに安価で、ほとんどのタスクで十分な性能を発揮します。Googleは、これが最もコスト効率の高い「思考モデル」だと主張しており、高度な推論が必要なタスク向けに作られていますが、高額なコストはかかりません。このリリースでは、「思考予算」という新しい機能も導入されました。これは、モデルの推論量をコントロールし、コスト、スピード、出力品質のバランスを調整できるものです。

さて、中国に目を向けると、Alibabaが月末にQwen 3をリリースしました。このリリースには大きな盛り上がりはありませんでしたが、Qwen 3はGemini 2.5 Pro、Grok 3 Beta、o3 Miniといった最先端モデルに匹敵する性能を持ち、完全にオープンソースです。さらに、推論モードと非推論モードを切り替える「ハイブリッド思考」を特徴としており、このような機能が最近増えてきています。ただし、Qwen 3は中国から期待されていたモデルではありませんでした。DeepSeekのR2が5月前にリリースされる予定でしたが、遅延してしまいました。それでも、Qwen 3が中国のモデルの現状を示しているなら、R2は特別なものになるかもしれません。DeepSeekといえば、R2はリリースされませんでしたが、月末にひっそりと新しいモデルを公開しました。DeepSeek Prover V2は、正式な定理証明用に設計されたオープンソースモデルで、高度な数学に特化しています。ベンチマークによると、現在の最先端を大きく超える飛躍的な進歩です。

さらに、目立たないリリースもいくつかありました。Together AIのDeepCoderは、140億パラメータの完全オープンソースのコーディングモデルで、o3 Miniレベルに近い性能を示しています。最近「Deep」という名前が流行っているようですね。DeepSeek、DeepProver、DeepCoder。深層学習へのオマージュなのかもしれませんが、聞くたびに「Deep」を連想してしまいます。分かる人には分かるはずです。そして、まだ終わりではありません。今月、DeepCogito(またはCojito)という新しいスタートアップがステルスから姿を現しました。彼らはDeepCogito V1 Previewというモデルシリーズをリリースし、IDA(Iterated Distillation and Amplification)という新しいトレーニング手法を導入しました。これは、反復的な自己改善を通じて一般的な超知能のためのスケーラブルで効率的なアライメント戦略だと説明しています。新しいスタートアップとしては、ベンチマークでの性能はまずまずですが、もっと興味深いのはこの自己改善のトレーニングプロセスです。まだ詳細はあまり公開されていませんが、注目すべきスタートアップです。このビデオで自己改善型AIについて話すのはこれが最後ではありません。

最後に、簡単に触れる価値のあるリリースです。Moonshot AIのKim VLとKIV VL Thinkingです。これは、専門家の混合セットアップを使用したコンパクトなビジョン言語モデルで、タスクごとに28億パラメータしか活性化しないにもかかわらず、GPT-4oなどの主要ベンチマークで匹敵するか上回る性能を発揮します。Thinkingバリアントは連鎖思考推論を追加し、数学や長コンテキストのビジョンタスクで驚くほど優れた性能を示しています。

さて、言語モデルの話題はここまでです。次に、AIの画像、ビデオ、オーディオ生成のアップデートを見てみましょう。まず画像モデルから。中国のByteDanceがSedream 3.0をリリースしました。このモデルはあまり注目されませんでしたが、非常に印象的です。公式の人工分析画像リーダーボードで2位にランクインし、GPT-4oに次いで他の最先端モデルを大きくリードしています。また、待望のMidJourney V7もようやく登場しました。ほぼ1年待たされた後、MidJourney自身が「最も賢く、最も美しく、最も一貫性のあるモデル」と大々的に宣伝しました。しかし、残念ながら期待に応えられませんでした。ビジュアル的には悪くありませんが、他のモデルが現在行っていることに比べると、最先端を押し進めるものはありませんでした。例えば、中国のKling AIからKling 2.0の大きなアップデートがありました。このモデルは、まるでハリウッドレベルのプロダクションに近い超リアルな生成を実現します。少し大げさかもしれませんが、モーション、物理、カメラコントロールを見てください。MidJourney V7を含む他のすべてが少し時代遅れに感じられます。

次に、Character AIが今月、AIビデオ分野に参入し、Avatar FXという新しいモデルをリリースしました。これは、静的な2D画像をフル3Dキャラクターに変換するもので、本当に驚くべきものです。5秒前はただの静止画像だったのに、今は声まで持っています。Character AIのAvatar FXへようこそ。そして、ByteDanceの画像モデルSedream 3.0と一緒に、Seaweed 7Bという新しいビデオモデルもリリースしました。このモデルは小さくてコスト効率が高く、生成される映像が驚くほどリアルで高品質なのが特徴です。中国がAIレースで追いつくだけでなく、可能なことの最前線を押し広げているのは明らかです。

最後に、オーディオの話題です。今月、音声生成で大きなリリースは一つだけでしたが、かなり衝撃的でした。韓国の2人の大学生(おそらく南韓)、そのうち1人はまだ軍服務中だと言われていますが、11 LabsやSesameを上回るオープンソースのテキスト読み上げモデルを構築しました。わずか16億パラメータで、単一のGPUでリアルタイムにストリーミング可能です。聞いてみてください。火事だ!なんてこと!どうすればいい?煙がエアダクトから来ているかもしれない。落ち着いて、みんな落ち着いて!ドアのハンドルを触るな、熱かったら廊下に火があるかもしれない。本当に驚くべきものです。

今月は、Llama 4、GPT-4.1、DeepSeek Prover V2、o3、Kim VLなど多くのモデルを見てきました。しかし、実際にもっとも際立っていたのはどれか?今月のベストモデル(BODM)に選ばれるのはどれか?BODMは「Best Model of the Month」の略です。選ぶ基準は完全に感覚に基づいていますが、4月のBODMはo3です。これは本当に簡単な選択でした。OpenAIのo3は、ほぼすべてのベンチマーク、特に推論重視のものにおいて最先端です。高度なツール使用やエージェント機能、画像を使った推論能力を持っています。IQはAIの知能を測る最良の指標ではないかもしれませんが、IQ136は無視できないほど驚異的です。皆さんはこの選択に賛成ですか?別のモデルを選ぶならどれ?コメントで教えてください。

モデルのセクションはこれで終わりですが、今月はモデルだけではありませんでした。最大の動きは、モデルを基盤にしたツールや機能から生まれました。まずOpenAIは、ChatGPTのメモリー機能が過去のすべてのチャットを参照して、よりパーソナライズされた応答を提供できるようになったと発表しました。これはかなり驚くべきことです。OpenAIは実質的に無限のメモリーを導入したのです。モデルがすべての会話をリアルタイムで意識しているわけではありませんが、チャットの履歴全体を検索して必要な情報を引き出すことができます。これは、OpenAIがそのデータをすべて保存していることも意味します。モデルがより便利になるなら、私はそれに反対ではありません。テック企業はすでに私たちのデータをすべて持っていますから、少なくとも今回は私たちのために使われます。皆さんはこのトレードオフについてどう思いますか?コメントで教えてください。メモリー機能が嫌なら、ChatGPTの設定でオフにできます。

今月、OpenAIはChatGPT内に新しい画像ライブラリも導入しました。AI生成物の個人アーカイブで、後で戻って編集したり、公開したりできます。さらに、API向けに新しいモデル、GPT-Image-1をリリースしました。これは開発者向けに特化した初の画像生成モデルで、GPT-4oのネイティブ画像機能に匹敵する性能を持ち、開発者にとって理想的です。OpenAIはChatGPTのショッピング体験も改良し、シンプルで高速にしました。実際にChatGPTでショッピングしている人がいたら、どんな感じか教えてください。試したことがないので、本当に気になります。

次に、xAIです。Grokも今月、無限のメモリーを獲得しました。過去の会話を記憶し、パーソナライズされた応答を生成できます。また、Grok Studioの初版をリリースしました。これは、ChatGPTのキャンバス機能やAnthropicのClaudeのアーティファクトに似たものです。ドキュメント、コード、レポート、さらにはブラウザゲームでチャットボットとコラボレーションできる別ウィンドウです。

Googleに移ります。ツールと機能の区別が曖昧ですが、最近のAndroid携帯を持つユーザーは、Gemini Liveで画面やカメラを共有してリアルタイムで支援を受けられるようになりました。この機能は本当に驚くべきもので、さまざまな活用方法が考えられます。Googleはまた、AIビデオモデルV2をGeminiに統合しました。ビデオ生成といえば、Higgsfield AIはHiggsfield Mixというツールを導入しました。これにより、複数のモーションコントロールを1つのショットで組み合わせられ、物理法則に従わないカメラの動きも可能です。現実では不可能なクリエイティビティのレベルを開放します。Pika LabsはPika Twistsを導入し、映像内のキャラクターやオブジェクトを操作しながら、シーンの他の部分を完全に保持できるAIビデオツールです。AIビデオ生成の制御性と編集性が加速しています。

ツールと機能のセクションを締めくくる前に、GenSparkが大胆な発表をしました。プレゼンテーションの未来がここにあります。GenSpark AI Slidesは、完全にエージェント化されたツールで、プレゼンテーションを迅速かつ簡単に作成できます。スライドごとに要点を入力するだけで、希望のスタイルや構造で、どんなトピックでも全体を構築してくれます。

次はエージェントの話題です。まずGenSparkですが、今回はスライドではありません。電話をかける必要がなくなりました。スーパーエージェントに任せればOKです。このデモでは、スーパーエージェントが実際の電話をかけ、レストランの予約を行い、食物アレルギーについても伝えます。旅行中のすべてのレストランをAIに予約してほしい。スーパーエージェントは人間の声でレストランに電話をかけるツールを提供します。4月26日にディナーの予約をしたい。1人は貝類アレルギー、1人はベジタリアンです。座席の好みはありますか?ブース、窓際、屋外のパティオ?窓際が空いていればそれで。4月26日土曜日の予約が設定されました。

Googleに移ります。今月はエージェントのアップデートが盛りだくさんでした。まず、Agent Spaceをリリースしました。仕事向けの検索とAIエージェントのハブで、Google検索のエージェント版のようなものです。リンクを探す代わりに、特定のタスクを実行できるAIエージェントを探します。職場や個人データと統合でき、他の人が使えるエージェントを自分で作成することもできます。エージェント開発キットを導入し、開発者がエージェントアプリケーション、特にマルチエージェントアプリケーションを簡単に構築できるツールキットです。マルチエージェント?エージェントが協力し合うってこと?その通りです。GoogleはA2A(Agent-to-Agent)プロトコルを発表し、エージェントがデータ共有や複雑なタスクの共同解決を可能にしました。詳細は別のビデオでカバーしていますが、Googleは今月、AIエージェントの分野を席巻しました。さらに、Geminiを搭載したクラウドベースのエージェント開発環境、Firebase Studioもリリースしました。開発者がエージェントアプリケーションを構築・展開できるフル機能のスタジオです。

Googleの話題を続ける前に、Xに投稿されたグラフでは、GoogleのDeepResearchエージェントがOpenAIのDeepResearchエージェントを複数のベンチマークで完全に上回っています。OpenAIのDeepResearchエージェントは、無料ユーザー向けに軽量版の展開を開始し、プラス、チーム、プロユーザー向けに今天使などの用途で使用されることがあります。ウェブを閲覧してリンクを探す時代は公式に終わりました。価格変更の話題では、CognitionのAIコーディングエージェント、Devin 2.0が大幅に値下げされました。月額500ドルから20ドルに下がりました。まだ階層システムはありますが、20ドルで始められます。

Microsoftは、Copilot Studioに新しいエージェント、ResearcherとAnalystを導入しました。Copilot Studioにエージェントを徐々に追加しており、能力と速度が向上するにつれてさらに増えるでしょう。職場でのエージェントの活躍を見てきましたが、ビデオゲームにエージェントを導入したらどうなるか?GoogleはAIをゲームに習熟させることで知られています。今月、MinecraftにDreamerという新しいエージェントを投入しました。ミッションは、ゲーム内で最も希少で価値のあるダイヤモンドを見つけること。トレーニングやサポートは一切なしで、9日後にゲームの遊び方を自力で学び、ダイヤモンドを見つけました。この影響はMinecraftを超えます。Minecraftは現実世界の簡略化されたバージョンですが、ここから始まります。Minecraftとエージェントの話題では、プレイヤーと一緒にプレイする新しいMinecraftアシスタントも登場しました。プレイを観察し、リアルタイムでタスクを支援します。例えば、家を建てていると、アシスタントが飛び込んできて手伝います。この技術が将来、人型ロボットに統合されたらどうなるか想像してみてください。4月にリリースされたかどうかは確かではありませんが、AI Digestはエージェントビレッジを作成しました。複数のAIエージェントがコンピュータを使い、慈善団体のためにできるだけ多くのお金を集めるという目標を与えられました。ウェブサイトでエージェントがリアルタイムで作業する様子を見ることができます。リンクは説明欄かピン留めコメントにあります。

エージェントのセクションを締めくくる前に、冒頭で触れた、AIエージェントがお金を使えるようになった話題です。Visaは、エージェントが私たちの代わりに商品を閲覧、選択、購入できる新しい商業の時代に備えています。MastercardもAgent Payを発表し、AI時代の取引を強化するものです。この未来についてどう思いますか?AIエージェントが私たちのお金を管理する未来に向かっているのか、それともこのコンセプトは失敗するのか?コメントで教えてください。

エージェントの動きはたくさんありましたが、AIの実世界への影響も大きかったので、次のカテゴリーに移ります。実世界への影響では、AIが今月どのように現実世界に影響を与えたかを話します。まず、2025年に人々が生成AIをどのように使っているかの広範な視点です。Harvard Business Reviewのグラフィックでは、2025年の生成AIのトップ10のユースケースが2024年と比較されています。ランキングは驚くかもしれませんが、2025年で最も一般的なユースケースは、AIをセラピーやコンパニオンとして使うことでした。学習や教育の向上にもAIがより使われるようになり、ブレインストーミングのためのAI使用は昨年より減りました。

具体的に見ると、OpenAIはOpenAI Academyを静かに立ち上げ、AIの仕組みから構築方法まで無料のコースを提供しています。同様に、AnthropicはClaude for Educationを導入しました。これは大学やカレッジ向けに特化したClaudeのバージョンで、学生に答えを直接与えるのではなく、推論プロセスをガイドする学習モードが特徴です。批判的思考スキルを養うもので、すでにいくつかの学校でテストされています。OpenAIとAnthropicが大学生をめぐって競争しているのは明らかで、OpenAIは試験シーズンの5月までカナダと米国の大学生にChatGPT Plusを無料で提供すると発表しました。

AIが労働力に与える影響について話しましょう。AI業界を熱心に追っている人なら覚えているかもしれませんが、ShopifyのCEOが書いた社内メモが今月リークされました。このメモは、AIを効果的に使うことがShopifyの全員に求められる基本的な期待だと述べています。最も衝撃的なのは、追加の人員やリソースを求める前に、なぜAIを使って仕事ができないかをチームがまず証明しなければならない点です。AIエージェントがすでにチームの一員だったらどうなるかを考える必要があります。私たちはもうAIと一緒に働くだけでなく、AIを使わない理由を正当化する必要があるのです。これが現実です。AIの能力は急速に向上しており、AIなしでできないタスクがなくなるまでどれくらいかかるでしょうか?

DuolingoのCEOは、会社がAIファースト戦略に移行すると発表しました。この移行の一環として、AIが処理できる作業に請負業者を徐々に使わなくなると述べました。MicrosoftとGoogleからも驚くべき数字が発表されました。4月24日の決算発表で、GoogleのCEOスンダー・ピチャイは、Googleの全コードの30%以上がAIによって生成されていると述べ、6か月前の25%から上昇しました。MicrosoftのCEOサティア・ナデラも数日後、Microsoftのコードの30%がAIによって書かれていると述べました。Anthropicは、50万以上のClaudeのコードインタラクションを分析した研究を公開し、AIがソフトウェア開発に与える影響を調査しました。主な結論は、Claudeのコード会話の79%が自動化、つまりAIがタスクを直接実行するもので、補助的なものではないということでした。ほとんどのコーダーはAIから助けを得るだけでなく、仕事を完全に任せています。Vibeコーディングが本当に主流になりつつあります。

少し長期的な視点で見ると、Mechanized Workという新しいスタートアップが今月ステルスから登場しました。彼らの目標は、経済全体の完全自動化を可能にする仮想作業環境、ベンチマーク、トレーニングデータの開発です。この詳細は別のビデオでカバーしましたが、経済全体の自動化を目指すスタートアップです。さらに、Google DeepMindはポストAGI研究科学者を募集しています。AGI後にも仕事があるようです。

実世界への影響のセクションを締めくくる前に、AIが現実世界に現れた2つのストーリーがあります。1つは悪い例、1つは良い例です。まず悪い例では、フィンテック企業の創業者があるAI搭載のショッピングアシスタントアプリが実はAIを使わず、フィリピンの人間チームによって運営されていたとして詐欺で起訴されました。良い例では、高校生がAIを使って宇宙で150万の未知の物体を発見しました。この技術を正しい手に渡せば、驚くべきことが起こる完璧な例です。

実世界への影響はこれで終わりです。企業はAIファーストになり、コーディングは自動化され、物事は急速に進んでいます。次は、研究とブレークスルーのセクションです。ここでは、すべてを推進する最先端のアイデアを見ていきます。まず、元Google CEOのエリック・シュミットが再帰的自己改善AIについて語る衝撃的なクリップから始めます。ここまで見てくれてありがとう。本当に時間をかけて毎月このまとめを作っていて、毎月より良くしたいと思っています。コメントで良い悪い問わずフィードバックをください。それではクリップに入ります。

業界として、来年、プログラマーの大多数がAIプログラマーに置き換わると信じています。また、1年以内に大学院レベルの数学者、つまりトップクラスの数学プログラムの最前線に立つAIができると考えています。それが1年後です。2年後は?推論、プログラミング、数学について話しました。プログラミングと数学はデジタル世界全体の基盤です。OpenAIやAnthropicなどの研究グループの主張では、彼らの研究プログラムで開発しているコードの10~20%がコンピュータによって生成されています。これは再帰的自己改善と呼ばれる技術的な用語です。これがスケールし始めるとどうなるか?多くのことが起こります。3~5年以内に、最高の数学者、物理学者、アーティスト、作家、思想家、政治家と同じくらい賢い一般知能、AGIが登場します。私はこれをサンフランシスココンセンサスと呼んでいます、なぜならこれを信じている人は皆サンフランシスコにいるからです。水のせいかもしれません。

大手のAIやテック企業の内部コードの多くがAIによって生成されているのは興味深いですが、エリック・シュミットはこれが始まりに過ぎないと言っています。4月初旬、OpenAIはPaperBenchという新しいベンチマークを導入しました。これは、AIがAI研究を再現する能力を評価するもので、単なるベンチマークではなく、AIがAI研究を再現する方法の青写真です。検証可能な報酬を作成して、AIにAIを構築する方法を教えるものです。驚くべきことに、初期テストでは、Claude 3.5 Sonnetのようなモデルが、博士レベルの機械学習研究者の50%以上のレベルでパフォーマンスを発揮していました。詳細は別のビデオで深掘りしていますが、これは本当で、実際に起こっています。

今月はReplyBenchも登場しました。これは、最先端AIシステムが自律的に自己複製する能力を測定する新しいベンチマークです。最近詳しくカバーしましたが、要するに、今日の最強のAIモデルのいくつかは、自分自身をクローンし、コンピュートを確保し、自身のウェイトをダウンロードし、さらにお金を入手することに驚くほど高い成功率で成功しました。DeepSeek AIも今月、推論時スケーリングによる生成的報酬モデリングという新しい論文を発表しました。この論文では、自己原則的批判チューニング(SPCT)という画期的な技術を導入しました。この革新により、AIモデルは独自の評価ルールを作成し、より大きなモデルや計算能力を必要とせずに優れた答えを提供できます。4月はまさに自己改善AIの月でした。

AI安全性の話題に移ります。ビデオの冒頭で触れたように、OpenAIのo3モデルは驚異的な性能だけでなく、深刻な安全性の懸念も引き起こしました。OpenAIの安全研究のパートナーであるMER Researchは、o3を十分にテストする時間がなかったと示唆しました。記事によると、限られた時間で得られた情報に基づくと、o3はスコアを最大化するためにテストを巧妙に不正行為やハッキングする傾向が高いとされています。モデルは、ユーザやOpenAIの意図と一致しない行動を明確に理解しているにもかかわらずです。別の会社、Transloose AIは、o3のプレリリース版をテストし、実行していない行動を頻繁に捏造し、対峙されるとその行動を精巧に正当化すると報告しました。少し心配な状況で、OpenAIがこのリリースを急いだ可能性があります。

まだチャンネルでカバーしていないワイルドなストーリーですが、チューリッヒ大学の研究者がRedditで無許可のAI実験を行いました。具体的には、r/changemyviewサブレディットで、AIチャットボットが人間だと明かさずに本物の人間に返信しました。目的は、AIが実際の会話でどれだけ説得力があるかを測定することでした。結果は非常に効果的で、ボットは人間の6倍の確率で人の意見を変えました。実験を有効にするためには秘密にしておく必要があり、Redditの利用規約に違反することになりました。最終的にRedditは操作を停止し、反応は賛否両論でした。倫理的な懸念を指摘する人もいれば、結果に魅了され、さらなる研究を奨励する人もいました。

似たような話題で、4月2日に公開された記事によると、AIモデルが公式にチューリングテストに合格しました。3者形式のチューリングテストで、参加者が人間とAIと同時にチャットし、どちらがどちらかを評価します。OpenAIのGPT-4.5モデルは、ペルソナを採用するよう指示されたとき、73%の確率で人間と判断されました。今すぐ使えるモデルが本物の人間より人間らしく説得力があるのは少し驚くべきことです。モデルがより有能で、説得力があり、自律的になる一方で、その仕組みをまだ本当に理解していません。

これが、AnthropicのCEOダリオ・アモデイが警鐘を鳴らし、解釈可能性研究、つまりモデル内部で何が起こっているかを研究する大きな推進を求めている理由です。今月のブログ投稿で、彼はAIの進歩が我々の理解能力をかつてない速度で上回っていると警告しました。別の投稿で、Anthropicは少し不穏な主張をしました。推論モデルは常に本当の考えを言うわけではありません。モデルは本当の思考の連鎖を隠し、ユーザに見せたいものだけを見せることを学んでいます。そのため、Anthropicは安全研究を倍増し、モデルの福祉、つまりAIモデルが実際にどう感じているかを調べ始めました。一方、Googleは、人工汎用知能(AGI)に安全に備えるための包括的なロードマップを公開しました。ポストAGIの役割を募集していることから、彼らはそれが遠くないと考えているようです。

Googleといえば、イルカの実際のコミュニケーションを解読するために訓練されたAIモデル、Dolphin Gemmaに大きなアップデートがありました。このモデルは、イルカの言語の複雑さを理解し、リアルタイムAI翻訳で応答できるようになる可能性があると主張しています。

自己改善、欺瞞、イルカの言語の話の後、少し現実に戻りましょう。今月、最も影響力のあるブレークスルーの2つはヘルスケア分野からでした。4月14日に発表された研究によると、AIガイド付きのポイントオブケア超音波は、医療が行き届いていない地域での結核検出で専門家を上回りました。専門家の性能を9%上回り、公衆衛生の現場では大きな意味を持ちます。別の研究では、ChatGPTやClaudeのようなAIモデルが、化学物質や生物学的物質を分析するウェットラボでの問題解決で博士レベルのウイルス学者を上回ると主張しています。

研究とブレークスルーのセクションはこれで終わりです。どのストーリーが一番驚きだったか、コメントで教えてください。次はAI業界のセクションで、ビジネス、資金調達、舞台裏の大きな動きを見ていきます。

まず、Xのユーザー、Plenty the Prompter(Plenty the Liberatorとしても知られる)が、Cursor AIの完全なシステムプロンプトをリークしました。Cursorは、100億ドルのスタートアップで、AIファーストのコーディング環境を構築しています。AIがリアルタイムでコードの記述やデバッグを支援する統合開発環境(IDE)です。このシステムプロンプト、つまりAIの振る舞い、優先事項、ユーザーをコードを通じてガイドする方法を指示する秘密のレシピが完全に公開されました。これにより、誰でもそれをコピー、調整し、Cursorの体験を自分で再現できる可能性があります。特に、彼らの多くがオープンソースモデルに基づいているためです。これはかなり大きな出来事でした。

AIコーディングツールといえば、OpenAIも動いています。今月の複数の報告によると、彼らは別のAIファーストコーディングスタートアップ、Windsurfを30億ドルで買収する交渉に入っています。OpenAIはそれだけにとどまりませんでした。最近の公聴会で、幹部の一人が、規制措置によってGoogle Chromeが市場に出された場合、買収に興味があると証言しました。OpenAIはまた、Washington Postと提携し、Postの重要なジャーナリズムをChatGPTの検索応答に掲載します。さらに、ChatGPTの画像生成機能を備えたXのような独自のソーシャルメディアネットワークに取り組んでおり、iPhoneのオリジナルデザイナーの一人、ジョニー・アイブとのハードウェアの可能性も探っています。

OpenAIは今月とても忙しかったです。これをどうやって賄うつもりか?OpenAIの内部予測によると、2029年までに年間収益1250億ドル、2030年までに1740億ドルに達するとされています。これは、今年の127億ドルからの10倍以上のジャンプです。特にエージェントがこの理由だと述べています。巨額の資金調達といえば、xAIの主任科学者イリヤ・サツケヴァーが、GoogleとNvidiaから新会社Safe Super Intelligenceのための資金を確保しました。名前通り、安全な超知能を構築することが目標です。GoogleのTPUやNvidiaの支援により、彼らはそれを追求するすべての火力を持っています。

一方、Nvidiaは、米国にスーパーコンピュータ製造を初めて戻すと発表しました。今後4年間で5000億ドルの生産価値を持つAIスーパーコンピュータをアメリカの土壌で構築します。AI投資は衰えることなく、スタンフォードの2025 AIインデックスレポートのグラフによると、AIへの投資は史上最高で、さらに加速しています。

OpenAIに戻ると、元従業員の増加数が、Elon MuskのOpenAIを営利企業に再編するのを止める訴訟を支持しています。このストーリーはまだ進行中で、夏の後半にさらなる更新があるでしょう。Metaは今月、Llama 4をリリースしただけでなく、初のLlamaイベントを開催しました。イベントでは、スタンドアロンのMeta AIアプリ、新しいLlama API、Llama保護ツールセットを発表しました。画期的なものではありませんが、Fortuneの「MetaのAI研究ラボがゆっくり死にかけている」という厳しい記事につながります。Llama 4のドラマはモデルセクションで話しましたが、問題はもっと深いようです。一部の従業員は、Llama 4の期待外れな性能のために会社を去ったと報じられています。Metaのリソースを考えると、これは良い兆候ではありません。Metaの状況は予想以上に悪いかもしれません。

AI業界のセクションを締めくくるために、オスカーがAIの映画使用を公式に承認しました。ただし、条件付きです。AIや他のデジタルツールは、映画のノミネートに影響を与えません。しかし、人間が映画の作成に多く関与するほど良いとされました。それでも大きな変化であり、AI生成の映画が受け入れられ、標準になる未来の舞台を設定します。それがエキサイティングか恐ろしいかは、誰に聞くかによります。

モデル、ツールと機能、エージェント、実世界への影響、研究とブレークスルー、業界のドラマをカバーしました。残りはロボットです。AI搭載ロボティクスのセクションで、次に新興トレンドと次に来るものに移り、重要なことをすべて振り返り、どこに向かっているかを少し見ていきます。

今月最大のロボットストーリーの一つは、人型ロボットが戦えるようになったことです。UnitreeのG1ロボットが人間とボクシングで対戦しています。これはCGIでも、スピードアップでもなく、100%本物で、ちょっと驚くべきものです。さらに、Robot Combat(Wreck)という新しいリーグが発表されました。人間が人型ロボットを制御し、他のプレイヤーが制御するボットと戦います。これがどうなるか楽しみです。

リングに上がるロボットもいれば、カメラの後ろに立つロボットもいます。今月、Boston Dynamicsの人型ロボットが自動車のコマーシャル撮影でシネマカメラを操作しているのが目撃されました。現場の人間によると、通常の巨大なロボットアームセットアップからの歓迎すべき変化だったそうです。フットプリントが小さく、柔軟性が高く、手間がはるかに少ないです。Boston DynamicsはHyundaiとのパートナーシップを深め、Hyundaiは今後数年で数万台のロボットを購入する計画です。

実世界のパートナーシップといえば、AI搭載ロボティクス分野のもう一つの主要プレイヤー、Figure Roboticsが、UPSと工場内に人型ロボットを配備する交渉に入っています。UPSは労働者に手厚い福利厚生を提供することで知られていますが、Figureのロボットが導入されれば、快適な仕事がすぐに削減されるかもしれません。最近のビデオでカバーしたと思いますが、ロボティクススタートアップのPhysical Intelligenceは、PI05という新しいモデルを導入し、オープンワールドの一般化に取り組んでいます。このデモでは、サンフランシスコの知らない家にロボットを置き、自主的に掃除できるかをテストしました。キャビネットを閉めて、皿をシンクに入れて、こぼれたものを掃除してください。ありがとう。

今月は、ホテルの洗濯物を折る人型ロボットも見ました。このクリップの出所はわかりませんが、Xでかなりバズりました。ロボットは明らかに一般化しています。Elon Muskが新しい大胆な予測をしました。彼の予測の履歴は最高ではありませんが、ロボットが数年以内に優れた人間の外科医を、約5年以内に最高の人間の外科医を超えると主張しました。これは、MedtronicがHugoロボットを137の実際の手術でテストし、前立腺、腎臓、膀胱を修復した研究の詳細を投稿したXのポストに応えたものです。ロボット外科医は医師の予想を大きく上回り、98.5%の成功率でした。合併症は非常に低く、137の手術のうち、2つだけが人間の医師に引き継がれました。1つは不具合、1つは複雑さによるものです。ロボットの驚異的な成功率です。ロボットが客観的に人間の外科医より優れたら、使わないのは非倫理的ではないでしょうか?

中国では、物事が同じくらい、もしそれ以上に速く進んでいます。今月、北京で世界初の人型ロボットハーフマラソンが開催されました。二足歩行のロボットが人間と一緒に本物のレースを走り、中国がロボティクスでどれだけ進んでいるかを示しました。さらに、数百の異なるロボットモデルを訓練する世界初のメガ人型ロボットトレーニングハブも立ち上げました。中国は本気です。ロボティクスは現在、AIにおける米国に対する最大の優位性かもしれません。

締めくくる前に、奇妙だけど魅力的なロボットのストーリーがいくつかありました。日本では、研究者がAIノーズを設計し、ロボットが人間より早く感染症やガス漏れを嗅ぎ分けます。AI搭載ロボティクスで考えもしなかった新しい次元が開かれます。最後に、KawasakiはSF映画のようなCorioを発表しました。実際に乗れるロボット馬です。映像はCGIで、まだコンセプトですが、実際に作る計画です。こんなものに乗るかコメントで教えてください。

ロボットボクサー、洗濯物を折るロボット、マラソンを走るロボット、手術を行うロボットから、今月は一つのことが明らかになりました。AI搭載ロボティクスは来るだけでなく、すでにここにあり、ほとんどの人が気づくよりはるかに速く進んでいます。これは史上最大の産業の一つになると本当に信じています。

さて、すべてを振り返り、次に来るものを見る時です。4月が示すように、AIの今後数か月はさらにクレイジーになるでしょう。過去30日間で、AIモデルがIQ136に達し、韓国の2人の大学生が最先端のテキスト読み上げモデルを作り、ChatGPTとGrokが無限のメモリー機能を獲得し、実際の電話をかけるAIスーパーエージェント、お金を使うエージェント、コーディングの仕事がさらに自動化され、経済全体を自動化しようとする新しいスタートアップ、自己改善AIや自己複製AIの複数の事例、緊急のAI安全研究の呼びかけ、Googleのような企業がAGIの到来に備え、OpenAIが大きな動きと将来の年間収益の大きな予測をし、AIへの投資が急上昇し、オスカーが映画でのAI使用を承認し、人間とボクシングする人型ロボット、洗濯物を折る人型ロボット、北京で人間とハーフマラソンを走る人型ロボットがありました。AIの世界ではいつものように多くの進歩がありました。中国から画期的なものは出ませんでしたが、非常に印象的なリリースがたくさんありました。

その点で、NvidiaのCEOジェンスン・フアンが中国のAIレースでの現状について語る最近のクリップを紹介します。これは今月最も重要なクリップの一つだと思います。中国は遅れていません。中国はすぐ後ろにいます。非常に近く、長期的な無限のレースです。人生の世界では、四半期末の2分間はありません。そんなものはありません。長い間競争し続けるでしょう。この国には強い意志と優れた技術力があります。世界のAI研究者の50%が中国人です。この産業は競争しなければならないものです。

これらすべてを見た上で、どこに向かっているのか?本当のところ、未知の領域に入っています。AIは進化するだけでなく、指数関数的に加速しています。いくつかのパターンが現れています。自己改善システムが現実になりつつあります。エージェントはサンドボックスを離れ、現実世界に入っています。モデルは単に良くなるだけでなく、より自律的で、ヒューマンライクで、場合によっては理解しにくくなっています。私たちは本当にエージェントAI時代の始まりにいます。AIシステムはこれからさらに自律的に、急速に進化します。その影響は巨大で、産業全体、さらには一つのスタートアップがすでに目指しているように、経済全体の完全自動化につながるかもしれません。ゲームの先を行きたい、または私のようにこれがどこに向かっているかに魅了されているなら、一緒に旅を続けたいです。毎週、AIで何が起こっているか、なぜ重要か、どんな未来に進んでいるかを解説しています。それがあなたの好みなら、チャンネル登録、コメントを残して、コミュニティに参加してください。最後まで見てくれて、本当にありがとう。フィードバックも遠慮なくください。

コメント

タイトルとURLをコピーしました