
11,751 文字

今週もAIの世界ではとても興味深い出来事がありました。自分自身を訓練する新しいモデル、広告のあらゆる分野に浸透するAI(終末時のAIの姿も含めて)、そして新しいChatGPTの機能、おそらく人型ロボットから見られる最高のダンスムーブなどがありました。
時間を無駄にしたくないので、さっそく本題に入りましょう。まずはGoogle DeepMindのAlpha Evolveから始めましょう。これは自己改善型AIで、単にコードを書くだけでなく、実際にコードを進化させます。Alpha Evolveは、GoogleのモデルであるGemini FlashとGemini Proの2つを使用しています。Gemini Flashを使って探索するアイデアの幅を最大化し、Gemini Proを使って洞察に満ちた提案で重要な深さを提供します。
こんなふうに想像してみてください。あなたが克服しようとしている問題に対して斬新な解決策を考えようとするとき、たくさんのアイデアをブレインストーミングして、それらをすべて出し切るかもしれません。アイデアの中には良いものもあれば、本当に悪いものもあり、ほとんどはおそらくその中間になるでしょう。それがGemini Flashがやっていることです。
この問題を解決するための潜在的なアイデアをたくさん出すことを試みています。そしてGemini Proが登場して、アイデアをより良く評価し、実際に解決しようとしている問題の潜在的な解決策がどれなのかを見極めます。Alpha Evolveは、提案されたプログラムを自動評価指標を使って検証、実行、スコア付けします。
これらの指標は、各ソリューションの精度と品質について客観的で定量的な評価を提供します。Google DeepMindは実際に、データセンター、TPU回路設計、さらにはGeminiモデルのトレーニングなど、様々なものを最適化するためにAlpha Evolveを社内で使用しています。Alpha Evolveはまた、複雑な数学的問題に対する新しいアプローチを提案することができます。
4×4の複素行列を乗算するアルゴリズムを発見しました。この特定の数学的問題に対する以前の最良のアルゴリズムは1969年に作られたものでした。つまり、56年間より良い方法が見つからなかった数学の問題に対して、より良い解決方法を見つけたのです。
このAlpha Evolveが特に特別なのは、インターネットからスクレイピングされた既知の方法を単に使用するのではなく、実際に問題を解決する新しい方法を発明していることです。これは私にとって相当大きなブレークスルーに感じます。そして彼らは実際にこれをGoogle IOの前の週に発表しました。
これほど大きなものがGoogle IOの前に発表されたとなると、来週のGoogle IOで実際に何が発表されるのか本当に気になります。同様の路線で、今週シンガ大学、北京総合人工知能研究所、ペンシルベニア州立大学から「Absolute Zero: Reinforce Self-Play Reasoning with Zero Data(絶対零度:ゼロデータによる自己対戦推論の強化)」という新しい研究論文が発表されました。
これは実際にAIモデルをデータを与えることなくトレーニングする新しい方法です。ここで要約を読むと、AIが人間の知能を超える仮想的な未来では、人間が提供するタスクは超知能システムにとって学習の可能性が限られているかもしれません。つまり、AIが超知能化すると、人間が教えるには愚かすぎるということです。
そうなったらどうすればいいのでしょうか?これらの懸念に対処するため、私たちは絶対零度と呼ばれる新しいRLVRパラダイムを提案します。その中で単一のモデルが、自分自身の学習進度を最大化するタスクを提案し、外部データに頼ることなくそれらを解決することで推論を改善します。このパラダイムの下で、私たちはabsolute zero reasonerを導入しました。これは、自分のトレーニングカリキュラムと推論能力を自己進化させるシステムで、コードエグゼキューターを使用して提案されたコード推論タスクを検証し、答えを確認します。これが開放的でありながら根拠のある学習を導く検証可能な報酬の統一ソースとして機能します。
基本的にやっていることは、コーディングや数学の問題など、自分自身で解決すべき問題を作成することです。その後、それらの問題を解決しようと試み、コードエグゼキューターを使用して、自分が考え出した解決策が正しいかどうかを再確認します。
そして、このプロセスを繰り返し続けます。完全に外部データなしでトレーニングされたにもかかわらず、AZRはコーディングと数学的推論タスクで全体的に最先端のパフォーマンスを達成し、何万もの領域内の人間が厳選した例に依存する既存のゼロ設定モデルを上回っています。念頭に置いておくべきことの一つは、これは本当に数学とコードに限って優れているということです。
そのため、「これでAGIに到達できる」と考えている人がいるかもしれませんが、実際にはそうではありません。何かがAGIになるためには、ある種の世界知識を持ち、数学やコーディングだけでなく、あらゆる種類の問題を解決できなければなりません。例えば、このようなモデルでは、ビジネスアドバイスを求めて、ChatGPTのように次のステップについて説明してもらうことはできません。
世界史や時事問題などについて尋ねることもできないでしょう。これは数学とコーディングの問題を作成し、自分が作成した問題を解決し、コードエグゼキューターを使用して問題の解決方法が実際に機能するかどうかを再確認することに特化しています。その領域外のほとんどのことには機能しません。
しかし、これについて興味深いのは、AIがコードを書くことについて多くの論争がありますが、AIがコードの書き方を知っている唯一の理由は、元のモデルにトレーニングされた他の人のコードから学んだからだということに人々がフラストレーションを感じている点です。
しかし、このような研究では、もはやそうではなくなります。これは人間によってトレーニングされていない新しいコードを見つけ出して書くことができるのです。実際に新しいコードを作成して、作成したものをテストしています。では、広告におけるAIについて話しましょう。なぜなら、AIはまもなく広告のあらゆる側面に浸透するからです。
あなたの前に出ようとしている企業は、AIを使って最も良い方法を見つけ出します。そしてNetflixやYouTubeのような広告に依存するサービスは、AIを活用して、ちょうど良いタイミングであなたの前に最高の広告を配置しようとするでしょう。今週初め、Stripeの社長がMark Zuckerbergにインタビューし、彼はFacebookやInstagramなどのプラットフォームを使用する広告主にとって、広告がどのように機能するかについてのビジョンを説明しました。
「広告を掲載したいなら、自分でクリエイティブを考え出し、誰にリーチしたいかを考え出さなければなりませんでした。自分の顧客が誰なのかを把握し、自分で多くの測定を行う必要がありました。そして時間が経つにつれて、これらのことをどんどん自動化してきました。
基本的な最終目標は、どんなビジネスでも私たちのところに来て、彼らの目的を伝えることができるということです。新しい顧客にこのことをやってもらいたい、これらのものを売りたい、と。そしてそれらの結果を達成するために喜んで支払う金額を伝え、銀行口座を接続すれば、あとは私たちができるだけ多くの結果を提供するだけです。
ある意味では、究極のビジネス結果マシンのようなものです。しかし将来的には、小さなビジネス、あるいはもっと大きなビジネスを運営している場合でも、クリエイティブから始める必要さえないかもしれません。もしできれば、もっと良い結果を得られるかもしれませんが、目標と、それがあなたにとってどれだけの価値があるかを教えてくれれば、私たちはただプラットフォーム全体で結果を届けるだけです。」
そのクリップからいくつかの部分をカットしましたが、それはペースを上げるためだけで、クリップの文脈は一切省いていません。しかし、基本的な考え方は、売上を生み出そうとしているビジネスがあれば、Facebookに行って「これが私のビジネスです。もっと売上を取ってきてください」と言えるようになるということです。
おそらく広告を作成し、ターゲティングを設定し、結果を得るために広告を継続的に最適化してくれるでしょう。メールリストを増やしたいなら、「もっとメールが必要だ」と伝えればいいのです。AIがあなたのために広告を作成するプロセスをすべて行います。ただ目標となる結果を伝え、お金を与えると、AIがそのお金を結果と交換するために継続的に最適化してくれます。
常にニュースレター(Future Toolsニュースレター)の拡大を試みている者として、それは実際に試してみたいと思っています。私たちがコンテンツを消費するプラットフォームに関しては、AIのおかげで広告の見た目が大きく変わろうとしています。The Vergeのこの記事によると、Netflixは広告の休憩が広告の休憩に見えないようにAIを使おうとしているようです。
これが実際にどのように見えるのかについては100%確信がありません。詳細はまだ少し曖昧ですが、ここのサブ見出しを見ることができます。「新しいフォーマットでは、広告主が番組や映画に溶け込むスポットを作ることができます」。Netflixは今週「Upfront」というイベントを開催し、「ストレンジャー・シングス」のような番組にインスパイアされた背景に製品のイメージを配置するなどの例を実演しました。
視聴している番組にもう少しネイティブに見えるように、広告の背景にさまざまなNetflixのIPを入れることができるようになるのでしょう。Netflixの広告付きプランを使用している場合、視聴中の番組(「ブリジャートン」でも「ウェンズデー」でも)に溶け込む広告が表示される可能性があります。Netflixによると、広告主はこの新しい広告フォーマットを視聴中のコンテンツの途中に挿入したり、一時停止した時に画面に表示したりすることができます。
実際にNetflixのウェブサイトのプレスリリースを確認すると、「クリエイティブフォーマット」というセクションが見えます。「Netflixは、生成AIを活用して広告主の広告と番組の世界を即座に結びつける広告フォーマットのための新しいモジュラーフレームワークを発表しました」。これがどのように見えるかの例の一つだと思います。
「ウェンズデー」という番組のものですが、実際の広告にはウェンディーズ、booking.com、チートスも表示されています。つまり、広告付きのNetflixプランを使用していれば、こういったものが表示されるようになります。YouTubeもAIを使って広告の配置を変更しています。YouTubeはAIを使用してさまざまな広告の配置を最適化しようとしています。
彼らは今週「Brandcast」というイベントを開催し、いくつかの発表をしました。その一つが「Peak Points」で、「Geminiを使って構築された新しい製品で、YouTubeの人気コンテンツ内で最も意味のある、または最高の瞬間を特定し、視聴者が最も熱中している場所にあなたのブランドを配置します」。
これは本質的に、YouTubeビデオがとても良くなってきたまさにその瞬間、次に何を言うのか聞くのをワクワクしながら身を乗り出しているその瞬間に、彼らはその時点であなたがクリックして離れることはないと知っています。あなたはそれに夢中で、投資しています。
そしてちょうどその時点で、ドン!それが広告が表示される場所になります。それが正確に何が起こるのかわかりませんが、彼らがやろうとしていることは、あなたが番組に非常に、非常に熱中するまで待ち、次に何が起こるかを見る必要があると分かっている瞬間にそれらの広告を配置することのようです。
そして広告について話しているので、これを共有する必要があります。Pikaは今週、自社プラットフォームを宣伝する広告を出しました。これをご覧ください。音楽は著作権があると思うので音声なしで再生しますが、それでもアイデアは伝わるでしょう。広告では、基本的にすべてをピカ化している人が描かれています。
彼らは手の代わりに爪を付け、猫と遊び、猫をキラキラにし、そして猫を吹き飛ばして浮かせています。そしてそれは彼らがただPikaで遊んで楽しんでいる様子のかなり楽しいビデオに見えます。彼らの汚れた洗濯物を蝶に変え、植物を風船に変えています。
そしてそれから少し方向転換します。窓の外から見ると、それが終末論的な荒廃地にあることがわかり、すべてが燃え上がり、崩壊しています。そして内部に戻ると、彼女は猫のうんちを小さなミニツリーに変えて楽しんでいて、家の周りを踊り回り、基本的にすべてをピカ化しています。
そして再び、世界の外が彼らの周りで燃え上がっていることを思い出させます。気の狂った人がドアに来て調理したネズミを提供し、もちろん彼女はその人をピカ化し、ネズミを綿菓子に変えます。その後、綿菓子を食べながら生活のすべてをピカ化します。そして最後に、彼女が実際にはネズミを食べていることを思い出させられます。
そして私たちが見ていた猫は、最後に「すべてがひどい。いいえ、そうではありません」というタグラインとともに、剥製の死んだ猫だったようです。さて、私は本当に好奇心があります。Pikaの新しい広告をどう思いますか?コメントで教えてください。これはとても興味深いと思います。そしてこれについては一部の人々が熱い意見を持つでしょう。
今週はいくつかの楽しい新しいツールが登場しました。11 Labsが「SB1 Infinite Soundboard」をリリースしました。これはサウンドボード、ドラムマシン、そして無限のアンビエントノイズジェネレーターが一体となったものです。聞きたい効果音を説明すると、SB1はテキストから効果音モデルを使ってそれらを生成し、その後、遊べる小さなパッドに変換します。
11labs.io/sound/soundeffects/soundboardに行くと、雷、コオロギ、波など、さまざまなプリセット効果音があります。キックドラムやスネアなどの様々なサウンドを持つドラムマシンもあり、それらをキーボードにマッピングすることもできます。映画の効果音、動物の鳴き声など、自分だけのサウンドボードも作成できます。
ここの下の空きスロットの1つに行って、それをクリックすると、このサイドバーが開き、ゲップのような何でも生成できます。4つのオプションが表示され、気に入ったものを選んで「追加」をクリックすると、それがサウンドボードの一部になります。遊べる楽しいAI対応のおもちゃです。そして、使用料も無料のようです。
Stability AIとARMが協力して「stable audio small」をリリースしました。このstable audio open smallは効果音や短い曲のようなサウンドバイトを生成できるオーディオジェネレーターですが、非常に小さいので実際にモバイルフォンで実行できます。そして、彼らはそれをオープンソース化しました。
すべてのウェイトをHugging Faceに、すべてのコードをGitHubに公開したので、誰でも使用し、遊び、構築し、反復し、それで好きなことができます。実際に、何ができるかを示すHugging Faceスペースを見つけました。誰がこれに名前を付け、誰がこれらの例を選んだのかわかりませんが、「sad trombone(悲しいトロンボーン)」というプロンプトをテストしました。
これがどのように聞こえるか聞いてみましょう。最後に何が起こったのかわかりません。12秒間のオーディオしか作成しないので、モバイルフォンでのユースケースが何なのかは正確にはわかりませんが、モバイルフォンで実行することはできます。また、サーバールームで幽霊がおしっこをする音がどのように聞こえるか知りたいなら、どうぞ。
終わりのほうはジッパーの音だったかもしれません。わかりません。今週はChatGPTにもいくつかのアップデートがありました。GPT-4.1モデルは以前はAPIでのみ利用可能でした。ソフトウェアを構築してそれを活用したり、CursorやWindsurfなどの様々なコーディングアプリで使用したりできました。
しかし今、そのモデルはChatGPT内で直接利用可能になり、有料プランを利用している人なら使えます。4.1はコードに優れています。つまり、ChatGPT内で直接コードを書かせたい場合、それが4.1の主な売りになります。ChatGPTに行くと、この新しい4.1にアクセスするには、有料プランに加入した上で、左上に行き、「その他のモデル」の下で、「GPT-4.1、クイックコーディングと分析に最適」と「4.1 Mini、日常的なタスクにより高速」を実際に見ることができます。私の主なお気に入りはまだ4.0と0.3ですが、ChatGPT内で直接コードを書いて遊びたい場合は4.1を使います。ただし、コードを書く場合は、通常WindsurfやCursorのようなものを使用しています。
OpenAIはまた、深い調査を行った後にドキュメントをPDFとしてエクスポートする機能をChatGPT内にロールアウトし、フォーマットがすべて調整され、非常に素晴らしいものになっています。例えば、ここに主要なAIの進歩のタイムラインについて私が行った深い調査があります。ここでの回答の上部にある小さな共有ボタンをクリックすると、リンクを共有するかPDFをダウンロードするかを選択できるこのウィンドウがポップアップします。
もちろん、ChatGPTから直接、きれいにフォーマットされたPDFが提供されます。Windsurfのファンであれば、通常はClaude 3.7、Gemini 2.5 Pro、ChatGPT 4.1などの主要プロバイダーの既存モデルを使用するでしょう。現在、Windsurfは実際に「SWE1」と呼ばれる独自のモデルをロールアウトしています。
これはソフトウェアエンジニアリングプロセス全体のために最適化された最初のモデルファミリーです。SWE1は「software engineer 1」の略で、3つのモデルがあります:Claude 3.5 sonnetレベルに近いSUI 1、SUI 1 light、そしてSU1 miniです。現時点では、Claude 3.7やGemini 2.5 Proのようなモデルがこのモデルよりまだ少し優れていると想像しています。
しかし現在、Windsurfを使用している場合、このモデルはすべての有料ユーザーが利用でき、プロンプトごとに0クレジットを使用します。つまり、このモデルを使用する量に実質的な制限はありません。もしこのモデルがあなたが使いたい目的に十分なら。
また、X上でADITからのこの小さな図を見つけました。「これは文字通りMicrosoftがAIレースに勝っている方法です」というタイトルで、私はこの画像が本当に気に入りました。なぜならMicrosoftはOpenAIに49%の利益シェアを持ち、MicrosoftはVS Codeも所有しているからです。WindsurfとCursorの両方、つまり2つの最大のAIコーディングプラットフォームはどちらもVS Codeからフォークされました。
OpenAIはWindsurfを所有しています。最近30億ドルで買収しました。そしてOpenAIはCursorの初期投資家でした。彼らはWindurfを完全に所有し、Cursorの一部を所有しています。そしてMicrosoftは基本的に、このOpenAIからのある種のパススルーにより、人々がWindsurfやCursorを使用する時にお金を稼ぎます。VS Codeは無料でオープンソースなので、MicrosoftがVS Codeでお金を稼いでいるかどうかはわかりません。おそらくVS Code用の有料プラグインがあるかもしれませんが、MicrosoftがVS Codeからあまり稼いでいるとは思いません。しかしOpenAIとの関係を通じて、これらの様々なフォークから何かを得るようです。
それはとても魅力的だと思いました。さて、最後にいくつかの短い項目を紹介します。Androidエコシステムのファンであれば、そのエコシステムのほぼすべてがAIを搭載することになります。今週、来週のGoogle IOに先立ってAndroidに関するさまざまな発表が行われ、GeminiがwearOSスマートウォッチに今年後半に搭載されることが発表されました。
つまり、スマートウォッチで直接AIとの会話ができるようになります。Android Autoにも搭載され、車内でハンズフリーの会話型アシスタンスが可能になります。テキストメッセージの要約や翻訳などの機能があります。そして運転中に退屈したら、現在の出来事について単に会話したり、パーソナライズされたニュースダイジェストを取得したり、運転中に気になる質問への答えを得たりすることができます。
テレビにも搭載されます。今年後半には、Google TVでもGeminiが利用可能になります。視聴するコンテンツを見つけるなど、TV番組の推薦を手伝います。おそらく車やスマートウォッチ、スマートフォンと同じように、テレビとも会話できるようになるでしょう。
そしてすぐに家のあらゆる無生物と会話するようになるでしょう。私はGeminiがトースターオーブンに搭載されることを楽しみにしています。トーストを作る時に話す相手が本当に必要だからです。テキストからレゴを作成する新しいAIモデルがあります。テキストプロンプトを与えると、実際にレゴでそれを作成する方法を見つけます。
カーネギーメロン大学は今週「Lego GPT」を発表しました。彼らが示した例にはソファ、ベッド、マグカップ、椅子、カメラなどがあります。これは実際にかなり小さなデータセットでトレーニングされました。したがって、作成できないものがたくさんあるのは間違いありません。そして彼らの例で示しているほとんどは非常に基本的なものですが、彼らはまた情報をロボットに与えることもできました。
そしてロボットは実際にLego GPTから出てきたものを組み立てることができました。このビデオを早送りすると、最後に2つのロボットは基本的に非常に基本的なレゴのギターを作ったことがわかります。おそらく「guitar(ギター)」というテキストプロンプトからです。これはhugging faceで利用可能で、「wolf howling at the moon(月に向かって吠える狼)」というプロンプトを与えてみました。
これが生成されたものです。しかし、ここで見ると、モデルは20x 20x 20グリッド上の1ユニットの高さの直方体レンガで作られた構造の作成に制限されています。それは21のオブジェクトカテゴリのデータセットでトレーニングされました。バスケット、ベッド、ベンチ、バードハウス、本棚、ボトル、ボウル、バス、カメラ、車、椅子、ギター、瓶、マグカップ、ピアノ、ポット、ソファ、テーブル、タワー、電車、容器。
つまり、動物や実際に生きているオブジェクトはありません。ここで見られるように、これらのカテゴリ外のプロンプトに対するパフォーマンスは限られているかもしれません。これを自分で使用したい場合は、hugging faceで「Lego GPT」を検索すれば見つけることができます。しかし、これは非常に遅いということを警告しておきます。「wolf howling at the moon」というプロンプトを与えましたが、これが返ってくるまでには10分ほどかかりました。
でも、まあ、これは今後改善される一方でしょう。現在はかなり悪いですが、これが最悪の状態であり、今後は良くなるだけです。
最後に、お約束したロボットの話をしましょう。今週はロボットの話題もありました。イーロンはTwitterで踊るロボットの動画を投稿しました。実際にかなり上手なダンサーであることがわかります。それがテレオペレーションされていて、他の誰かがダンスの動きをしていて、それに合わせているのかどうかはわかりませんが、この動画では実際に上部のこのレールに繋がれているのがわかります。
そして、Redditでこの同じOptimus robotの別の動画を見つけましたが、今回はテザーなしで、動画はもう少し長いです。これが実際に1倍速であることがわかります。つまり、これは速度を上げた動画ではなく、このロボットが実際にリアルタイムでこの速さで動いているのです。そして、これらのようなかっこいいダンスの動きをすべて行うことができます。
これらのロボットができる動きは本当に、本当に素晴らしいです。そして以前の画面で見たようなテザーは実際には必要ありません。なかなかクールですね。踊るロボットのユースケースが何なのかは本当にわかりませんが、ロボットがそのような動きができるようになったのを見るのは本当にクールです。
彼らは毎日より人間らしくなっているようです。ですが、今週はこれくらいにしておきます。今週は嵐の前の静けさのような週だと思います。来週は絶対に大変なことになると思います。シアトルでのMicrosoft Buildが開催され、その直後にGoogle IOが行われます。
彼らはこれらのイベントを同じ週に重ねています。つまり、来週はGoogleからの発表、Microsoftからの発表があります。OpenAIはより大きな企業の発表を覆い隠す傾向があるので、来週OpenAIからの発表があっても驚かないでください。
また、AnthropicがOpus 4をまもなくリリースするという噂も聞こえてきます。Deep Seek R2が近日中に登場するという噂もあります。イーロン・マスクはGrock 2.5が1週間半前に出ると約束していましたが、まだ見ていません。しかし、これらすべてが盛り上がっており、来週は本当に大きな週になりそうです。
そして実際、今月の残りは発表が盛りだくさんになるでしょう。私はMicrosoft Buildのためにシアトルへ、そしてGoogle IOのためにマウンテンビューへ行く予定です。最新のAIニュースを常に把握し、本当に最新情報を追いたいなら、このビデオに高評価を付け、このチャンネルを登録して、最新情報を把握し、このような動画がYouTubeフィードに表示されるようにしましょう。
視聴していただき、本当にありがとうございます。本当に感謝しています。クールなAIツールを見つけたい場合は、futuretools.ioをチェックしてください。ここで私が出会ったクールなAIツールをすべて共有しています。また、毎週とても多くのAIニュースがあるので、私はそれらを本当に絞り込み、本当に影響力があると思うもの、または本当に興味深いものだけを共有するようにしています。
しかし、他のすべてのAIニュース、おそらく小さなことについては、AIニュースページをチェックすることができます。そこですべてを共有し、毎日更新されているので、最新のAIニュースをすべて常に把握できます。繰り返しになりますが、futuretools.ioです。もちろん、無料のニュースレターもあります。
毎日ウェブサイトをチェックしたくない場合は、週に2回、出会った最もクールなツールと知っておくべき最も重要なAIニュースをメールでお送りします。完全に無料です。futuretools.ioにアクセスして、「無料のニュースレターに参加する」ボタンをクリックしてください。
今日も私と一緒に過ごし、私とオタク話をしていただき、ありがとうございます。これらのクールなものをすべて共有するのは本当に、本当に楽しかったです。本当に感謝しています。次回もお会いできることを願っています。
コメント