
11,302 文字

今週は何を信じればいいのか判断が難しい週でした。エイプリルフールの週だったため、AIの世界は既に十分に信じられないものなのに、さらに嘘の信じられないものも加わりました。例えば4月1日には、11 Labsがテキスト読み上げ機能を発表し、ltx StudioがOpenAIのSoraを買収してオープンソース化する計画を発表し、OpenAIは実際にChatGPT内に新しい音声を導入しましたが、それはあなたからの話を聞きたくないようなものでした。
「あら、見つけてくれたのね。やった。」
これらはエイプリルフールに出てきたジョークのほんの一部です。私は基本的にエイプリルフールに出てきたすべてを無視し、翌日に何が本当で何が嘘だったのかを確認しました。
このビデオを公開している今、私はシアトルでのMicrosoftの50周年記念イベントに参加しています。ニュースの大部分は水曜日に録画していますが、週末に追加のニュースがあれば追加できるよう、ホテルの部屋からの映像が入るかもしれません。
それではこれ以上時間を無駄にせず、今週実際に起きた本物のニュースを見ていきましょう。まず、ジブリ風の画像があふれ出し、最近の私のビデオでこの新しいChatGPTモデルの50以上の使い方を紹介した後で、多くの人が興奮しているであろうニュースから始めましょう。ChatGPTは無料ユーザー向けにもこのモデルを提供し始めました。
利用制限があり、OpenAIのニュースや文書には明記されていませんが、Sam Altmanは以前、無料ユーザーは1日3枚の画像を生成できると言っていました。The Vergeがテストしたところ、実際に1日3枚の画像が生成できることが確認されました。
この新しいChatGPT画像生成モデルの騒ぎとソーシャルメディアにAI生成画像があふれたことで、ChatGPTは過去最大の1日を記録しました。Sam Altmanはこう述べています:「ChatGPTは26ヶ月前に立ち上げられ、5日間で100万ユーザーを獲得しましたが、今回の最新リリースでは1時間で100万ユーザーを獲得しました。」
有料版と無料版の両方で利用可能になりましたが、Altmanはサーバーの過負荷により、OpenAIからの発表が遅れる可能性があると警告しています。彼はXでこう述べています:「状況はコントロールできつつありますが、容量の問題に対処するため、OpenAIからの新リリースの遅延、機能の故障、サービスの遅さなどが予想されます。」
しかし、これらの問題を解決するのに役立つかもしれないのは、OpenAIがSoftBank主導で400億ドルを調達したことです。3000億ドルの企業評価で、このお金の一部はGPUやデータセンターに使われ、現在の需要に対応するのに役立つことを願っています。
またOpenAIは今週、ChatGPT Plus(月額20ドルのプラン)が米国とカナダの大学生は5月まで無料で利用できると発表しました。
OpenAIといえば、彼らは別のオープン言語モデルをリリースする予定です。OpenAIのウェブサイトにはこう書かれています:「数ヶ月以内にGPT-2以来初のオープン言語モデルをリリースする予定です。開発者、研究者、そして広いコミュニティと協力して意見を集め、このモデルをできるだけ有用なものにすることを楽しみにしています。OpenAIチームとのフィードバックセッションに参加してみたい方は、ぜひお知らせください。」
Samもこの投稿をXで共有し、「要するに、私たちは数ヶ月以内に強力な新しいオープンウェイト言語モデルをリリースすることを楽しみにしており、それを最大限に有用にするための方法について開発者と話し合いたいと思っています。これをとても良いモデルにすることに興奮しています」と述べています。このツイート自体が投稿と同じくらいの長さなので、TLDRが必要だったのかはわかりませんが…
オープンソースモデルがどんどん良くなっていることと、Sam自身が数ヶ月前にオープンソースを公開しなかったのは間違ったアプローチだったかもしれないと述べていたことを考えると、彼らはその方針を少し修正し、オープンモデルとしてより多くのものを公開する計画を立てているようです。
そしてOpenAIが今週行ったもう一つのことは、ひっそりとOpenAI Academyを立ち上げたことです。大々的な発表はありませんでしたが、academy.openai.comにアクセスすると、高齢者向けAI、RAGによるナレッジグラフの自動化、非営利団体向けAIなど、AIの使い方に関する教育リソースを見つけることができます。これらはすべてオンラインのトレーニングセッションのようですが、事前録画された教育コンテンツもあります。
OpenAIの話から少し変わりますが、中国のモデルErnie 4.5がチェスでGPT-4.5に勝ったようです。Ernie 4.5はChatGPTと3ゲームのマッチを行い、3対0でGPT-4.5に勝ったそうです。
Googleも今週、最高のモデルを無料ユーザー向けに提供しました。gemini.google.comにアクセスし、ドロップダウンをクリックすると、「2.5 Pro Experimental」を選択できるようになりました。これは非常に優れたモデルで、以前のビデオで紹介したように、コードに関しては素晴らしく、100万トークンのコンテキストウィンドウを持っています。これは約75万語の入出力が可能で、コーディングに非常に適しています。巨大なコードベースを入力して、システムに全体を理解させることができます。
GoogleはNotebook LMにもアップデートを行いました。コンテンツを作成するために多くのソースを与える必要がなくなり、新しい「ソース発見」機能が追加されました。Notebook LMで「発見」ボタンをタップすると、興味のあるトピックを説明できるようになり、関連する情報源のコレクションをウェブから取得してくれます。ワンクリックでそれらをノートブックに追加できます。
説明によると、Notebook LMにログインすると、ソースの下に「ソースを発見」というボタンがあるはずですが、私はまだ見つけられていません。まだ完全に展開されていないようです。しかし、Google LabsのVPであるJosh Woodwardによると、過去10日間でNotebook LMはマインドマップ、ソース発見、PDFの理解の向上、エンタープライズグレードのデータ保護、元のソースへのリンクなどの機能を展開したそうです。最近のNotebook LMは常に新機能が追加されています。
Googleと言えば、Google Slidesにもイメージを追加するためのImagine 3オプションが追加されました。
Amazonも「Nova Act」でAIエージェント市場に参入しました。これはOpenAIのOperatorやAnthropicのComputer Useなどに対するAmazonの挑戦です。現在、nova.amazon.comで開発者が利用できます。Nova内には通常のチャットオプションや画像生成エリアがありますが、Labs以下にActがあります。
デモビデオでは、理想の住宅を探すエージェントが思考し、タブをクリックし、ブラウザ上で自律的に操作する様子が見られます。マウスが動き、ブラウザの異なる領域をクリックし、2ベッドルーム1バスルームを選択する様子が見られます。
AIエージェントの話題では、小型デバイスRabbit R1を製造しているRabbit社も、コンピュータを使用できるAIエージェントを開発していますが、もはやRabbitデバイスは必要ありません。この新しいエージェントは「Rabbit OS Intern」と呼ばれています。これはインターンレベルの能力を持つという意味です。
デモビデオでは、「16ビット音楽ループを作成できるツールを作って」というタスクを与えると、作業を開始し、Manisと同様にステップバイステップのタスクを設定します。コードファイルを作成し、index.htmlファイルを提供し、最終的にアプリが完成します。
現在、この新しいAIネイティブオペレーティングシステムの無料トライアルが期間限定でhole.rabbit.extで利用可能です。R1所有者は1日9タスク、それ以外の人は1日3タスクが利用できます。
私もログインしてテストしてみましょう。例のプロンプトの一つを使って、Teslaの分析と10兆ドルの市場価値達成の可能性を検討してみます。
実行すると、いくつかの明確化の質問をしてきました。Teslaの基本的な業績指標を分析し、10兆ドルの市場評価の可能性を評価するために、以下の領域をカバーする必要があるとのことです。私は「進めてください」と指示しました。
タスク生成が始まり、Teslaの過去の財務データを収集・分析するタスク、Teslaの市場シェアの進化と製品ポートフォリオ構造の分析、グローバルIT支出とテクノロジーセクター内でのTeslaの位置の評価、10兆ドルの市場評価に達する可能性の評価、すべての分析を最終的な包括的レポートにまとめるタスクが設定されました。
処理には約15分かかり、すべてのタスクが完了しました。さまざまなマークダウンファイルが生成され、最終的なプレゼンテーションレポートには概要、主な調査結果などが含まれています。ただ、データは2023年までしか分析されておらず、現在は2025年なので、少なくとも昨年までのデータを取得しなかった理由はわかりません。
X(旧Twitter)からの興味深い更新があります。XAIがXソーシャルメディアプラットフォームを買収したようです。XAIを800億ドル、Xを330億ドルと評価し、基本的にはイーロン・マスクが自分の会社を自分に売ったということです。アイデアとしては、XAIがXプラットフォームを所有していれば、XAIはXが所有するデータを使用するための手続きや制約を回避できるということです。
Appleからも今週ニュースがありました。Appleインテリジェンス機能が新しい言語と地域に拡大しました。フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、日本語、韓国語、中国語、およびシンガポールとインド向けのローカライズされた英語で利用できるようになりました。またEUでもAppleインテリジェンス機能が利用可能になりました。
Vision OS 2.4アップデートにより、Apple Vision ProにもAppleインテリジェンス機能が搭載されました。メール作成時のAI機能、画像を生成できるImage Playground、Genojiの生成、写真内の自然言語検索など、iPadやiPhoneに導入されてきた多くのAppleインテリジェンス機能がApple Vision Proでも利用可能になりました。
このビデオでは、Adobe Fireflyとパートナーシップを組み、新しく立ち上げられた素晴らしいものを紹介します。新しいFirefly動画モデルを搭載した「Generate Video」です。Adobe Fireflyは、商業的に安全で本番環境にすぐに使える制作物コンテンツが必要なクリエイターのための強力なAIツールを提供します。
「商業的に安全」とはどういう意味でしょうか?Adobe Fireflyは、Adobeストック画像や公開ドメインリソースなど、ライセンスされたコンテンツのみで訓練されています。これにより、Fireflyを使用して作成されたものはすべて、商業的、専門的、または教育的用途に安全であることが保証されます。クリエイターにとって、作品が責任を持って取得されたものであることを知ることは大きな利点となります。
Generate Videoモジュールをより深く掘り下げ、クリエイターにどのように役立つか見てみましょう。テキストプロンプトや参照画像を使用して、簡単にダイナミックな1080p動画を制作することができます。例えば、プロジェクトに取り組んでいて、特定のカスタムB-ロールクリップ、「夕暮れ時に賑やかな都市のスカイラインを劇的に飛行するドローンショット」などが必要な場合、ストック映像を何時間も検索する代わりに、Fireflyを使用して説明を入力し、カメラアングル、モーション速度、照明などのパラメータを設定するだけで、必要な正確なクリップをすぐに生成できます。
特に便利なのは、FireflyのAdobe Creative Cloudアプリとの統合です。カスタム映像を生成したら、それをPremiere Proに直接インポートし、編集タイムラインにシームレスに配置できます。レンズフレアや煙などの雰囲気要素が必要ですか?Fireflyはそれらも生成でき、Premiere ProやAfter Effectsにインポートすると元の映像と簡単に調和します。
もう一つの印象的な機能はアニメーション作成です。スケッチやストーリーボードをアニメーション化したい場合、Fireflyでこれらの参照画像をアップロードし、開始フレームと終了フレームを設定して、創造的なコンセプトを視覚化するのに役立つアニメーションシーケンスを生成できます。これらのアニメーションはAfter Effectsの詳細な編集ツールを使用してさらに洗練することができます。
Adobeの責任あるAIイノベーションへのアプローチは、透明性、説明責任、クリエイターの権利の尊重を強調しています。これは、Adobeがクリエイターを積極的にサポートし、著作権を尊重していることを知りながら、安心してAIをワークフローに統合できることを意味します。
Adobe Fireflyが何をできるか興味がある場合は、新しいAdobe Firefly Webアプリで「Generate Video」をチェックしてみてください。使いやすく直感的で、クリエイティブなプロジェクトを強化するのに役立ちます。firefly.adobe.comにアクセスして自分で試してみてください。
Adobeといえば、Premiere Proに新機能が追加され、AIを使って動画を延長できるようになりました。これは素晴らしい機能で、例えばB-ロールが1秒ほど短い場合、タイムライン上で動画を延長すると、それまでの内容に基づいて数フレームを生成してくれます。音声効果も同様に延長できます。Adobe Premiereを使用する編集者にとって非常に役立つ機能です。
今週はAI動画の更新が多数ありました。まずはRunwayの新しいGen 4モデルです。これは非常に印象的なモデルで、V2品質の動画がRunwayから出力されています。おそらくV2よりも優れていると言えるでしょう。近々、利用可能なすべての動画モデルを比較し、どのモデルがどのタイプの動画に最適かを検証する動画を公開する予定です。Runway Gen 4が登場したので、比較対象が増えました。
Runwayアカウントをお持ちの方は、Runwayにログインして「Generate Video」をクリックし、モデルでGen 4を選択できるはずです。Gen 4は画像から動画への変換のみのようです。テキストのみのプロンプトは入力できないようですが、画像を生成してから使用できます。
例えば「月に向かって吠えるオオカミ」という画像を生成し、それを選択してGen 4で動画を生成してみましょう。同じプロンプトを入力して生成すると、約1分半から2分ほどで、月に向かって吠えるオオカミの5秒動画ができました。追加の蒸気とオオカミが走り去る要素が加わり、良い出来です。
「ローラースケートをする猿」も試してみましょう。ビーチにいる猿の画像から始めると、猿がローラースケートで踊り、背景の波も動いて表現されています。ローラースケートの動きは少し奇妙ですが、1年前に比べればかなり良い出来です。
今週は「Higsfield AI」という新しいAI動画モデルも登場しました。バレットタイム、スーパードリー、ロボアームなどの映画的なショットを単一の画像から作成できると主張しています。いくつかの例を見ると、ドリーズームエフェクト、ロボカメラエフェクト、ドローンのようなショットなど、かなりクールな効果が得られるようです。
higsfield.aiで確認できます。無料トライアルでは制限付きの生成とウォーターマークがあり、25クレジット(約2回の動画生成)が提供されます。月額6ドル(年間契約)または月額10ドル(月間契約)で約15回の動画生成が可能です。
ログインして「Create」タブをクリックすると、やはり画像から始める必要がありますが、テキストから画像を生成するオプションもあります。「月に向かって吠えるオオカミ」をプロンプトしてみましょう。画像はやや詳細に欠けるシルエットのようですが、これを動画の開始点として使用します。
「オオカミの周りを回転するロボットアームカメラ」というようなものを試してみましょう。ちなみに、特殊効果を適用するには「General」をクリックして「Change」を選択すると、360度軌道、アクション実行、アーク、バスケットボールのダンクなど、様々なエフェクトが選択できます。「Show All」をクリックすると、スーパードリーインやスーパードリーアウト、ロボアームなどの全オプションが表示されます。
生成には数分かかりましたが、予想以上に良い結果が得られました。
Luma AIも、クレーンダウン、クレーンアップ、静的軌道、左パン、右パンなど、Higsfield AIと非常によく似た新機能をAI動画生成向けに展開しました。これらの新機能については、別の動画で詳しく検証する予定です。
Korea AIも今週新しいツールを展開し、3Dツールやウェブサイトの全面改修を行いました。また、ChatGPTと同様に自然言語での画像編集機能も導入されました。「車を岩の上に置く」というような指示で画像を編集できます。ChatGPTのO4機能の成功を見て、GeminiモデルをベースにしたCrayaに同様の機能を組み込んだようです。
さらにCrayaは新しい「Video Restyle」機能も導入し、動画をアップロードしてアップロードしたデザインスタイルに基づいて再スタイル化することができます。ChatGPTから出てきたジブリ風のスタイル変換と同様のことを動画でも行えます。RunwayのGen 1に似たコンセプトですが、より新しいので品質も向上していると思われます。
Metaは今週「MOCHA: Towards Movie-Grade Talking Character Synthesis」という新しい研究を発表しました。これは何ができるのか例を見てみましょう。
「何をするつもりなの?自分の計画に従わなきゃ。ここにいて自分のことを進めていくよ。」
声の質は非常に良いですが、リップシンクに関してはまだ少し違和感があります。別の例も見てみましょう。
「前にも言ったし、また言うけど、人生は結構速く動くんだ。立ち止まらないと…」
視覚的にも聴覚的にも良い出来ですが、リップシンクにはまだ何か違和感があります。
「時々、誰も何も想像しない人たちが、想像もつかないことをするものだ。」
これらの会話キャラクターはすべて音声とテキストのみから生成されており、初期の動画や画像は使用されていません。
「ハービー・デント、有名なブルース・ウェイン。レイチェルが君のことをすべて教えてくれた。」
これはまだアクセスできない研究段階のものですが、Metaがどこかで展開する可能性があり、オープンソース化される可能性もあります。
MidJourneyバージョン7が間もなく登場する可能性が非常に高いです。Midjourneyは4月2日の投稿で「V7モデル発売の準備としてサーバークラスターを準備するためにRelaxathonを終了します」と述べています。このビデオを録画している時点(水曜日と木曜日)と公開時点(金曜日)の間にリリースされる可能性もあります。
11 Labsは「Actor Mode」という新機能を発表しました。これにより、自分の声を使ってスクリプトの読み上げ方を指示できるようになりました。デフォルトではこのように聞こえます:
「生きるべきか死ぬべきか、それが問題だ。心の中で屈辱的な運命の矢を耐え忍ぶか、あるいは武器を取って困難の海に立ち向かい、それらに終止符を打つか…」
Actor Modeを使用するには、このテキストを選択し、「Direct speech with your voice」をクリックします。過去の録音をアップロードするか、Living Lab Studioで今すぐ録音できます。
「生きるべきか死ぬべきか、それが問題だ。心の中で屈辱的な運命の矢を耐え忍ぶか、あるいは武器を取って困難の海に立ち向かい、それらに終止符を打つか…」
Halo AIのMiniaaxも新しい音声モデルを発表し、ファイルやURLを生き生きとしたオーディオに変換できるようになりました。一度に20万文字まで入力できるため、完全なオーディオブックやポッドキャストなどを作成できます。
「おいでおいでおいで、既にAIツールを使っているね。とても賢いね。でもhは単なるツールだけに頼ることはできない。未来はAIと一緒に働ける人のものであり、AIを恐れる人のものではないよ。」
MAという会社も、SunoやUdoと同様の新しい音楽生成ツールをリリースしました。カントリーソングやジャズソングのサンプルを聞いてみると、Sunoほどではないですが、かなり近い品質です。
AIコーディングに興味がある方には、今週いくつかの素晴らしいアップデートがありました。最近私が最もよく使用しているコーディングツールのWindsurfが新機能を追加しました。BoltやLovableのように、アプリをWindsurfから直接デプロイできるようになり、GitHubへのコミット時にコミットメッセージを自動生成してくれます。また、MCP(マルチクラウドプロバイダー)のサポートも改善されました。
これらの機能の中で最も重要なのはアプリのデプロイ機能だと思います。Windsurfで直接生成し、Netlifyなどのフロントエンドを管理する場所に直接デプロイできるようになりました。コーディングについてあまり知らない人や、Windsurfで開発したアプリのデプロイ方法がわからない人にも対応した大きなアップデートです。
$200/月のAIコーディングアシスタントDevonを開発しているCognition Labsは、$20オプションを備えたDevon 2.0を発表しました。正確には$20ではなく、$20で始めて後はペイ・アズ・ユー・ゴーモデルのようです。まだ自分ではテストしていませんが、コーディングツールボックスにまた一つ選択肢が増えました。
友人のRiley Brownは「Vibe Code」アプリを展開しています。これはモバイルアプリ内で直接自分のアプリを構築し、デプロイして使用できるものです。
Claudeも「Claude for Education」を発表しました。これは単に答えを与えるのではなく、問題解決のプロセスをサポートするという異なるアプローチを取っています。「Learning Mode」という新機能があり、答えを提供するのではなく、生徒の思考プロセスをガイドして批判的思考スキルの発達を支援します。これは様々な大学キャンパスで利用可能になり、AIを単なる回答ツールではなく、学習支援ツールとして使用することに教育者がより賛同するための良いアプローチとなるでしょう。
興味深いのは、Tinderが新しいAI搭載ゲームを発表したことです。このアプリと会話を試み、実際の人とのフリートに準備ができているかどうかを判定してもらいます。スクリーンショットでは、執着心には-10点、魅力には+3点というようにスコアが与えられ、AIゲーム版Tinderとフリートする際のヒントが提供されています。
最後にいくつか小さなニュースを紹介します。脳波を音声に変換する新技術が発表され、話せない人に声を与えています。この脳波から音声への神経補綴装置は、ユーザーが話す意図とほぼ同時に機能し、脳信号を80ミリ秒のチャンクで処理し、人が単語を形成することを考えるときに自然に流れるように音声を生成します。つまり、発話に影響する麻痺を持つ人々は、これらの小さな脳装置を接続することで、再び話す能力を得ることができます。
Metaもまた新しいスマートグラスを発表する予定で、Ray-Ban Meta眼鏡のようなものですが、片方の目に小さなスクリーンとヘッドアップディスプレイが付いています。これらは1,000ドル以上で販売される予定で、300ドル程度のRay-Ban Metaよりも高級市場を狙っています。これらは昨年のMeta Connectで発表されたOrionグラスではなく、それらはまだ先の話であり、現時点でリリースされたとしても非常に高価なものになるでしょう。
今回はこれで以上です。今週は本当に素晴らしいことがたくさんありました。一部のクリップはシアトルのホテルの部屋から撮影されたかもしれません。ほとんどを水曜日に録画し、一部を木曜日に録画しました。金曜日に新しいニュースが出た場合は、次回のニュース動画に含める予定です。
一つだけお願いがあります。今年の第29回Webby Awardsで、Nathan Landと共同ホストしているポッドキャスト「The Next Wave」がWebby賞にノミネートされています。非常に人気のあるポッドキャストと競っているので、この賞を獲得できれば素晴らしいことです。The Next Waveポッドキャストを聴いていて楽しんでいただけているなら、投票していただけると本当に助かります。これは実際にリスナーによって投票されるものです。説明欄にリンクを載せますので、The Next Waveに投票していただけると素晴らしいことです。
今日はこれで以上です。この動画を楽しんでいただけたなら、最新ニュースを把握し続け、クールなAIチュートリアルを入手したい場合は、この動画にいいねを押し、チャンネル登録をお願いします。そうすれば、YouTubeフィードにこのような動画がもっと表示されるようになります。
まだの方は、futuretools.ioもチェックしてみてください。ここでは私が見つけた最もクールなAIツールをキュレーションし、最新ニュースを共有しています。また、週に2回、最も重要なニュースとクールなツールについて無料のニュースレターを送信しています。登録すると、AI収入データベース(AIツールでお金を稼ぐクールな方法のリスト)にも無料でアクセスできます。futuretools.ioですべて無料で提供していますので、きっと気に入ると思います。
視聴いただきありがとうございます。本当に感謝しています。一緒にAIについて語り合うのは常に楽しいことです。このビデオのスポンサーとなったAdobeにも感謝します。次回の動画でお会いしましょう。さようなら。
コメント