AI業界が大混乱、そして私たちにとって素晴らしいニュース！

14,720 文字

AIニュースにとって狂気の一週間でした。1月は既に1年分のニュースがあったように感じますが、今週も例外ではありませんでした。ニュースが山積みなので、時間を無駄にせずに内容を見ていきましょう。
今週は1つの大きなニュースが他のAI企業のニュースを全て飲み込んでしまいました。私はDeepSeekとそこで起きたことについて詳細な分析動画を作成したので、ここでは深く掘り下げません。その動画は「市場を暴落させた中国のAI、DeepSeek」というタイトルです。DeepSeekと市場暴落の真相について知りたい方は、その動画をご覧ください。
手短に説明すると、DeepSeek V3は12月に登場した新しいAIモデルです。このモデルが特徴的だったのは、他のAIモデルよりもはるかに少ない、そして性能の劣るGPUで学習できたとされることです。彼らは500万から600万ドルで学習できたと主張していますが、大規模なAIモデルの多くは数千万ドルの学習コストがかかっています。このモデルは12月にリリースされたので、既に6、7週間が経過しています。
しかし先週、DeepSeek V3の微調整バージョンであるDeepSeek R1が登場しました。これは強化学習を使用して微調整され、さらに思考の連鎖を示す機能も備えていました。DeepSeek R1が登場した時、なぜかそのタイミングで人々はDeepSeek V3が非常に安価に学習できたことに気付き始め、パニックに陥りました。
人々はそれを知ると、NVIDIAの株を大量に売り始めました。それほど安価に学習できるなら、私たちが考えていたほどGPUは必要ないのではないかと考えたのです。DeepSeek R1はかなり印象的で、OpenAIのo1モデルと同等の性能を持っています。Sam Altman自身もDeepSeek R1を評価し、特にそのコストパフォーマンスを称賛しています。
彼はその後、「私たちはもちろんもっと優れたモデルを提供します。新しい競合が現れるのは本当に刺激的です。リリースを加速させます」と述べています。つまりSam Altmanは「R1は素晴らしいが、私たちの次の一手を見てほしい」と言っているのです。
しかし私の考えでは、NVIDIAの株価が17.7%も下落したのは奇妙に思えます。なぜならDeepSeekはモデルの学習にNVIDIAのGPUを使用しており、大手テック企業がGPUを大量購入している主な理由は学習のためではなく、推論のためだからです。推論とは、プロンプトを入力した後に行われる処理のことです。
Yan Lecunはこのことについて、Threadsへの投稿で完璧に説明しています。彼は「AIインフラ投資に関する大きな誤解があります。数十億ドルの投資の大部分は、学習ではなく推論のためのインフラに向けられています。推論とは、プロンプトを与えた後の処理とレスポンスを生成するフェーズです。数十億人のためにAIアシスタントサービスを運用するには、大量の計算能力が必要です。動画理解、推論、大規模メモリ、その他の機能をAIシステムに組み込むと、推論コストは増加します」と述べています。
彼は次の投稿で「したがって、DeepSeekに対する市場の反応は全く正当化されません」と付け加えています。
以前のDeepSeekに関する動画で、DeepSeekがOpenAIのコンテンツで学習したり、LLaMAのような既存のモデルを基盤として使用したのではないかという噂や、GPUの使用量と実際の学習コストについて嘘をついているのではないかと多くの人が信じていることについて言及しました。その動画を作成して以来、さらに多くの情報と噂が出回っているので、手短に触れておきたいと思います。
Financial Timesによると、OpenAIは中国のAIスタートアップDeepSeekが、同社の独自モデルを使用してオープンソースの競合モデルを学習した証拠を発見したとのことです。先ほどのポストでSam Altmanは称賛を送っていましたが、その後すぐにOpenAIは「待てよ、彼らは実際には私たちの独自モデルで学習したのであり、モデル全体を一から学習したわけではないと思う」と言い始めました。
これは最高のミームを生み出すきっかけとなりました。「OpenAIはYouTubeのデータを使用しましたよね。正しいとは言いませんが、OpenAIもYouTubeの利用規約に違反したことを認めましょう」というように、人々はこのようなスクリーンショットを投稿しています。「ChatGPT開発元のOpenAI、プライベートデータの窃取で提訴される」というようなものもあります。
「AIアームズレースで、OpenAIとGoogle Geminiが戦っている様子、そしてDeepSeekが野球バットを持って追いかける小犬の姿」というミームもあります。また、「ChatGPTがAIによって仕事を失ったなんて信じられない」というミームもあります。OpenAIが他社のデータを使用したことについて文句を言っているのに、OpenAI自身がオープンウェブ上で学習を行ったという事実には、確かに皮肉があることを認めざるを得ません。
ホワイトハウスもDeepSeekが国家安全保障に与える影響について調査を始めているようです。ホワイトハウスのAI・暗号通貨担当のデイビッド・サックスは、知的財産の窃取の可能性があると述べ、ディスティレーション（あるモデルが別のモデルから学習すること）について言及しました。つまり、ChatGPTから得られた出力を使って学習することを指しています。
そうです、DeepSeekが従来の方法で500万ドルだけでモデル全体を学習したわけではないという証拠が、ますます増えているようです。しかし、それは各企業がR1を自社のツールに組み込むことを妨げてはいません。R1はo1とほぼ同等の性能を持つ本当に優れたモデルなので、当然ながら全てのツールがそれを基盤モデルの1つとして使用したがっています。
最も興味深いのは、OpenAIの最大の同盟者であるMicrosoftです。MicrosoftはDeepSeek R1を自社のAzure AI FoundryとGitHubに追加しました。つまり、Microsoftをバックエンドの推論プロバイダーとして使用したい場合、Microsoftを通じてDeepSeek R1のAPIを直接使用できるようになりました。
PerplexityもDeepSeek R1を自社の検索エンジンに追加した企業の1つです。Perplexity Proを利用していて、Pro横の小さなドロップダウンをクリックすると、利用可能な2つの推論モデル（R1による推論とo1による推論）を確認できます。1日の使用回数には制限がありますが、ウェブ検索ではなく問題解決タスクにPerplexityを使用したい場合は、R1に切り替えて試してみることをお勧めします。
NVIDIAもDeepSeek R1用のNeMoマイクロサービスを作成しました。NVIDIAを推論プロバイダーとして使用したい場合、NVIDIA HGX H200システムを使用して1秒あたり3,872トークンという驚異的な速度で処理できます。比較として、私は自分のコンピューターでローカルに5090を使用していましたが、DeepSeek R1は1秒あたり約60トークンの速度でした。それでも速いと感じましたが。
私が最近ますます使用するようになっているコーディングアプリのWindsurf（ウィンドサーフ）も、コーディングプラットフォームにDeepSeek R1とV3を追加しました。これらの推論モデルは、o1とR1の両方でコードが得意なことが示されており、人々は本当に素晴らしい結果を得ています。
KAI AIでさえDeepSeekを自社のプラットフォームに追加しました。KAIは画像生成、アップスケーリング、AI動画の作成プラットフォームとして知られていますが、今回KAIチャットを追加し、DeepSeekモデルを使用してチャット機能を提供しています。
12月から数週間にわたってDeepSeekについて話してきましたが、この話はさらに展開し、新たなドラマが明らかになり、米国政府も関与するようになり、AIプラットフォームを活用するほぼ全てのツールやAIアグノスティックなツールが、自社のプラットフォーム内でDeepSeekを利用可能にしています。
DeepSeekへの対応のように見えますが、ChatGPTは「Think」ボタンを追加しています。私のChatGPTアカウントにはまだこのThinkボタンがありません。これはまだ展開中なのか、それともプロユーザーとして既に様々なo1モードにアクセスできるからなのかわかりません。
Toreによると、Thinkボタンを押すと基本的にo1に切り替わり、R1のように思考プロセスを見ることができるようです。彼のスクリーンショットでは、ChatGPT 4.0を選択してプロンプトを与え、レスポンスを得た後、再生成ボタンの下にo1が表示され、Thinkボタンがこのように見えることがわかります。
これについては少し混乱があります。ChatGPT 4.0を使用しながら、その上に思考の連鎖という追加の思考を加えているだけなのか、それとも実際に4.0モデルとは異なるとされるo1モデルを使用しているのか、という疑問がある人もいます。
これもDeepSeekへの対応のように感じましたが、Microsoft AIのCEOであるムスタファ・スレイマンは、コパイロットの「Think Deeper」機能を全てのユーザーに無料で提供すると発表しました。Think Deeper機能は基本的にo1ですが、ChatGPTではなくコパイロット内で使用します。
彼は「これにより、誰でもコパイロット内でOpenAIの世界クラスのo1推論モデルに無料でアクセスできるようになります」と述べています。つまり、ChatGPTはThinkボタンを追加し、MicrosoftはコパイロットにThink Deeper機能を追加し、どちらもo1を使用しているようです。これは「私たちもR1と同じことができます。皆さんがR1に夢中になっているのを見て、私たちも同じような思考の連鎖を示すことができます。R1は無料で公開されているので、私たちも無料で公開します」と言っているように感じます。私の推測ですが、そんな印象を受けます。
今週はOpenAIのo3モデルについてもかなりの話題がありました。1月23日、Sam Altmanは「大きなニュースです。ChatGPTの無料版にo3 miniが追加され、Plusプランではo3 miniを大量に使用できるようになります」と発表しました。その後、自身のツイートを引用して「はい、皆さんの声を聞きました。Plusプランでは1日100回のo3 miniクエリが可能になります。オペレーターもできるだけ早くPlusプランに導入します。次のエージェントもPlusプランで利用可能になります」と述べています。
o3がいつリリースされるのか気になる方もいると思いますが、おそらく今日、この動画をご覧になっている日にリリースされる可能性が高いです。私は木曜日に動画を録画し、金曜日に公開しています。BenはXで「OpenAI o3は明日リリースされます」と指摘しました。本当に確認されているのかと思い、そのリンクをクリックしたところ、NPRのインタビューにたどり着きました。
これはOpenAIのグローバル業務責任者であるクリスとのインタビューです。OpenAIの直接の関係者です。重要な部分だけ早送りすると「OpenAIは9月にo1をリリースしましたが、同じ技術を使用しています。私たちは引き続き先を行っていると考えており、o3を含む追加モデルを金曜日にリリースする予定です」と述べています。
このオーディオは1月30日（木曜日）に公開され、彼は「o3は金曜日にリリースされます」と述べています。このインタビューでそれを言うべきだったのかどうかわかりませんが、彼が言及した金曜日は1月31日、つまりこの動画が公開される日です。したがって、この動画をご覧になっている時点で、o3は既にリリースされているか、まもなくリリースされる可能性が高いです。私たちLLMオタクは来週、新しいおもちゃで遊べることになりそうです。
今週はOpenAIからの他の発表もありました。ChatGPT Govと呼ばれる、政府機関専用のChatGPTバージョンが発表されました。より高いセキュリティを備え、OpenAIのサーバーではなく政府独自のサーバーでローカルに実行できますが、基本的にはいくつかの追加セキュリティ層を持つChatGPTバージョンのようです。
OpenAIはまた今週、米国立研究所と直接協力する契約を締結したことを発表しました。基本的に、政府内の科学者たちとより緊密に協力することになります。これは、米国のグローバルな技術的リーダーシップを支える基礎科学の加速、病気の治療と予防の新しいアプローチの特定、サイバーセキュリティの強化、米国の電力網の保護、新しいエネルギー・リーダーシップの達成、自然および人為的な脅威の検出改善による米国の安全保障の向上、宇宙を支配する力の理解の深化を目的としています。研究所はまた、核戦争のリスク削減と核物質・兵器の安全確保に焦点を当てた包括的な核安全保障プログラムを主導しています。
病気や災害の予防、防衛などの話がありますが、政府と協力して兵器化することも考えているのではないでしょうか？おそらくそうでしょう。陰謀論の帽子を脱ぎましょう。しかし、そう考えるのはそれほど飛躍ではありませんよね。
OpenAIの実際の機能に関しては、Canvasツールがアップデートされました。o1内でCanvasツールを使用できるようになり、CanvasでHTMLとReactコードをレンダリングできるようになりました。HTMLを既にレンダリングできると思っていたので、実際にできるようになったことに驚いています。これがmacOSのChatGPTデスクトップアプリで完全に展開されています。
EUの方々は、米国のユーザーが少し前から持っていた機能を最終的に利用できるようになりました。高度な音声モードで利用可能なビデオと画面共有機能が、EU、ノルウェー、アイスランド、リヒテンシュタイン、スイスで利用可能になりました。最近更新されたカスタム指示も同じ地域で展開されています。
動画やショートフィルムのアイデアはあるものの、最終的な形を視覚化するのが難しいことはありませんか？ストーリーボードを作成することもできますが、それは非常に時間がかかり、最終的な作品がどのようになるかを明確にイメージするのも依然として難しいものです。
そのため、今日の動画ではNvidia AIと提携しました。これは、動画のアイデアを入力すると、ビジュアル、効果音、ダイアログ、脚本など全てを生成してくれる素晴らしいツールです。より大規模な動画のコンセプトからどのような作品が作れるか、ざっとしたアイデアを得ることができます。
試してみましょう。こちらにストーリーのコンセプトの概要があります。AIが実際に歴史を書き換えていることを発見したハッカーについての話です。このコンセプトのためにストーリーボードを作成する代わりに、Nvidiaに大まかな下書き版の動画を作成してもらい、最終的にどのように展開されるか視覚化してみたいと思います。
では、この動画を生成してみましょう。数分後に動画が戻ってきました。簡単な予告編をお見せしましょう：
「あなたの心を空のテープのようにきれいに消せる技術を持った政府のスーツたち。私は蛍光に染まった通りを走り抜けた。頭上では怒れるスズメバチのようにホバーカーがブンブンと音を立てている。全ての影が脅威を、全ての反射が潜在的な罠を隠していた」
ここで一旦止めておきましょう。ちょっとしたティーザーとして。完全版の動画は私のInstagramアカウントに投稿しますので、全体をご覧いただけます。
これは完成した最終版の動画として設計されたものではないことを覚えておいてください。これは、投資家やビデオの制作を手伝ってくれる人々にピッチを行う際に、ストーリーボードだけでは伝えきれない、あなたが思い描いているものをより明確に示すためのコンセプトをマッピングするためのストーリーボードとして設計されています。
Nvidiaの本当に素晴らしい点は、この動画に編集を加えたい場合、自然言語を使用して変更したい内容を入力するだけでよいということです。例えば、音声を変更したい場合は、「音声をより深い男性的な声に変更」というプロンプトを入力し、生成をクリックすると、約1分後に異なる、より深い声に変更されます：
「それは私たちの力を制御しているだけでなく、私たちの現実を制御していた」
より従来型の編集方法も利用可能です。ここで編集ボタンをクリックすると、アップロードしたメディア、ストックメディア、または全く新しいショットを生成して、動画の任意のシーンを置き換えることができます。ストック音楽を変更したり、独自の音楽をアップロードしたり、動画全体の脚本とダイアログを微調整したり、必要に応じて動画にその他の変更を加えることもできます。
Nvidiaは、ソーシャルメディアアカウントに投稿する短編動画全体を作成するのに優れているだけでなく、大まかなコンセプトを具現化するのにも素晴らしいツールです。説明文のリンクからNvidia AIをぜひチェックしてください。この動画のスポンサーとなってくれたNvidiaに感謝します。
続いてGoogleの話題です。彼らはGeminiアプリをアップデートしました。Geminiは現在、エージェント時代向けに設計された最新モデル2.0 Flushを搭載しています。これは超高速なモデルで、ベンチマークでも非常に良い結果を出しており、これからはGemini内でこのモデルを使用することになります。
xAIのGrockについても、今週はかなりの話題がありました。Grock 3がいつでもリリースされるという噂が出回っています。実際、Xの一部のユーザーは既にアクセスを得ており、Grockに質問を投げかけてソースを確認したところ、実際にGrock 3を使用していることがわかりました。このように、新しいGrock 3モデルはもうすぐ登場することがわかっています。
DeepSeekだけが今週注目を集めた中国のAI企業ではありませんでした。アリババも今週、複数のバージョンのQwen 2.5をリリースしました。Qwen 2.5 Maxと呼ばれる新しいモデルをリリースしました。これまでのQwenモデルはオープンソースでしたが、このモデルは非公開です。この新しいモデルはDeepSeek V3の効率性を超え、また、Claude 3.5 Sonnet、OpenAI GPT 4.0、MetaのLLaMa 3.1 40bなど、様々な最先端モデルのベンチマークでも上回る性能を示したと主張しています。
chat.qwen.ai でQwenチャットを使って試すことができます。「strawberryという単語にはいくつのrがありますか？」というプロンプトを与えると、他のモデルのように思考過程を表示はしませんが、裏で同様のことを行っているような印象を受けます。もちろん、正しい答えを得ることができました。
Qwenチャットのダッシュボードを見ると、他のAIチャットボットでは通常見られない画像生成やビデオ生成などのオプションがあることに気付きます。このモデルは画像を生成できます。月に向かって遠吠えする狼の画像を生成するように指示すると、数秒で月に向かって遠吠えする狼の decent な画像が生成されます。現時点でDalle 3から得られる結果と同等かそれ以上の品質だと言えます。
ビデオ生成を選択して、月に向かって遠吠えする狼の動画を作成するように指示することもできます。ただし、約10分待っていますが、その間ほとんど99%で止まったままなので、ビデオ機能が完全に動作しているのか、それともサーバーが現在最大負荷になっているのかはわかりません。しかし、理論的にはビデオも生成できるはずです。
上部のドロップダウンメニューには、「Qwen 2.5 VL 72b Instruct」という別のモデルもあります。これはPCやスマートフォンを制御できるスマートな大規模ビジョン言語モデルです。まだこのモデルを使ってPCやスマートフォンを制御する方法はわかりませんが、もう少し試してみる必要があります。
このモデルは、テキストと画像の分析タスク、ファイルの解析、ビデオの理解、画像内のオブジェクトのカウント、そしてOpenAIが最近リリースしたOperatorと同様のPC制御など、様々なタスクを実行できるとされています。
Philip Schmidさんがデモを共有しており、スマートフォンを実際に制御して特定の日付のフライトを検索している様子を見ることができます。また、VAVさん（正確な発音はわかりません）も別のマシンでこのツールを使用している様子を公開しています。何をさせようとしているのかはよくわかりませんが、彼らに代わってコンピューター上で多くのアクションを実行しているようです。
今週は別のモデルもリリースされました。Mistral Small 3です。これはApache 2.0ライセンスの下でリリースされたオープンソースモデルです。このモデルは、GPT 4.0 mini、Gemma 2 27b、Qwen 2.5bのような、デバイス上で実行できるように設計された小規模モデルに対抗することを目的としています。
このチャートによると、様々なタスクとプロンプトでモデルをテストするMMULでは、Mistral Small 3はQwen 2.5 32bとほぼ同等の性能を示しましたが、かなり高速でした。また、GPT 4.0 miniとGemma 2 27bの両方を上回り、より高速でした。これは世界で最も賢いモデルにはなりませんが、シンプルな質問に答えるには十分機能し、競合と比較して本当に良好なパフォーマンスと速度を示しているようです。
Twitterの創設者の一人であるジャック・ドーシーが設立した会社Blockは最近、Code Gooseと呼ばれるものを披露しました。これはタスクを自動化するために構築された、マシン上で動作するオープンソースのAIエージェントです。モデルにとらわれない設計で、好きなLLMを選択できます。
Gooseはあなたの指示を受け取って作業を実行する準備ができたアシスタントと考えることができます。この最初のバージョンは、コード移行の実施、不慣れなプログラミング言語でのプロジェクトの探索、パフォーマンスベンチマークの実施、コードカバレッジの向上、機能フラグの削除や追加、機能のユニットテストの生成など、主にコーダーの支援を目的として設計されているようです。
この下にリンクを貼りますが、クイックスタートガイドがあるので、ダウンロードして自分のコンピューターで実行したい場合は利用可能です。私自身はまだ個人的には試していませんが。
エージェントやAIがあなたに代わってタスクを実行する話が出たところで、Googleは電話をかけてくれる新機能のテストを開始しています。Search Labsで新しい実験が開始され、AIを使用してビジネスに電話をかけ、サービスの料金や利用可能時間を確認できるようになると発表しています。例えば、近くの整備士にすぐにオイル交換が必要な場合などです。
Google検索をすると、「代わりに尋ねる」というボタンが表示され、必要なサービスについて質問されます。ボタンをクリックすると、電話で相手が尋ねそうな質問に答えるための小さなアンケートのようなものが表示され、それからAIが代わりに電話をかけて質問に答えてくれます。
実際にこれにアクセスする方法はまだわかりません。「オイル交換近く」のように検索して試してみてと書かれていますが、どこでオプトインするのかはまだはっきりしていません。オイル交換の検索をしましたが、そのオプションは表示されませんでした。
米国著作権局は今週、AIで生成された画像のうち、どの画像が著作権を取得でき、どの画像が取得できないかを説明する文書を公開しました。これについても「AIで著作権を取得できるものとできないもの」という解説動画を作成しましたが、超簡単なバージョンをお話しすると、単にプロンプトを入力して画像を生成し、それに著作権を申請しても拒否されます。
映画制作などの大きなプロセスの一部としてAIを使用する場合、例えば背景シーンの1つをAIで生成した場合、そのシーン自体には著作権は認められませんが、そのシーンを使用して制作した映画には著作権が認められます。また、いくつかのグレーゾーンもあります。全てはケースバイケースで判断されると述べています。
Chris Casanovaの例を示しており、彼女は一部を手描きし、残りをAIに埋めてもらいました。基本的に、手描きの部分には著作権があるが、AIが行った部分には著作権がないと述べています。まだ私には非常に曖昧に感じますが、要するに、文書の主旨は「AIを大きな作品を作るための補助ツールとして使用している場合、その作品に著作権を主張できますが、単にプロンプトを入力して生成したものに著作権を主張することはできません」というもので、その間にグレーゾーンがあるということです。
DeepSeekについて今週最後の情報があります。彼らは独自のAI画像生成モデルであるDeepSeek Janus Pro 7Bをリリースしました。このモデルは画像を生成でき、様々なベンチマークでOpenAIのDALL-E 3やStable Diffusionを上回ると言われています。私はまだこれを試していません。Hugging Faceで読み込もうとする度に、サーバーが過負荷になっているか全く読み込めない状態で、実際にこのモデルから生成された画像をまだ見ていません。
AI動画について少し話しましょう。Pika Labsは新しいAI動画モデルであるPika 2.1をリリースしました。先週のニュース動画で、まもなくリリースされると予告していましたが、今週リリースされました。1080Pの解像度で生成でき、鋭い細部、シームレスな動き、リアルな人物キャラクターを特徴としています。これらのデモ動画のいくつかは本当に印象的で、これまでで最もリアルな人物の動画のように見えます。また、この野生動物の動画も、他のモデルと同等の優れたモデルのように見えます。
このトレーラーからの映像は明らかにかなり厳選されたものですが、それだけではありません。Pikaは今週、新しいターボモードもリリースしました。これにより動画の生成が大幅に高速化されます。品質を損なうことなく、3倍速く、7倍少ないクレジットで動画を生成できると述べています。
私のPikaアカウントに入ると、下部のウサギの画像のところに、デフォルトで選択されているPika 2.1とPikaターボのオプションがあることがわかります。Pika 2.1はおそらくより良い動画品質を提供し、Pikaターボはかなり高速になるでしょう。ローラースケートをはいたサルを使って、Pika 2.1とPikaターボの両方を試してみましょう。
Pikaターボはかなり速く生成を完了し、Pika 2.1より先に終わりました。ローラースケートをはいたサルの出来は実際にはそれほど悪くありません。ただし、動画に余分なローラースケートが現れ、背景の子供たちは少し不自然に見えます。Pika 2.1を見てみると、特に背景の部分でかなり良くなっています。背景の子供たちはかなり良く見えます。ローラースケートはここで少しぼやけていて、このサル全体がやや不鮮明な感じがしますが、数ヶ月前と比べれば悪くありません。
Crea AIは今週、動画のキャラクターの一貫性を導入しました。キャラクターが動画全体を通して同じ人物のように見える動画を作成できます。基本的に、キャラクターの画像（おそらく自分の顔や、AIで生成したもの）をアップロードし、その同じキャラクターを使用して全ての動画を作成できます。
Crea AIに入って動画生成をクリックすると、キャラクターオプションを持つHaloオプションを選択する必要があるようです。それを選択すると、キャラクターオプションが表示されます。ここで私の顔をアップロードし、「踊る男」というプロンプトを入力して、どうなるか見てみましょう。
これが生成されたものです。そうですね、もし体重が45キロほど増えていたらという感じですが、私にそっくりです。顔をアップロードすることで一貫したキャラクターを作成でき、基本的に与えるプロンプトに関係なく、動画には同じ私の顔が表示されます。
Luma AIは今週、Dream Machineで作成した動画を4Kにアップスケールできるようになったと発表しました。ネイティブでは720pまたは1080pで生成されますが、現在は4Kまでアップスケールできるようになり、これはかなりすごいことです。
David Comfortも、Halo AIに「t2v-o1-director」という新しいモデルがあることを指摘しました。それを調べてみると、確かに今週、見逃していたのですが、Haloも新しいAI動画モデルをリリースしていました。これは自然言語で動画を指示できるもので、「ズームアウトショット」や「左にトラッキングショット」、「右にパン」、「微かな揺れから上にティルト」のように指示できます。
自然言語を使用して、シーン内のカメラの動きを実際に制御できます。これはカメラシェイク、これはドリーズーム、本当に素晴らしい機能です。まだこれを試していませんが、近い将来、利用可能な様々なAI動画ツールについての動画をもっと作成する予定です。
今週はAI音楽の世界でもいくつかのアップデートがありました。Refusion社は「Fuzz」を導入しました。これはSunoやUdioから得られるものと非常に似ていますが、現在は完全に無料で使用できます。彼らは「GPUが持ちこたえる限り」と言っています。
実際に少し試してみました。このツールには早期アクセスがありましたが、かなり印象的です。他の全てのツールと同等かそれ以上だと思います。例えば、こちらはポップパンクの曲を生成させたものです。また、こちらは別の曲です。無料で生成できることを考えると、本当に優れた音楽だと思います。
しかし、今週のAI音楽に関するニュースはそれだけではありません。SunoやRefusionなどの他のツールと同様に音楽を生成できる新しいオープンソースモデルがあります。まだ実際にダウンロードしたり試したりしていませんが、「You」と呼ばれています。他の利用可能なモデルほど印象的ではないかもしれませんが、このモデルはオープンソースなので、人々はこれを基に構築し、改良を重ね、より良いものにしていくでしょう。このようなツールがオープンソースバージョンで利用できるのは本当に素晴らしいことです。
最後にいくつか小さなことに手短に触れたいと思います。それぞれ数秒で説明します。
新しいiOSアップデートではデフォルトでApple AIがオンになるようです。多くの人がこれを好まなかったようで、Apple Intelligenceを使用したくない場合は、iPhone内で自分でオフにする必要があります。
イーロン・マスクは今週、6月からTeslaの自律走行ライドシェアを開始できると主張しました。イーロンには過剰な約束をして実際の成果が伴わない傾向がありますが、特に時間枠については、本当に実現するかどうか見てみましょう。
しかし、Teslaからの他のニュースとしては、現在Teslaは人間の介入なしに、製造された場所から指定された積み込みドックまで自動で移動できるようになったそうです。これはかなり素晴らしそうです。工場から出てきたTeslaが自分のドックまで移動する様子を3倍速で撮影した動画を投稿し、Teslaの自動運転がますます進化していることを示しています。
今年中にTeslaが完全自動運転で常時走行できるようになることが期待されます。既に路上で自動運転タクシーを運行しているWaymoは、新たに10都市に拡大し、次はラスベガスと私の故郷であるサンディエゴに導入される予定です。ついに自分でこれらに乗れることを楽しみにしています。
LinkedInの共同創設者の一人であるReid Hoffmanは今週、Monus AIという会社を立ち上げました。Microsoftと協力しており、新薬の発見を支援することを目的としています。おそらく今後数年間で最も世界を変える可能性が高いAIの分野の1つは、AIが新薬を発見し、病気を治療できるようになることでしょう。それを見ることができて本当に興奮しています。
以上が今日のニュースです。本当に忙しい一週間でした。DeepSeekが多くの注目を集め、OpenAIは人々の関心を集め、話題になるためにたくさんの発表を行い、多くの企業がDeepSeekに反応して、既存のツールに思考機能を追加したり、ソフトウェアにDeepSeekを組み込んだりしました。
しかし、これは今週の全体像のほんの一部に過ぎません。2025年は加速し続けるようです。1月だけで、昨年のほぼ一年分のニュースが既に出ているような感じです。このペースは加速しているように感じます。
最新のAIニュースを確実にキャッチアップしたい方は、私がここにいます。できる限り追いかけようとしていますので、この動画にいいねを押し、チャンネルを登録して、このような内容がYouTubeのフィードに表示されるようにしてください。
また、Futur Toolsもチェックしてください。ここで私は見つけた面白いAIツールを全てキュレーションしています。AIニュースページも更新しています。皆さんも私の動画を見てお気づきのように、AIニュースの多くはXで発表されます。多くの人がXをできるだけ避けようとしているのは知っていますので、このニュースページはXで利用可能なニュースを見つけるのに最適な場所です。面白いツイートやニュースを見つけたら、ここで共有しています。
もちろん、無料のニュースレターもあります。週に2回、見つけた最も面白いツールと、知っておくべき最も重要なAIニュースをメールでお送りします。完全に無料で、今日登録すると、AIインカムデータベースに無料でアクセスできます。これは、様々なAIツールを使用して副収入を得る方法を共有するデータベースで、私が作成しているものです。これも完全に無料で、全てFutur Toolsで見つけることができます。
今日は私と一緒に過ごし、AIについて語り合ってくれてありがとうございます。本当に忙しい、でも楽しい一週間でした。私はこのことについて話すのが大好きで、皆さんと共有するのが大好きで、このおもちゃを試して遊び、何ができるかを見せるのが大好きです。今後の動画も楽しみにしていてください。また一緒にAIについて語り合いましょう。
視聴していただき、ありがとうございます。スポンサーのNvidiaにも感謝します。次の動画でお会いしましょう。さようなら。