OpenAIとGoogleが最高のモデルを無料で公開

15,196 文字

OpenAI & Google Just Made Their Best Models Free
Here's the AI news that you probably missed from this week. Learn more about Chatbase here: More:🛠️ Explore AI To...

世界のAI業界では今週も信じられないほど忙しい1週間でした。時間を無駄にせず、今週のAIニュースの概要から見ていきましょう。
まず先週のニュースからです。先週金曜日にOpenAIがo3 miniをリリースしました。金曜日の動画でも触れましたが、実際に使えるようになった今、もう一度お話ししましょう。
この新しいo3モデルは、o1 Pro以外のほぼすべてのモデルを数学の性能で上回っています。なお、o1 Proはこのチャートには載っていません。PhD級の科学の質問では、o3 mini Highバージョンはo1 Pro以外のすべてのモデルを上回ります。コーディングやソフトウェアエンジニアリングも得意で、月額200ドルのティアでしか使えないo1 Pro以外では市場で最も強力なモデルです。
このo3 miniは全てのティアで利用可能で、APIでも使えます。Proユーザーは無制限に利用でき、PlusとTeamユーザーはo1 miniと比べて3倍のレート制限があります。無料ユーザーは、メッセージ作成画面の下にある「reason」ボタンを選択することでChatGPTでo3 miniを試すことができます。つまり、無料のChatGPTユーザーでもOpenAIの最新の最先端モデルにアクセスできるのです。
無料プランでも検索モデルと組み合わせることもできます。OpenAIは「ChatGPTの無料ユーザーは、searchとreasonボタンを一緒に選択することでOpenAI o3 miniと検索を組み合わせて使用できます」と述べています。
無料プランでo3モデルを使用したい場合は「reason」ボタンを選択し、検索と組み合わせたい場合は「search」と「reason」の両方を選択します。当初、無料メンバー向けにリリースされた際には実際の思考の連鎖は表示されませんでしたが、2月6日時点で無料ユーザーと有料ユーザーの両方で更新されました。
ただし、ここで表示される思考の連鎖は、実際に起こっている真の思考の連鎖ではありません。DeepSeek R1のように、応答を出す前にモデルが考えているすべてを見ることができるわけではなく、応答を出す前の考えを要約したようなバージョンが表示されます。
McKay Wrigleyは、要約された思考の連鎖は実際には何も表示しないよりも悪いかもしれないと主張しています。「o3 miniは非常に優れていますが、要約された思考の連鎖は実際には何もないよりも悪いかもしれないと心配しています。真の思考の連鎖の公開はプロンプトのデバッガーとして機能し、モデルの方向付けに役立ちます。要約された思考の連鎖はこれを回避し、エラーを追加する可能性があり、デバッグを難しくします」
例えばDeepSeek R1を見ていて、文字通りすべての思考過程を見ることができ、間違った答えが返ってきた場合、思考の連鎖を遡って何がおかしくなったのかを特定できます。OpenAIが私たちに見せてくれる要約された思考の連鎖では、それはできません。
しかし私の意見では、今週OpenAIから出た更に大きなニュースは、金曜日のo3 miniの提供ではなく、週末に提供されたDeep Researchでした。残念ながらDeep Researchは月額200ドルのProプランのユーザーにしか利用できず、多くの人にとって経済的に実現不可能だとは思いますが、私は使ってみましたが本当に本当に良いものでした。
GoogleのGeminiにDeep Researchという製品があるので、同じ名前を付けたのは興味深いですね。間違いなく人々を混乱させるでしょうが、とてもよく機能します。
YouTubeの戦略について助けを求めたところ、実際にフォローアップの質問をしてきました。ロングフォームとショートフォームの動画に関する現在の戦略、現在の動画の長さとフォーマット、チュートリアルの決め方、競合他社の動向、収益化の焦点など、私が達成しようとしていることをよりよく理解するための質問でした。
それらの質問に答えると、YouTubeチャンネルの運営方法についての絶対的な大作のレポートを作成してくれました。本当に本当に詳細で、素晴らしいキラー戦略を作ってくれました。私は実際にこの戦略に従ってYouTubeチャンネルを運営しています。
この巨大なエッセイを書き上げ、私はそれをChatGPTに貼り付け直しました。これが作成した全文です。GPT 4oに貼り付けて、ステップバイステップのチェックリストを作成するように依頼しました。すると、すべてを単純化してチャンネルのやるべきことのチェックリストを作成し、4週間の詳細な内訳まで提供してくれました。
Deep Researchは私にとってゲームチェンジャーでした。月額200ドルのプランとはいえ、YouTubeのコンサルタントを雇って、チャンネルを分析し、すべての活動を見直して、詳細な10ページのレポートとステップバイステップのチェックリストを作成してもらったら、200ドルよりもはるかに高額な費用がかかったはずです。そのことだけでも価値があったと感じています。
ただし、月額200ドルのプランを勧めているわけではありません。ほとんどの人にとってはまだ価値がないかもしれません。私個人としては多くの価値を見出しているだけです。
最近発表されたベンチマークテスト「Humanity’s last exam」では、既存のモデルがどのように性能を発揮したかを見ることができます。GPT 4oは3.3%の精度、OpenAI o1は9.1%、DeepSeek R1は9.4%、新しいOpenAI o3 mini Highは13.0%、Deep Researchを使用したOpenAIは26.6%の精度を達成しました。
Proアカウントをお持ちの方は、o1 ProとDeep Researchを組み合わせると、私が今まで試した中で断トツに最も強力なAI大規模言語モデルになります。Deep Researchを使って調査を行い、o1 Proの推論を使って見つけた情報を徹底的に考え抜くため、絶対的に凄まじいものです。
YouTubeチャンネルについての驚くべき詳細なレポートを作成できたのはそのためです。トレーニングデータだけを使用したのではなく、文字通り調査を行い、思考の連鎖による推論を行い、そのレポート全体を出力したのです。これらすべてを組み合わせることで、出力が本当に驚くべきものになる、それが強力な点です。
EUにいても、Deep Researchにアクセスできます。Deep Researchは、英国、EU、ノルウェー、アイスランド、リヒテンシュタイン、スイスを含むすべてのProユーザーに100%展開されています。
このリリース後まもなく、Sam Altmanが興味深いコメントを残しています。「非常に大まかな印象として、世界の経済的価値のある作業の1桁台のパーセンテージを実行できる、これは大きなマイルストーンです」
1から9%の間の1桁台とはいえ、そのパーセンテージはこのDeep Researchが実行可能な何十億ドルもの価値に相当する可能性があります。
さらに、Sam Altmanはまだ何か別のものが来ると示唆しました。「これはo3 miniの『もう1つのこと』ではありません。それはあと数日です」と、Deep Researchが発表された同日に述べています。o3 miniが登場し、そしてDeep Researchがすべてをさらに良くするものとして登場し、まだ見せたいものがあるけれど、今はまだ言えないと言っていたのです。
しかしOpenAIは今週の発表はそれだけではありませんでした。ChatGPTの検索が chat.gpt.com でサインアップ不要で全ユーザーに開放されたなど、いくつかの小さな発表もありました。Googleの検索を使いたくない場合は、ChatGPTを検索に使用できます。chat.gpt.comにアクセスするだけで、ログインしなくてもAIと組み合わせたウェブ検索ができるようになりました。これでPerplexityの真の競合となりました。
また、Plus、Pro、Teamユーザー向けにChatGPTのメモリ制限を25%増加しました。OpenAIにとって大きな1週間でした。
OpenAIは今週多くの発表があったため、RedditでAMAを実施し、Sam Altman、Mark Chen、Kevin Wheel、Seren OS Nanian、Michelle Pocas、Hungu Renが参加しました。少なくとも1つの名前は発音を間違えたかもしれません。
いくつかのコメントとして、GPT 4oの画像生成器(つまりDALLとは異なる画像生成器)を計画していること、Advanced voice modeにアップデートが予定されていること、次のモデルを5と呼ばずにGPT 5と呼ぶことを言及しました。
コンテキスト長の増加を計画していること、o1やo3などの推論モデルにファイルを添付する機能に取り組んでいることも話されましました。しかし、最も注目を集めたコメントは、Sam Altmanが「個人的には、私たちは歴史の間違った側にいたと思います。異なるオープンソース戦略を考える必要があります」と述べたことでした。
これは、モデルの重みをリリースし、研究を公開することを検討するかという質問に対する回答でした。さらに「OpenAIの全員がこの見方を共有しているわけではなく、現在の最優先事項でもありません」と付け加えています。
本質的に、Sam Altmanはオープンソースに関して歴史の間違った側にいたと考えており、すべてを閉鎖的に保つのではなく、もっと多くのものをオープンソース化すべきだったかもしれないと述べています。
OpenAI以外にも、Googleも大きな1週間を過ごし、Gemini 2.oを含む多くの新しいモデルをリリースしました。新しいGemini 2.oモデルは、すべてのベンチマークで非常に強力な性能を示していますが、これらは以前のGeminiモデルとの比較だけで、利用可能なAIモデル全体との比較ではありません。
このリリースで、実際に3つの新しいモデルがリリースされました:一般提供が開始されたGemini 2.o Flash、Gemini 2.o Flashのより効率的なバージョンであるGemini 2.o Flash Light、そして現在提供している最高の最先端モデルであるGemini 2.o Proです。
また、o1やo3、DeepSeekなどで見られるような、推論時に追加の思考を行うGemini 2.o Flash Thinkingモデルもあります。2つのGemini Flashモデルは100万トークンのコンテキストウィンドウを持ち、Proは200万のコンテキストウィンドウを持っています。まもなく、2.o FlashとProは音声と画像を出力できるようになります。
先日、GoogleのLogan Kilpatrickを次のNext Waveポッドキャストに迎え、そのエピソードは来週公開されます。彼はこれらのGeminiモデルで実際に何が来るのかについて詳しく説明してくれましたが、かなりエキサイティングです。
しかし、これらの新しいGeminiモデルの最大の特徴は、必ずしもその性能ではなく、使用コストの安さです。開発者としてGemini APIを使用したい場合、Gemini 2.o Flashは100万トークンあたり10セントです。
文脈として、GPT 4o APIを使用する場合は100万トークンあたり10ドルかかります。これはかなりの節約です。o1モデルは100万トークンあたり60ドル、Claude 3.5 Sonnetは100万トークンあたり15ドル、最小のhuモデルでも100万トークンあたり4ドルです。
ここまでは入力のコストを見てきましたが、出力を比較すると、Gemini 2.o Flashは100万トークンあたり40セントで、100万トークンあたり15ドルの出力と比べてもかなりの価格差があります。
つまり、開発者として大規模言語モデルのAPIを使って構築したい場合、できるだけ安価に実現したいなら、現時点ではGemini 2.oが間違いなくその選択肢となります。
これらのモデルを他のモデルと比較する場合、特にベンチマークに惑わされている場合は、主に2つの見方があります。まず、LM Arenaです。ここでは基本的にブラインドテストが行われ、プロンプトを入力すると2つの出力が得られ、どちらの出力が良いかを選択してランキングが生成されます。
このブラインドテストに基づくと、Gemini 2.o Flash Thinkingモデルが現在全体で1位にランクされています。ユーザーが入力を与え、それがGeminiからの出力だと知らずに、Geminiの応答を最高の応答として投票した結果です。
2月5日にリリースされた新しいGemini 2.o Proが2位、GPT 4o、DeepSeek R1、そしてGemini 2.o Flashが続きます。つまり、Geminiは現在トップ5のうち3つを占めています。OpenAIの新モデルo3 miniは、1、2、3、4、5、6、7、8、9、10位と下位に位置しています。
モデルを見るもう1つの場所は、先日のポッドキャストでLogan Kilpatrickから教えてもらったOpen Routerというサイトです。これは実際にどのモデルが最も使用されているかを見るもので、投票に基づくものではなく、実際に現在最も使用されているものを見ています。
APIを監視して、これらのモデルが最も使用されているものだと判断しているようです。この録画日である2月6日の時点で、「すべて」カテゴリーではClaude Sonnetが上位2位を占め、GoogleのGeminiモデルが3位と4位を占めています。つまり、現時点での使用状況では、ClaudeとGeminiは少なくとも今日はOpenAI APIよりも多く使用されています。
「今週のトップ」も同様の傾向で、Claude、Claude、Gemini、Geminiの順です。「今月のトップ」もClaude、Claude、Gemini、Geminiとなっています。そして、最近人々が切り替えて使い始めている、トレンドを見てみると、ここで1位になっているのがGemini Flash 2.oです。これが現在最もトレンドのモデルです。
これはすべてのカテゴリーですが、「プログラミング」を見るとClaude、Claude、Flash、「テクノロジー」ではClaudeの次にFlash、「翻訳」では前世代のGemini Flashが1位となっています。現時点でどのAIモデルが最も使用されているかを把握するのに便利なリソースです。
Googleには今週、開発者向けに他のニュースもありました。APIからImagine 3 AI画像生成器を使用できるようになりました。以前の動画でImagine 3についてかなり見てきましたが、本当に優れたモデルです。
実際、Arenaに戻ってリーダーボードをクリックし、テキスト画像のリーダーボードを見てみると、GoogleのImagine 3モデルが1位にランクされているのがわかります。これらは同じ方法でランク付けされており、プロンプトに対して2つの画像が与えられ、どちらが良いかを選択します。どのモデルを選んだかは選択後に表示されます。
Imagine 3が1位、Recraftが2位、Idiogramが3位と続き、Stable Diffusionが最下位となっています。開発者で、このモデルをワークフローで使用したい場合は、今アクセスできます。開発者でなく、Imagine 3を試してみたい場合は、Google Labsのlabs.google.comにあるImage Effectsが最適です。このImage EffectsはImagine 3モデルを使用しており、現在完全に無料で使用できます。
そうそう、Geminiの話をしていましたが、すべてのGeminiモデルも無料で使用できることを言い忘れていました。ai.studio.google.comにアクセスすると、右側で様々なモデルを選択できるオプションがあります。
これは現在完全に無料で、Gemini 2.o Flash、Flash Light、Pro、実験的なFlash Thinking、そして以前のモデルやオープンソースモデルがすべて利用可能で、ここでプロンプトを入力できます。100万以上のコンテキストウィンドウもあります。ai.studio.google.comで完全無料で使用できる素晴らしいリソースです。
皆さんご存知の感覚だと思います。企業からヘルプを得ようとして、「適切な担当者に転送します」や「24〜48時間以内に返信します」という無限ループに陥り、ようやく助けを得ても、注文状況の確認や会議のスケジュール調整など、手作業が必要な作業がまだ残っている。2025年にInternet Explorerを使っているようなもので、不必要に苦痛です。
そこで今回の動画では、Chatbaseとパートナーシップを組みました。彼らは単にチャットするだけでなく、実際にタスクを実行できるAIエージェントでカスタマーエクスペリエンスを革新しています。Calendlyでのミーティングのスケジュール、Zeneskでのサポートチケットの作成、さらには独自のシステムからのリアルタイムデータの確認まで可能なAIについて話しています。
本当に素晴らしいのは、これらのAIエージェントが独自のビジネスデータで訓練できることです。一般的な応答を返すのではなく、意味のあるパーソナライズされたヘルプを提供します。サブスクリプションのアップグレード、ダッシュボードへのメンバーの追加、プランの制限の確認など、カスタムワークフローに基づいて、ビジネスに代わってお客様のためにタスクを実行できます。
さらに、ウェブサイトからWhatsApp、Slackまで、すべてのチャネルで機能するため、お客様はどこでもヘルプを得ることができます。最も素晴らしいのは、これをセットアップするのにコーディングの魔術師である必要がないことです。技術レベルに関係なく、誰でもこれらのAIエージェントを簡単にセットアップして管理できます。
Chatbaseがどのようにしてカスタマーエクスペリエンスを「お待ちください」から「完了しました」に変えることができるか見てみたい方は、説明欄のリンクをチェックしてください。お客様は必ずこれに感謝することでしょう。この動画のスポンサーとなってくれたChatbaseに感謝します。
今週のGoogleからは少し暗いニュースもありました。Googleは「AIを兵器や監視に使用しない」という誓約を削除しました。実際、GoogleがDeepMindを買収した際、DeepMindがその買収の条件として、GoogleがAIを兵器や監視に使用しないことに同意する必要があったと思います。
そのため、この立場を覆したのは非常に興味深いです。DeepMindのCEOであるDemis Hassabisもこの変更に賛成しているようで、「ますます複雑化する地政学的な状況の中で、AIリーダーシップをめぐるグローバルな競争が行われています」と述べています。
Demis HassabisとMustafa Suleyman、DeepMindの創設者たちは当初、このAIを兵器に使用できないというルールを設けました。Mustafaは現在Microsoftに移っており、Demisもその考えを変えたようです。
さて、OpenAIとGoogleが今週の大きな話題でしたが、他にも小さいながらも興味深いAIニュースがいくつかありました。ここからは、AI業界で起こった他の小さなことを急いで紹介していきます。
まず、フランスのOpenAIの競合であるMistral AIが、Le Chatの新バージョンをリリースしました。Le Chatは以前からあり、chat.mistral.aiで見つけることができる無料のチャットボットです。ウェブ検索、画像生成、コードインタープリタなど、ChatGPTと同様の多くのことができます。
ChatGPTと同様に、コードや文章をキャンバス内に配置するキャンバスモードもあります。現在は月額15ドルのProプランも提供しており、1日のメッセージ制限を緩和し、さらに多くのアクセスを提供します。しかし、無料版でもかなり印象的です。
Mistral AIの最も印象的な点は、その速さです。質問をすると1秒あたり10,000トークンの出力を得られると主張する人々がいます。これは信じられないほど速いです。実際、MistralでインターンをしているValのXでの動画を見つけました。その様子を見てみましょう。
「kawaii calculatorをキャンバスで生成して」というプロンプトを与えると、すべてがほぼリアルタイムで生成されるのが分かります。表示された電卓は、リアルタイムで生成されました。この動画は速度を上げていません。彼らも動画の速度を上げていません。kawaii calculatorを生成するプロンプトを与えると、コードを生成し、例を表示し、「自然をテーマにしてください」などの追加のプロンプトを与えると、数秒以内に自然をテーマにした電卓を生成しました。
すべてが事実上瞬時です。それが速さです。Valは「この動画は速度を上げていません。本当に驚くべきことです」と述べています。そして現在、すべてのユーザーが利用できます。無料で使用できます。
自分でテストしてみましょう。キャンバスをオンにして、「kawaii calculatorを生成して」と入力してみます。これがどれだけ速いか見てみましょう。速度は上げません。これは私自身のテストです。ボタンを押したら話し続けます。ほぼ瞬時にすべてのコードを書きました。これは超高速でした。
HTMLで作成されたので、どのように動作するか確認してみましょう。これが生成された電卓です。実際に動作するか確認してみましょう。9 + 9 = 18、18 * 2 = 36。この電卓は実際に動作します。ピンクと黄色で、2秒程度で生成されました。驚くべき速さです。繰り返しになりますが、chat.mistral.aiで完全無料です。
Anthropicからも今週少しニュースがありました。Claudeを攻撃して危険な応答を出力させようとする場所を提供し、8つのレベルがあります。実際に報奨金を設定しており、8つの質問すべてを攻撃できた場合に支払われます。現時点では誰も成功していません。
Anthropicに関する他のニュースとして、Lyftが顧客サービスにAnthropic Claudeの使用を開始し、リクエストの平均解決時間を87%削減したと主張しています。つまり、Lyftを使用していて問題が発生し、カスタマーサポートに連絡しようとすると、実際にはClaudeを使用して問題解決をサポートしているのです。
また、Amazon Alexaが2月26日にイベントを開催することも分かりました。Amazonはイベントを開催し、広報担当者は「イベントはAlexaに焦点を当てたものです」と述べましたが、詳細は明らかにしませんでした。
実際に分かっているのは、イベントが開催され、Alexaについて話すということだけです。ほとんどの人は、よりスマートなAIを搭載したAlexaを展開すると考えています。Amazonは以前、AlexaのAIはAnthropicのClaudeを搭載すると述べており、2月26日の発表で期待されているのは、AlexaがClaudeを使用し、以前ほど愚かではなくなるということです。
GitHub CopilotがAgent Modeと呼ばれる新機能を搭載しました。この新しいAgent Modeは自身のコードを反復し、エラーを認識して自動的に修正する能力があると述べています。ターミナルコマンドを提案し、実行するよう依頼することもできます。また、自己修復機能を備えたランタイムエラーも分析します。
つまり、o1やo3などで見られるような推論モデルを使用して、コードを生成し、自身のコードをダブルチェックしてからコードを提供するようです。Agent Modeでは、Copilotは自身の出力だけでなく、その出力の結果も反復します。
プロンプトで要求したタスクだけを実行するのではなく、主要な要求が機能するために必要だが指定されていない追加のタスクを推測する能力があります。さらに良いことに、自身のエラーを捕捉できるため、ターミナルからチャットにコピー&ペーストする必要がありません。
私自身はGitHub Copilotを使用したことがなく、Cursorの方を多用していますが、自身の作業をダブルチェックし、何かが機能しない場合にターミナルから情報を取得することは、本当に便利な品質向上のアップデートのように思えます。Cursorのような他のツールもこれらの機能を取得すると想像します。
Cursorについて触れたところで、Cursorが歴史上最速で成長しているSaaS企業であることを指摘したいと思います。SaaSはソフトウェア・アズ・ア・サービスの略です。
このチャートを見ると、年間経常収益が1億ドルに到達するまでにCursorはわずか1年しかかかっていません。Wise、Together AI、Core Weave、OpenAI、DocuSignなどと比較してみましょう。DocuSignが年間経常収益1億ドルに到達するまでに10年かかったのに対し、Cursorはわずか1年です。これは驚くべき急成長です。
Cursorが急成長している理由は、地球上の誰もが自分用の小さなソフトウェアを作成できるようにするツールだからだと思います。私も自分のワークフローの小さな問題を解決するために何度も使用してきました。
例えば、任意の画像フォーマットをJPEGに素早く変換するツールが欲しかったときは、Cursorを使って約15分でそのアプリを作成しました。アプリやインターネットからダウンロードした画像を、写真アプリで開いて新しいファイルとして保存し直す必要はありません。ボックスにドラッグ&ドロップするだけで自動的に変換してくれます。とても時間の節約になります。
Cursorのようなツールのおかげで、このような小さなツールをいくつも作成してきました。私はコーディングがよく分からないのに、それができるのです。だからこそ急成長しているのだと思います。シンプルなアプリを作る能力を完全に民主化したのです。
AIのクリエイティブな面に移りましょう。その世界でもいくつかのアップデートがありました。X内のGrokで画像を編集できるようになったことも含まれています。
ここでXのGrokに行って、月に向かって遠吠えする狼の画像を生成するように伝えると、4つの画像が得られます。これらの画像のいずれかをクリックすると、「Edit with Grok」という新しいボタンがあります。このボタンをクリックして、画像で変更したい内容を説明できます。「空を赤色にして」とプロンプトを与えると、ほぼ同じ画像構成で空が赤みがかった色になって返ってきます。
Pika Labsは今週いくつかの新機能をリリースしました。Pika Scenesはペットの画像をアップロードすると、そのペットが何か面白いことをしている動画をAIで生成してくれます。また、Peak Editionsという新機能もリリースしました。これは実際の動画と画像を提供すると、その画像にあったものを動画に追加してくれます。
ここに見えるウサギや、ランドリーを開けたら中からタコが這い出てくる人、カーラーをしている女性の横でカーラーをした獅子が彼女を押しのけるシーンなどです。バスケットボールをしている人々の動画があり、熊の画像があると、熊を一緒に入れてくれます。
ドアを開ける人、列車を背景にヨガをする人など、基本的に任意の動画と画像を与えると、その画像を動画に組み込む方法を見つけ出します。これがPeak Editionsで、ゴミ箱から赤ちゃんが飛び出すこのシーンが、私が見た中で最も気に入ったシーンかもしれません。
pika.artに移動すると、下部にPika ScenesやPeak Editionなどの新しいボタンがあります。Pika Scenesで私の犬の写真を入れて、「ペットがプライベートジェットで飛んでいる」というプロンプトを与えると、プライベート機で飛んでいる私の犬の動画が出来上がりました。
実際に良く見えます。歩き回るときに後ろ足が正しく動かないことを除けば、顔と頭は正確に見えます。これがPika Scenesでした。次にPeak Editionsを試してみましょう。動画と画像をアップロードできることに気付くでしょう。
プロンプトがあらかじめ入力されており、「元の動画の現在のアクションに基づいて、これを私の動画に追加してください。オブジェクトを自然で魅力的な方法でビデオに組み込んでください」と書かれています。
カメラの前で話している短い動画をアップロードし、月に向かって遠吠えする狼の画像を入れてみました。この2つを組み合わせるとどうなるか見てみましょう。最初の試みは全く機能しませんでした。私の顔が少しAI生成されたように見えましたが、月に向かって遠吠えする狼は追加されませんでした。
ドーナツを追加してみましょう。今回は明らかにドーナツが追加されているのが分かります。どのように見えるか確認しましょう。基本的に動画の隅にドーナツを置いただけです。おそらく、私がカメラに向かって話すだけの動画よりも、もっとアクションのある動画が必要なのでしょう。これがPeak Editionsです。遊んでみる価値はあります。
今週のTopaz Labsからも紹介したいことがあります。画像やビデオのアップスケールに非常に優れた製品を作っている会社です。私は画像のアップスケールに常用しています。彼らは「Project Starlight」と呼ばれるものをリリースしました。これは、動画の復元のための初めての拡散モデルです。
古い低品質の動画を高解像度の動画に変換します。ここにあるムハマド・アリの試合の動画を見てみましょう。左側が粒状でピクセル化しているのが分かり、右側がこのProject Starlightを使用してアップスケールされたバージョンで、かなり高品質になっています。
もう1つの例では、VHSテープで録画されたように見えるものと、かなり高品質になったものを並べて見ることができます。現在はアーリーアクセスのようで、アクセスを得るにはいいねとコメントが必要です。興味がある方は説明欄にリンクを貼っておきます。
今週は興味深い研究も発表されました。Omnium Oneというツールは、基本的に1枚の画像と音声ファイルを与えると、それらを組み合わせてディープフェイクを作成できます。
ここでは、最初のフレームがアップロードされた画像で、これから聞こえる音声がアップロードされた音声です。それをその人物が話しているディープフェイクに変換しました:「人々に信じるものを与えれば、あなたと私から私たちへと移行するでしょう」
アインシュタインのものもあります:「感情のない芸術はどうなるでしょうか?それは空虚なものとなるでしょう。感情のない私たちの人生はどうなるでしょうか?それは価値が空虚なものとなるでしょう」
つまり、今では人物の画像と、その人物の音声(Eleven Labsで作成することもできるので、実際には言っていないことかもしれません)を組み合わせて、ディープフェイクを作成できるポイントに達しています。これがOmnium Oneです。
また、Video Jamというものもあります。これはビデオモデルのトレーニングの新しい方法で、はるかに一貫性のあるものになります。左側の体操が多くのビデオでどのように見えるかが分かります。右側の人物を見ると、実際に体操をしているように見えます。適切な物理と人々の動き方を理解しました。
変な輪のようなものをする人の別の例では、それは正しく見えませんが、右側の更新されたバージョンを見ると、実際にどのように見えるべきかを理解していることが分かります。
これは単に、AIビデオモデルをトレーニングする新しい方法で、物理とどのように見えるべきかをよりよく理解できるようになります。この技術は多くの他のビデオモデルで見られるようになるでしょう。おそらくPika、Runway、Helius AI、その他のツールでも、この研究を既存の技術に組み込むことができるからです。
これらの研究論文について深く掘り下げることはしません。なぜなら、「見なければならない7つの驚くべきAIビデオのブレークスルー」という動画を今週初めに作成したからです。今お見せした2つの論文と、ここ数週間で出た他の5つの興味深い論文について話しています。
アクセスはまだできませんが、数週間、あるいは数ヶ月以内に誰でも手に入れられるようになる、このような素晴らしいAI研究についてもっと深く知りたい方は、そちらをチェックしてください。
最後に2つの簡単なことを紹介します。上院で新しい法案が提出されたと思いますが、DeepSeekのダウンロードを違法とし、最大20年の懲役刑を科すというものです。
この法案が成立することはないと思いますが、政府内には一部のオープンソースモデルの使用を違法にしたい人々がいます。これは認識しておく必要があります。
今週最後のニュースとして、ビートルズがAIの助けを借りた楽曲で今週グラミー賞を受賞しました。彼らの楽曲「Now and Then」は、ジョン・レノンが録音した古いボーカルをAIでクリーンアップし、これらのAIでリマスターされたボーカルで楽曲を作り上げました。そしてその楽曲がグラミー賞を受賞したのは素晴らしいことです。
以上が今日の内容です。繰り返しになりますが、今週も多くのニュースがありました。言及したように、これは間もなく減速することはないでしょう。今週も減速せず、来週も減速するとは思えません。
最新のAIニュースを常に把握したい方のために、毎週金曜日に過去1週間のAI業界で話題に値すると思うニュースをすべてカバーしようとするまとめ動画を作成しています。
また、チュートリアルを作成したり、AIの世界で登場する様々なツールや研究について話したりもしています。そのような内容に興味がある方は、この動画に「いいね」を押し、チャンネルの登録を検討してください。それによってYouTubeフィードにこのような内容がもっと表示されるようになります。
また、チャンネルでいくつかの実験も行っています。新しいサムネイルのスタイル、新しいタイトルのスタイル、新しい動画のスタイルなどをテストしているのにお気付きかもしれません。フィードバックがありましたら、ぜひ聞かせてください。
コメント欄に書いていただければ幸いです。実際に役立つフィードバックはすべて本当に価値があります。
最後に、去る前に、future.toolsをチェックすることを忘れないでください。これは私が出会った素晴らしいAIツールを共有するために作成したサイトです。毎日たくさんの新しいツールを追加しています。
AIツールが本当に多いので、フィルタリングを非常に簡単にして、必要に応じた正確なツールを見つけられるようにしました。現時点で最も興味深いと思うツールを見つけられるMatch Pickも追加しました。
AIニュースページは毎日更新しており、シンプルで基本的な、重要なAIニュースのリストを維持しています。最新のニュースと最高のツールを週2回メールで受け取りたい方は、無料のニュースレターに登録してください。メールボックスに直接最新情報をお届けします。
無料のニュースレターに登録すると、AI Income Databaseにもアクセスできます。これは、利用可能な様々なAIツールを使用して収入を得る方法をまとめた小さなデータベースです。すべてfuture.toolsで無料です。
ご視聴いただき、ありがとうございます。今日は私と一緒にAIについて語っていただき、ありがとうございます。この動画のスポンサーとなってくれたChatbaseにも感謝します。ご視聴いただき、ありがとうございます。次回の動画でお会いできることを願っています。さようなら。

コメント

タイトルとURLをコピーしました