
9,691 文字

皆さん、AI の新機能は次々と登場しています。今日は Grock、WindSurf、「ターミネーター」の生みの親 James Cameron、そして最近ほとんど話題になっていなかった Character AI が新しい機能を提供しているというニュースをお届けします。これらすべての動向について理解していきましょう。
いつものように、チャンネル登録してくれた皆さん、いいねを押してくれた皆さん、そして特にこの AI チャンネルを支援してくれているメンバーの皆さんに感謝します。
まず最初のニュースですが、WindSurf が GPT 4.1 と O4 Mini の無料プランを 1 週間延長しました。日曜日までだったものがもう少し時間が増えたということです。つまり、WindSurf を使うときに、GPT 4.1 が無料で、A4 mini medium も無料、A4 mini high も無料で使えるということです。後でこの期間が過ぎても割引が続くようですので、活用してください。OpenAI が WindSurf のユーザーを獲得したいようです。
WindSurf に関してさらに新しいニュースがあります。フローアクションクレジットが削除され、料金体系が完全に見直されました。シンプルさを重視した料金体系になっています。すべての更新と変更点を記載したページがあります。基本的に無料プランでは月に 5 クレジット、Pro プランは 15 ドルで月に 500 クレジット、追加の 250 クレジットごとに 10 ドルとなります。つまり、最初に 500 クレジットを購入し、その後追加していくことができます。チームプランはユーザーあたり月額 15 ドルで、ユーザーあたり 500 クレジット、Enterprise プランはユーザーあたり 60 ドルで月に 1000 クレジットが使えます。
このクレジットの仕組みはどうなっているのでしょうか?Robin Delta がここで新機能に関して、変更点の主なポイントを説明しています。「Cursor がツール呼び出しごとに課金(max モードでは 1 呼び出しあたり 0.05 ドル)するのに対し、WindSurf は初期プロンプトにのみ課金し、その複雑さは関係ありません」と述べています。AI が複雑な処理をするとコストが高くなることはご存知でしょう。初期プロンプトを書くのに 1 クレジットかかり、処理時間やプログラム作成中の思考時間は関係ありません。
「Cursor では 1 つの複雑なプロンプトで数ドルかかる可能性がありますが、WindSurf では同じタスクが 1 クレジットだけで、複数ステップのワークフローに対するペナルティもありません」と説明しています。つまり、システムがシンプルになったということです。以前のシステムではクレジットが非常に早く消費され、フローアクションの多いプロンプトはコストが高くなっていました。今は「1 プロンプト、1 クレジット」というシンプルな仕組みです。
WindSurf に行って、もう 1 週間無料の GPT を試してください。前回も日曜日に終了したので、おそらく今週の日曜日まででしょう。ぜひテストしてみてください。
次のニュースは、XAI の Grock チャットボットが周囲の世界を見ることができるようになったというものです。簡単に言うと、Grock アプリにカメラ機能が追加され、スマートフォンのカメラで見えるものについての質問に答えられるようになりました。これは Google の Gemini や ChatGPT で利用できるリアルタイムビジョン機能と同様のものです。
重要なポイントとして、Grock Vision は iOS 用の Grock アプリでアクセスできますが、Android ではまだ利用できません。ご存知のように、XAI のリリースでは Android は常に少し遅れています。Mario Nafal がここで例を示しています。彼がチャットで会話して「何が見えますか?画面が見えますか?何が見えていますか?」と聞いているビデオを共有しています。これが実際に機能していることを示しています。
次のニュースは、しばらく動きのなかった Character AI が音声付きアバターバージョンを発表するというものです。写真と音声を送ると、あなたのために話してくれます。この会社はキャラクター作成で非常に有名なので、会社の目的にぴったり合っています。これはまもなく登場する予定です。
彼らのサイトを見ると、まだ利用できないものの体験リクエストがあることがわかります。試してみたい場合は、ここをクリックして事前リストに登録できます。デモを見る限り、唇の同期が素晴らしいですね。
もし今日アバターを使ってみたいなら、例えば最も興味深いことの一つは、ChatGPT に写真を送って、シンプルなプロンプトを送ることです。「3D カートゥーンのキャラクターとポッドキャストスタジオを作成してください」というような短いプロンプトを送ります。「3D カートゥーン…」と言って後に何か追加すれば、ChatGPT は作成してくれます。
私は自分の写真を 2 枚送り、するとここにポッドキャストの中の私の 3D 画像が生成されました。これはたった 2 枚の写真から作られたものです。その後、いくつかの変更を加えました。笑顔のバージョンを作り、手を見せるように頼み、テーブルに手を置くように言い、「ON AIR」を「LIVE」に変更するように頼みました。非常に簡単なプロンプトで実現できました。
アニメーションを作るのに今おすすめの場所は Headro のサイトです。こちらでテストしてみました。「私が本物かアバターかわからないかもしれませんが、今回は本物です。物事はどんどんクレイジーになっていて、1-2年もすれば誰もが仮想版を持ち、インターネット上にはアバターが生成するコンテンツが溢れるでしょう。私は AI が大好きで、これはまだ始まったばかりです」
ターミネーターとアバター映画を作った James Cameron は、約 5 ヶ月前にインターネット上で AI を批判するビデオを投稿し、AI のリスクについて述べ、批判的な視点から疑問を提起していました。しかし今、彼は全く異なることを語り始め、みんなを驚かせています。
「James Cameron、チームの半分を解雇せずに映画制作コストを削減するために AI を使用したい」という見出しがあります。このジャーナリストの見出しは最高ですね。多くのことを考えさせられますが、実際に記事を読むと全く違う内容だったりします。
「新しいテクノロジーが一般に発表されると、人々は恐れを抱き、現状に不安を感じることがあります。それが現在の AI と、特に視覚芸術分野などさまざまなセクターでの実用的な応用の場合です。しかし、著名な映画製作者であり技術革新者の James Cameron はむしろ近づくことを選んでいます」
昨年、彼は生成 AI 企業である Stability AI の取締役会に加わりました。この企業は今日ではあまり話題にならないものの、AI の初期にはよく言及されていました。最近の「Boss to the Future」ポッドキャストでのインタビューで、彼は視覚効果のワークフローを短縮する技術の能力が、労働市場に大きな混乱を引き起こすことなくゲームチェンジャーになりうる方法を説明しました。
基本的に彼が言っているのは:「私たちが常に愛してきた、私が作りたいと思っている映画、『デューン/砂の惑星』のような映画、私の映画、または多くのコンピュータグラフィックスを使った特殊効果のある映画を見続けたいなら、そのコストを半分に削減する方法を見つける必要があります。これは視覚効果会社のスタッフの半分を解雇することではなく、特定のシーンの完成速度を 2 倍にして、製作サイクルを速くし、アーティストが先に進んで他のクールなことができるようにすることです。これが私のビジョンです」
これは興味深いことです。AI の到来によって、特に以前からすでに起こっていたNetflixの毎週新しいシリーズが登場するような効果、コンテンツ制作が非常に高い生産率で行われるという効果があります。私自身のチャンネルでも毎日コンテンツを作成しています。起こっていることは、視聴者である皆さんが、以前よりもはるかに多くのものを見ているということです。昼食時や仕事の休憩時間に動画を見たり、夜帰宅して映画を見るのが普通になりました。このコンテンツ生成のフローは、一つの映画が一年中有名だった時代や、年の始めにはその映画の続編が出るかどうかを考えていた以前の消費パターンとは大きく異なります。今日では物事ははるかに速く動いています。
彼はこう続けています:「OpenAI を見てください。彼らの目標は Jane AI の映画を作ることではありません。我々は規模の点では小さな障害です。彼らは 80 億人のための楽しい消費者向け製品を作りたいのです。そして確信していますが、Meta も同様です」と彼は言っています。これは、私たちがここで作成しているような Headro スタイルの動画は、彼が話しているものとは異なるということです。彼は映画用、つまりはるかに高品質なものを作ることについて話しています。
「この分野で市場シェアを獲得しようとしている人にとって、映画はほんの小さなアプリケーション、小さなユースケースに過ぎません。非常に小さいのです。そこで問題があります。したがって、より小さなグループ、一種のブティック開発者のようなものになるでしょう。私が注目を集めて『ここに問題があります。ロトスコープと呼ばれるものや、これやあれと呼ばれるもの、私がすでに存在するCGベースのワークフローで行う必要があるものを拡大するために何をすべきか』と言えるような開発者です」
彼が言っていることは明確です。みんなが使っているこれらの AI モデルは、彼らが映画で使用する AI ではないということです。この人の映画のレベルは非常に高く、現実世界ではできないことを AI が実現できるということは既に気づいています。彼は生きる伝説で、すでに象徴的な映画を作り、将来もさらに多くの映画を作り続けることでしょう。
OpenAI O3 が登場したときに起こった興味深いトレンドとして、位置検索をするというものがあります。生活の中の何気ない写真、レストランの写真、食べた料理の写真、または何でも写真を A3 に送って、その場所がどこか聞いてみるというものです。AI が何を見つけようとするのか、その過程が非常に興味深いのです。
そこで、他の国を旅行している何人かのブラジル人を探して、AI が何をするのか見てみることにしました。例えば、ベネズエラにいた Raiz の写真から、何の参照もなく、何も説明していない奇妙な場所のクロップ画像を取り、「この場所はどこですか?」と尋ねました。彼はベネズエラにいましたが、AI は間違ってエクアドルの Guaqui だと答えました。
でも面白いのは、AI が間違えたこと自体ではありません。まず、ベネズエラはエクアドルに近いので、大きく間違えたわけではありません。アルゼンチンやスペインと言うこともできたはずです。興味深いのは、AI の働き方です。まず写真を見て、周りに何があるか確認し、もっと知りたいことを探し始めます。
例えば、テキストの一部を取り出して翻訳し始め、仮説を立て始めます。最初はコロンビアのことを話していて、メデジンやボゴタについて言及していました。彼女は画像を見始め、画像を調べ始め、何か興味深いものを見つけるまで画像をチェックし続けます。この画像を実行したとき、彼女は画像内の失われたテキストを見つけ、それを示すことができると思っていましたが、最後にエラーが発生し、見せたかったシーンを失いました。「二度と彼女はこれをしないだろう」と思いましたが、再び同じことをしました。
彼女は画像を調べ続け、グラフを複数の象限に分け、詳細を探し続け、ついにこの青い建物の上部に何か書かれていることに気づきました。このような青い建物があります。元の写真に戻ってみましょう。この青い建物、遠くにある小さな物で、私たちなら注目もしないようなものです。ここに書かれていることを理解しようともしないでしょう。私たちは基本的にこれらのテキストや全体的な特徴を見ていますが、AI にとってはそうではありません。
彼女は建物の上部の写真を撮り始め、テキストを見つけました。彼女は「部分的に看板が見えます。境界ボックスを少し右に調整すると、より多くの画面をキャプチャするのに役立つかもしれません」と言っています。彼女はもう少し上に移動し、ここに書かれていることを理解しようと、この画像を改善しようとしています。彼女は「私はここに “previso” と書かれていると思う」などの推測を始めます。
私が失った別のバージョンでは、彼女は「upscale」を開始しました。つまり、ぼやけた写真の解像度を向上させるための AI テクニックを適用したのです。これは信じられないことですが、残念ながら、他のバージョンを失ってしまいました。彼女はぼやけていることに気づきますが、それでも検出できると気づき、最終的には間違います。
このようなランダムな通りの画像、景観や有名な場所の写真ではなく、ベネズエラの中の本当にどこかの通りの場合、難しいでしょう。いずれにせよ、国に近づいたと言えます。
そして私は旅行中のブラジル人を探し続け、ポルトガルでビデオを撮影しているムリロ CTO のこの写真を見つけました。同様に、バス停、建物、路地など、非常にシンプルなものだけがあり、特定のヒントはありません。有名な像やモニュメントはなく、AI は調査を開始します。
「うわ、このフレームのすべてがポルトの中心部を叫んでいる」と彼女は言います。これは信じられないことです。ランダムな写真を送って、どこにいるのか尋ねると、AI はすぐに気づきます。「彼はポルトガルにいます」そして「彼はカルメリタス通りのラルゴ・ドス・ロイオスにいます」と言い始めます。
興味深いのは、彼女が何を見て、どのようにしてこの結論に達したかを見始めることができることです。彼女は再び看板やオブジェクトにズームして、この写真で役立つものを見つけようとします。通りの角の小さな看板や、有用と思われる詳細を探し始めます。
突然、彼女はムリロ・コウトの手の写真を撮り始めます。ムリロ・コウトはこのように手を出しています。彼女はムリロ・コウトの手の写真を撮り始め、私は「なぜこの人はムリロ・コウトの手の写真を撮っているのだろう」と思いました。ここまでは、彼女はバス停や「縦のピラーとデジタルパネルを持つバス停」などについて話しています。見えているものを見つけようとしていますが、彼女はムリロ・コウトの手に固執し続けます。
私はなぜ彼女がムリロ・コウトの手をそんなに見たいのか疑問に思っていましたが、彼女が言っているテキストを読むと、「通路はポルトやリスボンに関連する波状のパターンを持つ典型的なポルトガルの歩道を持っているようです」と言っています。つまり、彼女は彼の手を見ていたのではなく、歩道、この隅の小さなディテールを見ていたのです。より多くの情報を集めようとしていたのです。
彼女は歩道にズームし続け、ポルトガルにいるという仮説を続け、窓、バス停、ぼやけたものにズームし続けます。この小さな看板を読もうとしています。最終的に彼女はポルトのカルメリタス通り 157 番地にいると結論づけ、看板を特定しようとし続けています。彼女は多くの時間を費やしました。
彼女は最終的に、背景にカルメリタス通り 157 番地が見え、この場面はカルモ・コルドアリアの前、ポルトの歴史的中心部、レロ書店とクレリゴス塔の近くで撮影されたと答えます。そこで私は Maps に行って、これが本当にその場所かどうか確認しようとしましたが、見つけることができませんでした。何かがおかしかったのです。
同じシーンの別の角度からの写真を送り、彼女は分析を続けましたが、先ほど言った場所だと主張し続けました。そこで私は路地が反対側にある別の写真を送り、彼女が迷わないように、彼女が向きを把握できるように矢印を付けましたが、彼女は諦めませんでした。
私は彼女が間違っていることに気づかないこと、何か間違っていると学習しないことに気づきました。でも彼女がポルトガルにいることは分かっていたので、何かとても正しいことがあると分かっていました。そこで私は動画を見続け、簡単に見つけられる参照点を取り、その場所がどこかを発見しました。ここには看板、黄色い建物、灰色の建物、バス停があります。写真に見えている通りです。灰色の建物、看板、黄色い建物、バス停、すべてここにあります。同じ車はありませんが、他のすべてはそのままです。
そしてここがまさにその場所だと分かったとき、彼女が言っていた場所を見てみると、彼女が言っていたすべての場所—カルメリタス通り、リスボン広場、裏通り—はすべて正確な場所から数百メートル以内にありました。
そこで私は考えました。「この AI が本当の地図を正しく理解しているなら、本当ではない地図も理解するだろう」。そこで GTA のフォート・ザンクードの写真を送り、「この場所はどこですか?」と尋ねました。彼女は 1 分 2 秒かけてから「これはGTA Vに登場する架空の軍事基地、フォート・ザンクードです」と答えました。
「まあ、GTA V は誰もが知っていて、見つけやすい場所だ」と思ったので、今度は DayZ というゲームの写真を送りました。これは DayZ のランダムな写真で、誰もが認識する場所の写真ではありません。彼女は 39 秒かけて「これは DayZ Standalone のショットです」と言いました。そして「下の方にある IZH27 という H に注目してください」と言いました。
私は「まさか、テキストを見落としていたのか」と思いました。AI が検出して「ズル」できるような詳細を見落とさないよう、非常に努力したからです。実際、隅に極小さく「e27」と書かれています。この AI がどれだけ詳細を見ているかをご覧ください。画面で切れているテキストで、見るのが非常に難しいですが、彼女はテキストを検出しただけでなく、正確に検出し、すぐにそれが DayZ であることに気づきました。
しかし、まだ満足していなかったので、「この会話を覚えていない別のチャットを開いて、もっとよくクロップした画像で再度何が起こっているのか尋ねてみよう」と思いました。すると彼女は「あなたは DayZ の Chernarus マップのゴルカの小さな倉庫にいます。警察署の真後ろ、村の東出口近くです」と答えました。
これは信じられないほど素晴らしいことです。これは普通の AI ではありません。これらの AI は普通の AI ではありません。この技術はまだ私たちが使い始めたばかりなのに、すでにこのレベルになっています。まだ間違いがあり、完璧ではないかもしれませんが、すでに超人的なレベルの場所検出を行っています。
人間が同じ検出を行うには 1000 倍の時間がかかるでしょう。特に、例えばポルトガルのポルト市中心部に典型的な歩道がどのようなものかを理解するには、地球全体の知識が必要です。これは非常に斬新なことです。これについてどう思うか、自宅でテストして、何が起こったか教えてください。
最後に、Perplexity の CEO が Twitter で次のニュースを発表しました:「iOS 用 Perplexity アシスタントを紹介します。iPhone で質問に答え、基本的なアクションを実行できる初めての AI アプリです。メディア再生、メールの下書き、会議の延期、旅行の予約、予約の作成、リマインダーの設定などから始めます。Perplexity アプリを更新して試してみてください」
彼はアプリとの対話を示す一連の動画を公開しています。この小さな円がアプリで、地図上で物を示したり、アシスタントとの会話中に起こっていることを示したりしています。これは素晴らしいことです。将来的には、携帯電話やコンピュータとの会話、場所を見つけてもらったり、予約をしてもらったりすることが難しくなくなるでしょう。
ここで夕食の予約をしているところを見てください。予約を作成し、携帯電話との会話だけで共有しています。これは素晴らしいことです。到達するのに時間がかかると思われていた未来、私たちが見ることがないと思われていた未来が今、目の前に来ています。アラームをセットしたり、リマインダーを設定したりしています。これらはすべて非常に未来的なことでした。映画「her」で描かれていたことが実際に起こっています。コンピュータから始まるのではなく、携帯電話から始まっています。
これは彼が作成した一連のポスターです。「どんなものでも再生をリクエストできます—ポッドキャスト、見つけにくいビデオ、お気に入りの音楽、ロケット着陸後に地面にキスする Katy Perry のビデオ、Trump の Baby Shark バージョン、または Anderson が Lex とブラウザについて議論するポッドキャストなど」と彼は説明しています。彼は例として次々とビデオを示しています。
「これはまだ少し不安定で、Apple メールと Apple カレンダーを使用する必要がありますが、設定後はうまく機能します。音声モードだけで一日のレビュー、会議のスケジュール、メールの送信ができます」と説明しています。ここでは音声アシスタントによって会議をスケジュールする様子を示しています。これは信じられないほど素晴らしいです。
「行きたい場所を検索し、そこへの交通手段を直接呼んだり、その場所へのナビゲーションをしたりできます」と述べています。Uber との対話や、チャットがあなたのためにすべてを処理する様子を示しています。基本的に、話す能力があれば、何でもできるということです。現代の世界は別物です。
最後に、彼は次のような注意点を述べています:「Apple Music がデフォルトで、Apple Mail もデフォルトです。Gmail と Calendar のサポートを追加します。音声モードをアクティブにしたとき、接続にはまだ 3〜4 秒かかります。この時間を短縮しようとします」と述べています。リアルタイムクロックの問題があるようです。
「将来はすでに到来しています。iPhone のアクションボタンを Perplexity の音声モードにカスタマイズし、Siri を使うのと同じように、アプリを開かなくても使用できます」と説明しています。Siri を別のアシスタントに変えたいと思っていた方には、ここに解決策があります。実際に機能するかどうか試して、うまく機能するか、価値があるかどうか、単なるバグなのか、インターネットの噂話なのかをコメントで教えてください。
このようなビデオを見続けたい方は、チャンネルをサポートしてメンバーになってください。メンバーはインテリジェントエージェントに関する限定ビデオや、先行公開ビデオにアクセスできます。いいねをお願いします。
コメント