
3,748 文字

みなさん、ここ数日の大量のニュースを一気に振り返っていきましょか。
まず、Claude 3.5 Haikuが登場しましたが、ちょっとした騒動もありましてん。数週間前にClaude 3.5 Sonnetの発表があって、コンピューター制御機能も追加され、Claude 3.5 Haikuも近々公開されるって話やったんですが、ついに来たわけです。
Anthropicによると、Claude 3.5 Haikuは新しい3.5 Sonnet以外の全てのClaudeモデルを、コーディングと一般的なタスクで上回っているそうで、しかもコストがかなり安くなってます。S-benchの検証スコアを見てみましょか。ちなみに、S-benchのチームにインタビューする予定なので、お楽しみに。
Claude 3.5 Sonnet新版、Claude 3.5 Haiku、そして旧Claude 3.5のスコアを見ると、20万トークンのコンテキストウィンドウがあって、Batch’s APIで50%割引になるんですが、ここで問題が。
予想以上に価格が高かったんです。ChatGPTの検索機能で詳しく調べてみると、入力トークン100万件あたり1ドル、出力トークン100万件あたり5ドルで、以前の0.25ドルと1.25ドルからかなり上がってます。GPT-4 Miniの7倍、Gemini 1.5 Flashよりもずっと高いんです。
Anthropicは、モデルの知能と性能が向上したことを理由に挙げてて、最終テストでは以前のフラッグシップモデルも上回ったって言うてますけど、多くの人が批判的でした。
そのうえハロウィンの日に「ターゲットを絞った規制の必要性」っていうブログ記事を出して、これもまた物議を醸しました。詳しい分析が見たい方はコメントで教えてください。規制の独占を狙ってるんじゃないかって批判もあって、モデルの価格と合わせて、この発表は全体的にあまり良い反応を得られませんでした。
このビデオのスポンサーであるVultureについて少しお話させていただきます…
[スポンサーセクションは省略させていただきます]
次に、OpenAIが新製品をなぜ遅らせているのかが判明しました。理由は計算能力が足りないからなんです。Microsoftからの供給が十分でないのか、あるいはMicrosoftに完全に依存してることが問題なのか、詳しいことはわかりませんが、Sam Altmanは計算能力がボトルネックだと明言しました。
これで7兆ドルをかけてデータセンターを作ろうとした理由や、独自のチップを開発するという噂の背景が見えてきましたね。次世代モデルを実現するには、まだまだ多くの課題があるようです。
次は、Physical Intelligenceという会社が新しいロボットを発表しました。洗濯物や皿洗いなど、家事全般をこなせるロボットです。以前にも似たようなデモを見たことがありますが、これは本当に印象的です。洗濯物を畳む動きがとてもスムーズで自然です。
実は、ロボット自体を売るわけではなくて、ロボットを動かすモデルの方に注目が集まってます。彼らのブログによると、「過去8ヶ月かけて、汎用ロボット基盤モデルPi(パイゼロ)を開発しました。これは人工的な物理知能を開発する長期目標への第一歩で、大規模言語モデルやチャットボットに話しかけるように、ユーザーが望むどんなタスクでもロボットに依頼できるようにすることを目指しています」とのことです。
ウェブサイトには、このロボットというかモデルの能力を示す多くのデモ動画が公開されてます。
次に、ビデオゲームの未来への大きな一歩として、Oasis社がDeckard AIと提携して、拡散モデルだけを使ってマインクラフトのゲームを作りました。基礎となるコードもロジックもゲームエンジンも何もない、完全に遊べるゲームです。
見てください、すごくクールでしょ?確かに解像度は低いですが、これはコンテンツやビデオゲームの未来がどうなるかを示す一例やと思います。
次に、Sam AltmanとOpenAIのリーダーシップチームがRedditでAMAを行いました。主なポイントを見ていきましょう。
まず、高度な音声APIのコスト削減について質問がありました。過去2年間APIのコストを下げ続けてきており、これからも続けていく予定とのことです。
推論コストについて、特に0-1やChain of Thoughtの推論に関する質問では、過去1年で10分の1になったように、今後も下がり続けると予想しています。
私の大好きな質問、GPTシリーズの次のブレークスルーは何かというところで、Sam Altmanは「より良いモデルは出てくるけど、次の大きなブレークスルーはエージェントになるだろう」と答えています。
0-1が画像入力をサポートしていない理由について、最高製品責任者は「まず世界に出すことを優先した」と説明し、0-1への画像入力は開発中とのこと。今後数ヶ月でOシリーズのモデルはマルチモーダリティやツール使用などの機能を獲得する予定で、他のフロンティアモデルと同じような機能を備えれば非常に強力になるでしょう。
ChatGPTに望む機能について「個人情報をより理解して、代わりにアクションを取ってほしい」という回答がありました。このチャンネルをご覧の方ならご存知の通り、これは私の夢でもあります。
個人情報に基づいてAIエージェントが実際に代わりに物事を成し遂げてくれること。だからこそ、AppleとGoogleはまだAIレースで勝てる可能性が十分にあると考えています。彼らは私たちのポケットの中にあるハードウェアを所有し、Gmail、Google Docs、iCloudなどを通じて私たちの個人データも持っているからです。
RedditでAMAの全文をチェックしてみてください。リンクは説明欄に載せておきます。
次に、ChatGPTの検索機能が公開されました。詳しい動画は既に作っていますが、Perplexityの競合として面白そうです。インターネットをスクレイピングしてリアルタイムの情報に基づいて結果を表示できる、ChatGPTにとって大きな前進です。
私はPerplexityをよく使っていますが、ChatGPTも使っていくつもりです。どちらが良いか、また報告させていただきます。
次は、Metaが触覚を感じられるロボットを発表しました。ロボットに実際に触覚を与えることができるんです。これは重要な進歩で、実体のあるAIロボットが五感を持つことは、周りの世界を理解し、ナビゲートする上で本当に重要です。
ロボットがものを正確につかんだり、触れているものに応じて適切な力を加えたりすることができます。例えば、ロボットが犬を撫でる時、全力で押し付けるわけにはいきません。力加減を予測することはできますが、触覚のフィードバックがあれば、はるかに正確にコントロールできます。素晴らしい成果ですね、Meta。
次に、テキストから画像生成のリーダーボードでトップに立っていたRed Pandaというモデルの正体が明らかになりました。Recraftという会社が新しいテキストから画像生成モデルをリリースしたんです。
例を見てみましょう。Breaking Badケーキ、自撮りする宇宙人など、本当に信じられないほど素晴らしい画像です。いつも言っていますが、競争が多いほど良いですからね。もっとテキストから画像生成モデル、テキストから動画生成モデル、大規模言語モデルが出てきてほしいです。Recraftの皆さん、おめでとうございます。
次は、あまり注目されていませんが、私を驚かせたニュースです。Googleのエンジニアが書くコードの25%がAIによって生成されているそうです。これは組織の生産性が大幅に向上したということです。
GoogleのCEO、Sundar Pichaiが決算説明会で「Googleの新規コードの25%以上が現在AIによって生成されている」と述べました。ただし、あるGoogleエンジニアが詳しく説明してくれました。確かにAIは多くのコードを書いていますが、まだ完全な形でエンドツーエンドのコードを書いているわけではないそうです。
むしろタブ補完のような形で、コードの設計を始めると、それを補完してくれる感じだとか。それでも素晴らしい進歩で、生産性は大きく向上します。将来的にはコードが完全にAIによって生成されると私は考えていますが、これは一人のエンジニアがそれだけ効率的で生産的になれるということを示しています。
最後に、ちょっとした更新情報ですが、ChatGPTでチャット履歴を検索できるようになりました。数千の異なるチャットの中から目的のものを簡単に見つけられます。チャット履歴と会話できるようになったら面白いかもしれませんが、それは少し複雑すぎるかもしれませんね。
使い勝手が良くなる良いアップデートだと思います。
今日はここまでです。この動画が良かったと思われた方は、いいねとチャンネル登録をお願いします。また次回お会いしましょう。
コメント