AIの大ニュース: OpenAIが新AIエージェントをデモ、Googleのストロベリーモデル、サム・アルトマンがAGIの期限を発表

8,523 文字

ほんまに頭おかしなるくらいすごいOpenAIのデブデーと、いろんなAI企業からのニュースがあってんけど、どこから話したらええんやろ。みんなが見逃してそうなAIのニュースをちょっと見てみよか。
もしかしたら知らんかもしれんけど、最近あったことの1つが、世界中で高度な音声モードが展開されたことなんや。これは2回目のチャットGPTの瞬間になると思うわ。みんなが、このAIの声がどれだけリアルで、どんな能力があるか気づき始めたらな。
あるユーザーがTwitterに投稿してんけど、新しいバージョンのチャットGPTの高度な音声モードにインド人詐欺師のようにふるまってくれって頼んだら、その返事が面白かったらしいわ。確かに笑えたけど、この投稿が瞬く間に350万回再生されて、5000回リツイートされて、4万いいねもらったってことは、前から言うてるように、この種のテクノロジーがどれだけ楽しくて、どんな使い方ができるかってことを、みんなまだ本当に理解してへんってことやな。
(インド人詐欺師のデモの翻訳は省略します)
みんなはどうか知らんけど、最近わたしは高度な音声モードを使うてんねん。イギリスでやっと使えるようになってな。デモの結果を見る限り、全然期待はずれやないわ。EUの人はまだ使えへんと思うけど、2つ目のチャンネルで、他の国でも簡単にアクセスする方法のチュートリアル作ったで。この高度な音声モードが来るまで、そう長くはかからんと思うわ。でも、この高度な音声モードを使える人は、できるうちに絶対使うたほうがええで。ただ、1日45分しか使えへんから、制限かかる前にやりすぎんようにな。
なんでこのビデオを高度な音声モードから始めたんか思うてるかもしれんけど、それは高度な音声モードについて追加のニュースがあるからなんや。発表で驚いたことの1つが、リアルタイムAPIやってん。これが驚いたんは、OpenAIが音声モードをかなり遅らせたからなんや。最近、開発者がアプリケーションで高速な音声テキスト変換体験を構築できるようになったって発表したんや。
今日、リアルタイムAPIのパブリックベータを導入してんねん。これで、有料の開発者全員が、チャットGPTの高度な音声モードと同じような低遅延のマルチモーダル体験をアプリで構築できるようになるんや。リアルタイムAPIは、APIですでにサポートされてる6つのプリセット音声を使って、自然な音声対音声の会話をサポートしてるんや。
これはAIの改善にとってまた素晴らしい分野になると思うわ。開発者やクリエイターがOpenAIよりもずっと創造的やってことは、みんな知ってるからな。これがどう機能するか知らん人のために説明すると、OpenAIは基本的に、低遅延で話せるAIと対話する能力みたいな基本技術を提供するんや。そして開発者はそれを使って、その上に何でも作れるんや。アプリを作ったり、ソフトウェア会社を作ったり、ほんまに思いつく限りのものを作れるんや。カーソルやリペットエージェントみたいなものの出現で、来年にはリアルタイム音声API上に数百万ドル規模の会社がいくつか作られても驚かへんわ。
これから見せるのは、会社がすでにリアルタイム音声APIを使い始めた2つの小さな例や。そして、誰かが（OpenAIのことやけど）リアルタイム音声APIを使って実際に何かを注文した本当の例も見せるで。このライブAIデモを見てみ。これは前にGoogleでも起こったことやけど、なぜか彼らは決して公開せんかってん。そして今またOpenAIが先頭に立ってるんや。
(デモは省略)
このデモを見せたかったんは、今後10年間で、直接対面せん形のやりとりがどれだけ変わるかを強調できへんと思うたからや。法律が許す限り、今後10年間のやりとりの大半は、主にAIエージェントによって行われると思うわ。
このデモを見ると、面倒くさい仕事があっても、AIアシスタントに指示して企業に電話をかけさせ、注文を依頼したり、質問したりして、比較的早くその情報を得られるってことがわかるやろ。そして、その企業側も同じようにAIエージェントを使って、ほぼ同じことをするんやと思うわ。AIエージェント同士がやりとりして、それを利用する個人に価値を提供する世界になるんやな。未来はかなり面白くなると思うわ。でも、これは初めてのデモの1つで、実際にそういうことが起こってるのを見れるんや。
これは今のAIニュースやないけど、企業がこれまで以上に速く動いてる段階にあるってことを見せたかってん。数ビデオ前に見せたかもしれんけど、もう一回見せたいのは、Googleを過小評価せんようにってことや。Googleはいくつかのクレイジーなことに取り組んでるし、面白いことに、Googleは実際2017年にこの技術を持ってたんや。Googleのライブジェミニのリリース以来、信じがたいかもしれんけど、数年前のGoogleのデモを見せたら、なんでGoogleを見くびっちゃいかんのかわかると思うわ。
信じられへん人のために言うとるけど、ここに「6年前の2018年」って書いてあるの見えるやろ。でも本当にこの短い部分を見てみ。Googleがどれだけすごいか、どんな技術を持ってるかがわかると思うわ。このクリップの後で、Googleが最近発表したことを見せるけど、それを見たらGoogleがOpenAIに追いついてるか、もしかしたら先を行ってるかもしれんってことがわかると思うわ。
(デモの翻訳は省略します)
BNNブルームバーグからこんな爆弾ニュースがあってん。「Googleが推論に取り組んでいて、OpenAIの努力を追いかけている」んやって。Googleが今、OpenAIの1に似た推論能力を持つAIソフトウェアに取り組んでるらしいわ。これは、テック大手と急成長中のスタートアップの競争の新しい前線を作ってるんや。
情報を明かしたくないって言うてる知る人の話によると、ここ数ヶ月、Googleの複数のチームがAI推論ソフトウェアで進歩してるらしいわ。このソフトウェアプログラムは、数学やコンピュータープログラミングなどの分野で複数の問題を解くのが得意なんやって。
これがどう機能するかの重要な詳細がここにあるわ。OpenAIと同じように、Googleも「思考連鎖プロンプト」って技術を使って人間の推論を近似しようとしてるんやって。この技術はGoogleが先駆けたもので、ソフトウェアは書かれたプロンプトに応答する前に数秒間停止するんや。その間、ユーザーには見えへんけど、関連するプロンプトをいくつか考えて、最良の回答に見えるものをまとめるんや。
Googleはこの取り組みについてコメントを控えてるけど、Googleが積極的に取り組んでるってことはわかってるわ。最近、チャンネルで取り上げたGoogleの研究を見ると、この声明が本当やってことがよくわかるわ。ここに誰かが言うてるのを見てみ。「技術的には、Googleの能力がトップクラスやったってのはずっと変わらへんかってん。ただ、物事を展開するのにもっと慎重やっただけや。これはマラソンで、誰が勝つかわからへん競争や」
7月にGoogleが披露したAlpha proofを覚えてるやろ。これは数学的推論を専門とするもので、Alphaジオメトリー2は今年初めにデビューしたジオメトリーに焦点を当てたモデルの更新版や。これが年間の数学オリンピックの6つのプログラムのうち4つで満点を取ったんや。この競技では、学生が代数や幾何学などの題材に取り組むんや。
もちろん、GoogleはAstraっていうAIアシスタントも垣間見せてくれた。これは世界を見て質問に答えられるんやけど、まだ開発中やと思うわ。全体的に見て、Googleをあんまり過小評価せんほうがええと思うわ。Googleは間違いなくすごいものに取り組んでるし、ローガン・キルパトリックの新しいリーダーシップのもとで、2025年に向けてもっと強く動いていくと思うわ。
2025年と未来を見据えると、注目したいのはもちろんAI企業のCEOの予測や。サム・アルトマンほど注目すべきAI企業のCEOはおらへんやろ。この短いクリップを見てみ。サム・アルトマンはAGIの定義が重要で、それはもうすぐ実現して、かなり早く起こるってことを意味してるって言うてるわ。
AGIの定義は人によって違うんや。GPT-4を初期の論文でAGIの兆しと呼ぶ人もおるし、完全に推論をシミュレートするだけやって言う人もおる。多くの人はこれらのシステムが知的やとさえ信じてへんしな。でも、人工知能の開発速度を考えると、これらのモデルの能力が向上することは否定できへんわ。
そういうわけで、最近のOpenAIデブデーでサム・アルトマンがAIモデルの将来の進歩について語ったことを見てみよか。
(サム・アルトマンの発言の翻訳は省略します)
これがサム・アルトマンがAIの未来についてどう考えてるかの短い抜粋や。このインタビューで一番重要なのは、サム・アルトマンがレベル3について話してることやな。レベル3っていうのは、今あるAIシステムよりもっと主体性のあるAIシステムのことを指してるんや。つまり、自分で行動できて、一連の行動を完了できるってことや。単純なシステムプロンプトがあって1回の応答があるんじゃなくてな。
これは、システムがもっと人間らしくなるってことを意味するんや。例えば、話しかけたら、高度な音声モードみたいに、いくつかのことをしてくれて、戻ってきて「ほら、X、Y、Zができたで。どうやった思う？」って言えるようなシステムを想像してみ。これが起こり始めたら、たぶん思ってるより早く起こると思うわ。2025年はそう遠くないし、2025年は間違いなくAIエージェントの年になるやろうからな。
全体的に見て、これはAIをずっと追いかけてきた人間にとってもかなり驚きやわ。外の人から見たら物事が遅くなってるように見えるかもしれんけど、日々注目してる身としては、AIのペースが今加速してるように感じるわ。別にハイプを作ろうとしてるわけやないで。ただ、特定のモデルリリースがどうなるかについての今の予想に基づいて言うてるだけや。
例えば、ビデオは思ってたよりずっと早く起こったし、もちろん低遅延の音声対話も来年くらいに起こると思ってたわ。冒頭で言うたように、EUにおらん限り、まだ高度な音声を使ってへん人は、絶対これを活用せなアカンで。
この短いクリップで、サム・アルトマンはAIやってわかってても、高度な音声モードにある意味だまされたって話してるわ。これは人間によくある間違いやな。「人間」って言うと自分が宇宙人みたいやけど、AIに人間の特徴を与えてしまうんや。全然人間やないのに。
サム・アルトマンはこう言うてるわ。「わたしにとって、初めてAIに本当に騙されたって感じたんは、最初のベータ版を使うてた時やった。自分を止められへんかってん。普段は『チャットGPT、お願いします』とか言うてるけど、音声モードやと普通の言葉遣いせんようにするのがほんまに難しかったわ。これが本物の人間かもしれへんって、すごく確信してもうたんや。もちろん、これは単に脳のどっかの回路が反応してるだけやけど、ほんまにそう感じたんや。音声モードではな。今でもちょっとそう感じるわ」
「これは、これから直面するもっと一般的なことの例やと思うわ。つまり、これらのシステムがどんどん能力を持つようになって、できるだけ自然にやりとりできるようにしようとすると、他の人間と付き合うために進化してきた神経回路の一部に働きかけることになるんや。明らかに避けたいことがいくつかあるわ。例えば、変な性格を作り上げたり、ちょっと社会的に操作するようなことはせえへん。でも、そんなにはっきりしてへんこともあるんや。音声モードをできるだけ自然に感じるようにしたいけど、不気味の谷を越えてしまうと、少なくともわたしには何かが引っかかるんや。『お願いします』とか『ありがとう』って言うてまうのは、たぶんみんなもそうやと思うわ」
未来の予測の話をしてるけど、最近また注目を集めてる1つの未来予測があるんや。それは、ちょっと変な数年を経て、マーク・ザッカーバーグの言うてることや。彼の復活劇は絶対に研究せなアカンわ。彼のデバイスの未来についての予測は、ハードウェアに対する我々の見方を完全に変えるものやと思うわ。
メタの新しいRaybanのメガネを使うたことあるか？最初に思うてたよりずっとええで。AIと統合したらどうなるか、本当に想像もつかへんわ。マーク・ザッカーバーグは、スマートグラスが2030年までに携帯電話に取って代わる可能性があるって言うてるんや。
彼はこう言うてる。「スマートグラスは次の主要なコンピューティングプラットフォームになるやろう。2030年までに徐々に携帯電話に取って代わるやろうな。ちょうど携帯電話がコンピューターを完全に置き換えることなく追い越したみたいにな」
これはたぶん本当になると思うわ。テクノロジーがどんどんコンパクトになって、デバイス上でもっとたくさんのAIが動くようになれば、そのメガネが過度に大きくて着けにくいものでない限り、どんどん未来の一部になっていくと思うわ。
そのメガネを使うたことあるなら、全然邪魔にならへんし、ほとんどの人は着けてるのがテクノロジーやってことに気づかへんってわかると思うわ。でも、たぶんメタのRaybanのメガネを通じてってことはないやろうな。
世界の意識を変えると思う分野の1つは、アップルがメガネを作る時やと思うわ。アップルのブランドを知らん人もおるかもしれんけど、めっちゃ強いブランドイメージを持ってるんや。つまり、普通、彼らが何かをするときは、手頃な価格で提供されれば、大衆がそれに殺到する傾向があるんや。この初期段階にいるなら、たぶん同じくらいええものを試してみる価値はあると思うわ。
メガネは次の主要なコンピューティングプラットフォームになると思うけど、新しいプラットフォームは古いものを完全に置き換えることはあらへんな。たぶんこんな経験あると思うわ。デスクに座ってコンピューターがあるのに、まだ携帯を取り出して何かをすることがあるやろ？
過去10年のどこかで、モバイルが主要なコンピューティングプラットフォームになったんや。コンピューターをなくしたわけやないけど、コンピューターがあっても、携帯でもっと多くのことをするようになったんや。
メガネでも同じことが起こると思うわ。2030年代のどこかで、携帯を持ち歩いてるけど、ポケットに入れたままで、今は携帯でやってることをどんどんメガネでやるようになるやろうな。コンピューターと同じように、携帯の方がもっと豊かにできたり、何かの点でよりええ方法でできることもあるかもしれんけど、メガネがメインのコンピューティングプラットフォームになって、デフォルトで使うものになるんや。
そのうち、人々が携帯を持ち歩かんようになる時が来るかもしれんけど、それはまだまだ先の話やと思うわ。
AIと未来の組み合わせに懐疑的な人や、あんまりうまく受け入れられへんかった製品を見たい人のために、最近のデバイスを1つ紹介するで。これは消費者向けやなかったけど、デザインや機能性を考えると、かなり悪い評価を受けたんや。
人間は社会的な生き物やってことを理解せなアカン。みんなが「これはかっこええ」って思わんかったら、たぶん使わへんやろう。最初は変に見えるかもしれんけど、この技術を採用するのはかなり難しいんや。
この問題に苦しんだ最近の製品の1つが、スナップチャットのスペクタクルやったな。これはARメガネで、デザインと機能の面ではかなりええんやけど、唯一の問題は、ちょっと変に見えることやな。かなりでかくて、メタみたいなミニマルな美しさがないんや。
なんでこうなったんかよくわからんけど、ハードウェアを使ってちゃんと機能するメガネを設計するのは、開発者にとってはかなり難しいってことはわかるわ。達成せなアカン工学的な偉業を考えると、尊敬に値することやと思うわ。でも、人間は社会的な生き物やから、でかいメガネを頭につけて日常的に使うのは、かなり難しいことやと思うわ。
一部の企業にとっては、このメガネが小さくならん限り、テクノロジーと組み合わせても、見た目をよくすることほど役に立たへんやろうな。
ハードウェアが未来やないって思うてる人もおるかもしれんけど、最近、ジョニー・アイブがOpenAIとのAIハードウェアプロジェクトに関わってることが確認されたんや。元アップルのチーフデザイン責任者のジョニー・アイブが、サム・アルトマンとの関わりを認めたんや。この確認は、ニューヨーク・タイムズのデザイナーのプロフィールに載ってて、ほぼ1年前から始まった憶測に決着をつけたんや。
これはかなり野心的なプロジェクトやと思うわ。すでに見たように、こういうプロジェクトは失敗することもあるからな。知らん人もおるかもしれんけど、最近のHumane AIピンって会社があってん。でも、プロジェクトは成功せんかったんや。
ハードウェアAIデバイスを作るのは、ほとんどの人が思うてるよりずっと難しいと思うわ。でも、一つ言えるのは、車輪の再発明はせんほうがええってことや。AIピンの必要性はあんまり見えへんわ。家にスピーカーを置くか、メタみたいなメガネを使う方がずっと理にかなってるんちゃうか。
この会社が700ドル請求して、月24ドル払わなアカンってことを考えると、AIの急速な発展を考えると、この製品は早すぎたんやと思うわ。
ここで驚いたのは、パブスがP1.5を発表したことやな。これは最もクレイジーな発表の1つとは言えへんけど、かなり過小評価されてるんやと思うわ。この新しいソフトウェアは、人々が思うてるよりもずっとええんや。
このモデルを、後で物理を正確に操作できるような方法で訓練したことを考えると、すごいんや。このビデオの後半で見るけど、物体を溶かしたり、膨らませたりするような方法を提供してるんや。これめっちゃかっこよくて、きれいに見えるし、物体を膨らませるのも、これらの物体が本物やったらどんな感じになるかを正確に表現してるんや。
潰したり、押しつぶしたり、爆発させたりするのが見えるけど、これは新しい分野やな。わたしのコミュニティではすでに探索してて、GFX（Generative Video Effects）、つまり生成型ビデオエフェクトって呼んでるんや。
これがすごいのは、普通の生成AIビデオで見るようなミスに見えへんことなんや。これは、視覚効果を作ろうとするときに、生成AIテクノロジーが広く採用される最初の機会になると思うわ。
膨らませたり、潰したり、溶かしたりするのは、普通の方法やとかなり時間がかかるんやけど、GFXを使えば、プロンプトに必要なことを正確に指示した後、数秒でできるんや。
クリエイティブ業界の人やなくても、未来に備えるために絶対にせなアカンことが1つあるとしたら、それは未来の仕事に備えることやな。サム・アルトマンが未来の仕事に備える方法についての意見とアドバイスを述べてるから、聞いてみよか。
「言うべき一番明らかなことが2つあるわ。まず1つ目は、ツールの使い方を学ばなアカンってことや。わたしが学生の頃、コンピュータープログラミングはすでに人気があったけど、今ほどやなかったな。人々はAIについて言うてることの多くを、当時はプログラミングについて言うてたわ。『ああ、これは物事を大きく変えるやろう』とか『今の仕事の多くがなくなるやろう』とかな。
わたしにとって一番明らかやったのは、『そうなら、このツールの使い方をめっちゃ上手くなった方がええな』ってことやった。これが大きな影響を与えるんなら、そうやろ？振り返ってみると、それはほんまにええ決断やったわ。
コンピュータープログラミングの話は、めっちゃポジティブやったな。確かに一部の仕事はなくなったけど、もっとたくさんの新しいことが起こって、新しいことをする能力も与えてくれたんや。同じことが今も言えると思うわ。新しいツールの使い方にめっちゃ慣れておきたいわ。未来の仕事がどんな感じになるか、正確にはわからへんからな。
たくさんの仕事があることは間違いないし、その多くが今の仕事とは少し違う形になると確信してるけど、やることがなくなるってことはなさそうや。
2つ目は、人間が気にすることについて、深く真実な声明を言えるってことや。未来の人々が欲しがる体験、製品、サービスを作り出す方法を見つけること、人々にとって役立つ方法を見つけることは、めっちゃ価値のあることのように思えるわ。特定の知識よりもな」