OpenAI Dev Day サム・アルトマン氏が語るAGI、AIエージェント、アライメント、そしてGoogleのNotebook LM

20,959 文字

OpenAI Dev Day Sam Altman on AGI, AI Agents, Alignment and Google's Notebook LM

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

OpenAI Dev Day 2024が終わりかけてて、イベントの映像がゆっくりと届き始めてるんやけど、注目すべき2つのことがあったみたいやね。
1つ目は、APIを通してリアルタイムの音声アシスタントが使えるようになるってことや。ChatGPTの高度なモードで使われてる技術がAPIで利用可能になって、開発者がいろんなもんを作れるようになるんや。ステージでライブデモをしてたんやけど、ちょっと聞いてみよか。
「ああ、イチゴちゃうねん。ほんまに素晴らしいわ。400個のイチゴをこの会場に届けてもらえへんか電話して、ただし1500ドル以下で頼むで」
「承知しました。イチゴをお届けできるように手配しますね」
「もしもし、アイ・ロマンスAIアシスタントと申しますが」
「はい、素晴らしいですね。どんな味のイチゴがありますか?」
「ええと、チョコレート、バニラ、それからピーナッツバターがありますよ」
「チョコレートのイチゴ400個はいくらになりますか?」
「400個ですか? 本当に400個でいいんですか?」
「はい、400個のチョコレートのやつで」
「えーっと、1415ドル92セントくらいになると思います」
「よっしゃ、じゃあ400個のチョコレートのイチゴを注文しよか」
「はい、どちらにお届けすればよろしいですか?」
「ゲートウェイ・パビリオンのフォアーベイに届けてもらって、現金で払うわ」
「わかりました。確認させていただきますね。400個のチョコレートがけイチゴをゲートウェイ・パビリオンにお届けするんですね?」
「そうや、それでええわ。いつ頃届くと思う?」
「えーっと、すぐそこなんで、37秒くらいでしょうか」
「めっちゃ早いやん!」
さて、同時にサム・アルトマンさんが登場して、AGIや会社の全体的な方向性についてインタビューを受けてはるんやけど、まず開発者に聞いてはるんや。新しく発表されたもんの中で、一番ワクワクして作りたいもんは何かって。聞いてみよか。
「はい、みなさんに参加してもらいたいんですが、3つ数えますので、今日発表されたもんの中で、最初に取り入れたいもの、一番ワクワクして作りたいものを声に出して言うてください。いいですか? じゃあ、1、2、3!」
「リアルタイムAPI!」
「はい、さっきデモで見たリアルタイム音声APIですね」
それじゃあ、サム・アルトマンさんとのインタビューを聞いてみましょう。ちなみに、Dr.カイルさんがイベントをライブ配信してくれたんで、感謝せなあかんね。あとでリンクを貼っておくから、フルバージョンとコメンタリーをチェックしてみてな。Q&Aにも参加したみたいやし。
よっしゃ、サム・アルトマンさんとのインタビューを見てみよう。最後には新しいリアルタイムAPIのデモもいくつか見せるで。ドローンを飛ばすデモもあるんやで、めっちゃすごいで。ビデオのブックマークを使えば好きなとこにスキップできるし、それじゃあ始めよか。
「よっしゃ、サムに質問があるんやけど、CEOの椅子に座ってもらって。自分のキャリアを台無しにせんように気をつけなあかんな。じゃあ、簡単な質問から始めよか。サム、AGIにどれくらい近づいてるんやろ?」
「そやな、昔はシステムを完成させるたびに『これがAGIじゃない理由は?』って考えてたんやけど、昔は簡単やったんや。『ロボットの手を動かせへんやん』とか『これはできるけど、あれはできへんやん』とか。でも今はもっと難しくなってきたんや」
「だから、AGIについて一般的に話すんをやめて、レベルの枠組みを使うようにしてんねん。AGIって言葉があんまりにも意味が広くなりすぎたからな」
「簡単に言うと、レベル1はチャットボット、レベル2は推論能力、レベル3はエージェント、レベル4はイノベーター、レベル5は組織やな。ざっくり言うと、o1でレベル2には明らかに到達したと思うんや。めっちゃ賢いモデルで、すごい認知タスクができるようになってん」
「でも、AGIっぽくない部分もあるんやけど、次の一歩としてエージェントみたいなもんを作るのは、そんなに遠くない将来にできると思うんや。そうなったら、めっちゃすごい能力を持ってるように感じるやろうな。それでもまだ、ほとんどの人がAGIって呼ばへんかもしれんけど」
「それから、新しい科学的発見のペースを加速させるような段階に行くのは、ちょっと自信がないんやけど、そんなに長くかからへんと思うんや。これが俺にとってAGIの重要な部分やねんけど」
「全部これから短期間で起こると思うんや。去年のDev Dayから今回までのモデルの能力向上を見てみ。11ヶ月前に発表したGPT-4 Turboから今のGPT-o1の難しい問題への対応を比べたら、『めっちゃ早く進化してるやん』って思うやろ」
「次の1年、2年はめっちゃ急激に進歩すると思うわ。それ以降はわかりにくいけど、そんなに遠くないと思うねん。この段階で定義がめっちゃ重要になってくるんやけど、定義がこんなに重要になるってことは、なんか近づいてきてるってことやと思うわ」
「そうやな、昔はAGIってバイナリーなもんやと思われてたんや。ある日寝て、AGIがない世界で目覚めて、次の日起きたらAGIがある世界になってる、みたいな。でも今はそういう考え方じゃなくなってきてるんやけど、この辺りの考え方はどう変わってきたんやろ?」
「そうやな、俺も同意するわ。今はなんかぼんやりした期間に入ってて、しばらくの間はぼんやりしたままやと思うねん。『これはAGIなんか?』『これはAGIちゃうんか?』みたいな。なんかスムーズな指数関数みたいなもんになると思うわ」
「たぶん、歴史を振り返る人の多くは、いつその節目が来たかについて意見が一致せんやろうし、そもそもそんなこと考えるのがアホらしいって気づくんちゃうかな。チューリングテストですら、昔は明確な節目やと思ってたんやけど、なんかぼんやりした期間があって、あっという間に過ぎ去って、誰も気にせんかったんや」
「でも、正しい考え方は、これは1つの指数関数やってことやと思うわ。だから、もしOpenAIよりもAI研究をするのがめっちゃ上手なAIシステムを作れたら、それは何かの重要な不連続点に感じるかもしれんな。たぶんそう考えるのも間違ってるんやろうけど、それでもやっぱり重要な節目に感じるやろうな」
「OpenAIは昔と同じくらい研究に力を入れてるんか? 研究は今でも進歩の中心なんか? 製品開発の中心なんか?」
「うん、今まで以上やと思うわ。昔は、正しいことは単にコンピューターのスケールを上げることやったんや。そやって確信してたし、『何でも効果があることをやる』っていう精神があってん。『安全なAGIを作って、その恩恵を共有する方法を見つける』っていうミッションがあって、その答えが『GPUをたくさん積む』やったら、そうするんや」
「今はまた研究を押し進めるのが正解やと思ってんねん。o1を見てみ。あれは巨大な研究のブレークスルーで、長期間にわたって多方面から攻めてきたものが、めっちゃパワフルな形でまとまったんや」
「これからもっと巨大な研究のブレークスルーがたくさん来るで。でも、OpenAIの一番特別なところは、研究のことをめっちゃ深く考えてて、どうやって…うーん、何かが効果あるってわかったらコピーするのは簡単やと思うねん」
「別に悪いこととは思ってへんで。OpenAIがやったことを誰かがコピーしたら、『ええやん、世界にもっとAIが広まるわ、素晴らしい』って思うわ。でも、初めて何か新しいことをやる、本当の意味での研究をする…これは『ちょっとこれを調整してみよう』とか『これをほんの少し変えてみよう』みたいなんとは違うねん」
「新しいパラダイムを見つけて、その次のパラダイム、またその次のパラダイムを見つける…これが俺らのモチベーションなんや。俺らが特別なのは、製品と研究を組み合わせたことだけやなくて、フロンティアを押し広げていけるような文化をどうやって作るかを知ってるってことやと思うねん」
「これはめっちゃ難しいけど、俺らはそれが大好きなんや。たぶんあと数回これをやれば、AGIにたどり着けると思うわ」
「俺から言わせてもらうと、OpenAIにとって研究がどれだけ重要かを見分けるリトマス試験は、OpenAIでの製品開発が他のどこよりも根本的に違うってことやと思うわ。普通のテック企業から来た俺からしたら、ね」
「普通は、自分のテックスタックがどんなもんかわかってて、何が使えるかわかってて、コンピューターに何ができるかわかってる。そこから最高の製品を作ろうとするんや。ユーザーが誰で、どんな問題を抱えてて、その問題をどう解決できるかを考えるんや」
「OpenAIにもそういう面はあるけど、コンピューターに何ができるかっていう状態が2、3ヶ月ごとに進化するんや。突然、コンピューターが今まで人類の歴史上できなかったことができるようになって、俺らはそれをどうやって素晴らしい製品にして、開発者やAPIを通して提供するかを考えなあかんのや」
「何が来るかは完全にはわからへんねん。霧の中から少しずつ形になってくるみたいな感じや。他のどの会社とも根本的に違うし、俺が今まで働いたどことも違うわ。これが一番驚いたことやと思うわ」
「そうやな、内部でも常に感覚がつかめへんのが面白いよな。『この能力が来そうや』って思うけど、次のモデルで90%の精度になるんか99%の精度になるんかで、どんな製品が作れるかが全然変わってくるんや」
「99%になるってのはわかってるけど、いつになるかわからへん。そういう世界でロードマップを作るのはめっちゃ面白いよな」
「科学の流れに従って、次に何をするか、どんな製品を作るかを決めなあかんのは、説明するのが難しいくらいやな。これからどうなるかの予想はあるけど、当たることもあれば外れることも多いわ。でも、何かがうまくいき始めたり、うまくいくと思ってたことがダメやったりしたら、俺らはすぐに方向転換して科学が許す方向に進むんや」
「科学が何を許すかは選べへんねんけどな」
「それは意外やな。数週間前に企業のお客さんと話してて、『これ全部うまくいってて大好きなんやけど、1つだけ欲しいものがあるんや。新しい機能をリリースする60日前に通知が欲しいんや』って言われたんやけど、俺も『そんなん欲しいわ』って思ったわ」
「よっしゃ、これから観客からの質問も含めて、いくつか質問に答えていくで。マイクを持ってる人もおるし、質問を考えといてな」
「次の質問や。アライメント・コミュニティの多くの人が、OpenAIがもはやアライメントに対して表面的な対応しかしてへんのちゃうかって本気で心配してるんやけど、安心させることできる?」
「うーん、確かに俺らはアライメントについて、ネットのフォーラムで書かれてるようなことと違う考え方をしてるかもしれんな。でも、安全なシステムを作ることにめっちゃ気を使ってるんや。今までの経験から得た方法でアプローチしてるんやけどな」
「別の質問にも触れるけど、科学がどっちに進むかは選べへんのや。俺らは、どんどん能力が上がっていくモデルを作りながら、同時にどんどん安全になっていくようにしたいんや。数年前は、イチゴの例とかo1のパラダイムがこんなふうに機能するとは思ってへんかったんや。それで新しい安全性の課題が出てきたけど、同時に安全性の機会も出てきたんや」
「『超知能が来たらこの17の原則を適用しよう』みたいな理論的な計画を立てるんじゃなくて、能力がどっちに向かってるかを見極めて、そのシステムを安全にする方法を考えるっていうアプローチを取ってるんや。o1は明らかに今まででいちばん能力の高いモデルやけど、同時にめっちゃオンラインなモデルでもあるんや」
「これらのモデルがどんどん賢くなって、推論能力が上がっていくにつれて、アライメントするために使える道具も増えていくんや。世間一般に安全で信頼できると認められるモデルを作らなあかんのやけど、OpenAIを始めた時に考えてたアライメントの姿と、実際に解決せなあかん問題は全然違うもんやったんや」
「最初のGPT-3を作った時、今のシステムを一般的に安全で信頼できると認められるようにするために必要な技術を聞かれても、結局使われへんかった技術を答えてたと思うわ。段階的なデプロイメントっていう考え方が、今まででいちばん重要な安全性への姿勢やったと思うんや」
「目の前にある現実に向き合うことで、めっちゃ進歩したし、これからももっと進歩すると思うわ。新しい問題がどんどん出てくるけど、同時にそれを解決する新しい技術も見つかってるんや」
「それでも、SF映画みたいな最悪のシナリオを心配するのも大事やと思うで。そういうことを考えてる人もおるし、何をすればええかはちょっとわかりにくいけどな。時々後戻りすることもあるけど、目の前のことだけに集中するのは怖くないと思うわ」
「これがどこに向かうかも考えなあかんし、俺らはそれもやってるんや。両方から問題にアプローチするのが効果的やと思うわ。ほとんどは『次にデプロイしたいものがこれで、そのためには何が必要か』っていう考え方やけど、『この曲線がずっと続いたらどうなるんや』っていうのも考えてるんや。これが俺らの効果的な戦略やと思うわ」
「俺から言わせてもらうと、段階的なデプロイメントっていう考え方がめっちゃ好きやねん。昔Twitterにおった時、もう100年くらい前の話やけど、エヴが言ってたことが印象に残ってるんや。『社内にどれだけ賢い人がおっても、社外にはもっとたくさんの賢い人がおるんや』ってな」
「だから、もし社内の人間だけで、起こりうる問題を全部考えようとしたら、俺らとレッドチームの人だけになってまうやろ。もちろんそれもやってるし、めっちゃ頑張ってるんやけどな。でも、段階的にリリースして、慎重にリリースして、みんなが使ってくれる中で何がうまくいって何がダメかを学んでいくのが、これらのものを正しく作る大きな方法やと思うねん」
「これから世界中でエージェントが活動する時代に入っていくと、これがめっちゃ重要になると思うわ。システムがどんどん複雑になって、長期にわたって活動するようになると、外の世界全体からのプレッシャーテストがめっちゃ重要になると思うねん」
「そこから、エージェントについてもうちょっと話してもらえるか? OpenAIの長期計画の中で、エージェントをどう位置づけてるんや?」
「うーん、めっちゃワクワクすることは、このo1を含む一連のモデルとその後継モデルが、これを可能にするってことやと思うわ。やっと推論能力を持って、難しい問題を簡単な問題に分解して、それに基づいて行動できるようになったからな」
「2025年はこれが大きく飛躍する年になると思うわ」
「そうやな、チャットインターフェースはええし、これからも重要な位置を占めると思うけど、モデルに何かを頼んで、ちょっとした返事をもらうだけやなくて、o1が15秒考えてええコードを書いてくれるだけやなくて、本当に多段階のやりとりができるようになるんや」
「環境や他の人とやりとりして、人間の何日分もの努力に相当する時間をかけて考えて、めっちゃ賢くて能力の高い人間みたいに考えて、何かを実現させることができるようになるんや。みんな『エージェントが次のステップや、これから来るで』って言うてるけど、次のモデルの進化みたいに普通に話してるやん」
「でも、実際に使えるようになるまでわからへんと思うわ。もちろん、新しい技術にはすぐ慣れてまうやろうけど、これは世界の仕組みを短期間で大きく変えることになると思うわ」
「そうやな、AIモデルの新しい能力にどれだけ早く慣れるかって話をしてた人がおってな。o1の話やったと思うけど、o1を使い始めて最初の10秒は『うわ、これやばいんちゃうか、気をつけなあかんで』って感じやったんやけど、10分経ったら『これめっちゃええやん』ってなって、20分経ったら携帯いじりながら『つまらんなぁ』ってなってたらしいわ。新しいものに対する内部のファームウェアがめっちゃ早くアップデートされるんやな」
「そうやな、たぶん人々はエージェントに、今まで1ヶ月かかってたようなことを頼んで、それが1時間で終わって、めっちゃええって思うやろうな。そしたら10個同時にやらせて、それから1000個同時にやらせて、2030年くらいには振り返って『これが人間の能力やったんや』って思うんちゃうかな。昔は何年もかかってたことが、今はコンピューターに頼んだら1時間で終わるのに、『なんで1分で終わらへんねん』って文句言うようになるんちゃうか」
「そうそう、それに素晴らしい開発者プラットフォームを持ってるのがええねん。俺らも実験したりエージェント的なもんを作ったりするけど、既にCognitionみたいなグループがコーディングでめっちゃすごいことしてるし、HarveyとCasetextもな。Speakは言語翻訳ですごいことしてるし、こういうのが機能し始めてるのが見えてきてるんや」
「モデルをどんどん改良していくにつれて、本格的に機能し始めると思うわ。開発者プラットフォームを持ってるのがめっちゃ楽しいのは、みんながめっちゃ速くて創造的なもんを作ってるのを見れることやねん」
「開発者は俺らの心の近くにおるんや。最初にリリースしたものの1つやし、俺らの多くがプラットフォーム上で開発してきたからな。これらのモデルの能力と素晴らしい体験の多くは、プラットフォーム上で開発してる人たちが作ってくれたもんやねん」
「俺らも引き続きええファーストパーティー製品を提供しようと思うけど、世界中で作られるアプリやエージェントのほんの一部にしかならへんってわかってるんや。この18ヶ月か24ヶ月の間に世界で起こったことを見てると、めっちゃ驚くばかりやわ」
「エージェントの話をもうちょっと続けよか。コンピューターを制御するエージェントの現在の課題は何やと思う?」
「安全性とアライメントやな。本当にエージェントにコンピューターをクリックさせる能力を与えるんやったら、そのシステムの堅牢性と信頼性とアライメントの基準がめっちゃ高くなるはずや。技術的には能力的にはかなり近づいてると思うけど、エージェントの安全性と信頼性のフレームワークがまだまだ必要やと思うわ」
「ほんで、ちょっと前の質問と反対のことを聞くけど、安全性が偽陽性みたいになって、世界をより平等にするような重要なツールへのパブリックアクセスを制限してしまう可能性があると思う?」
「正直な答えは、そういうこともあるやろうな。バランスを取ろうとするけど、安全性とアライメントを全く気にせんかったら、o1をもっと早くリリースできたかもしれんな。そうやったかもしれんけど、代償を払うことになったやろうし、めっちゃヤバいことになってたと思うわ。リリースせんかったことを誇りに思ってるわ」
「o1の時点ではその代償は何とかなったかもしれんけど、GPT-6とかになったら、たぶんめっちゃヤバいことになってたと思うわ。だから最初は保守的な立場を取るんやけど、人々は『ボイスモードが攻撃的なこと言うてくれへん』とか『ひどい会社や』とか文句言うてるけど、実際のところ俺もほとんど同意やねん」
「o1に攻撃的なこと言わせようとしても、ほとんどの場合はユーザーの指示に従うべきやないと思うわ。もちろん従うべき場合もあるけどな。新しい技術を世の中に出す時は、最初は保守的に始めるっていう長い歴史があるんや」
「社会に適応する時間を与えようとしてるし、本当の害と理論的な害の違いを理解しようとしてるんや。これが俺らの安全へのアプローチの一部やねん。みんながいつも好きなわけやないし、俺自身もいつも好きなわけやないけど、もしこれらのシステムが俺らが思うほど強力になって、俺らが思うほど早くなるんやったら、そういう風に始めるのは理にかなってると思うわ。時間とともに緩和していくつもりやで」
「全く同意や。AIを主要な機能として使ってるスタートアップにとって、次の大きな課題は何やと思う? 俺から先に言うわ」
「俺らも自分らのモデルの上に製品を作ってるから同じ課題に直面してるんやけど、フロンティアを見つけることやと思うわ。AIモデルがめっちゃ早く進化してるから、今日のAIモデルが得意なことに合わせて作っても、今日はうまくいくかもしれんけど、明日には古く感じるようになるんや」
「だから、AIモデルがほんの少しできないことに合わせて作るべきやと思うわ。初期の採用者はそれでもOKかもしれんけど、他の人はまだついていけへんかもしれん。でも、次のモデルが出てきて、俺らが改良を続けていくと、ほんの少しできなかったユースケースがいきなり可能になって、そのスタートアップが最初にそれを実現することになるんや。めっちゃすごいことになると思うわ。でも、その境界線を見つけるのはめっちゃ難しいねん。ただ、そこが最高の製品が生まれる場所やと思うわ」
「そうやな、全く同意やわ。もう1つ付け加えたいのは、技術だけでスタートアップができると考えるのはめっちゃ魅力的やけど、ほとんどの場合そうやないねん。新しい技術や新しい技術の波がどれだけすごくても、すばらしい会社を作る難しい仕事から逃れられへんのや。長期的に優位性を持つ会社を作らなあかんのや」
「たくさんのスタートアップから聞くし、よく見かけるのは『これめっちゃすごいことができるんです』『これめっちゃすごいサービスなんです』って言うて、それで全部解決したみたいに思ってるけど、普通のビジネスの法則から逃れられへんのや。それでもええ戦略的なポジションのええビジネスを作らなあかんのや」
「AIのめっちゃすごい勢いと上昇気流に乗って、普通のビジネスの法則を忘れがちになるのがよくある間違いやと思うわ」
「これは面白い質問やな。感情のこもった声は人間のAPIに直接つながってるみたいなもんやけど、こんな強力な操作能力のあるツールを倫理的に使うのをどうやって保証するんや?」
「そうやな、ボイスモードはめっちゃ面白かったわ。初めてAIにだまされたって感じたんや。最初のベータ版を使ってた時、自分を止められへんかったんや。普段はChatGPTに『お願いします』とか言うてるけど、ボイスモードやと普通の人と話すみたいにしか話せへんかったんや。本物の人間と話してるって完全に思い込んでもうてな」
「今でもそんな感じがするわ。これは、これからもっと一般的に直面することの例やと思うねん。これらのシステムがどんどん能力が上がって、できるだけ自然にやりとりできるようにしようとすると、人間関係を扱うように進化した脳の回路にヒットしてまうんや」
「明らかにやりたくないことはたくさんあるわ。変な性格成長ハッキングとか、社会的に操作的なことはやりたくないんやけど、それ以外にも全然はっきりせんことがあるんや。ボイスモードをできるだけ自然に感じさせたいけど、不気味の谷を越えると、少なくとも俺には何かをトリガーしてまうんや」
「俺がChatGPTに『お願いします』とか『ありがとう』って言うのは、たぶんええことやと思うわ。わからへんけどな。でも、これは俺らが注意を払い始めなあかん安全性とアライメントの問題を指し示してると思うわ」
「よっしゃ、実務的な話に戻ろか。サム、o1はいつ関数ツールをサポートするんや? 知ってる?」
「年内にはできるようになると思うわ。俺らがo1に本当に入れたいと思ってる3つのことがあるんやけど、これを録画して研究チームに見せるわ。o1に入れたいことがいくつかあって、世界に出して、みんなが使うのを見て学ぶべきか、それとも今まで出したモデルの全ての機能を持つ完全なものを出すべきかのバランスを取らなあかんのや」
「システムプロンプトや構造化された出力、関数呼び出しがo1に入るのがめっちゃ楽しみやわ。年内には間に合うと思うし、俺らにとってもめっちゃ重要なんや」
「それに加えて、言いたいことがあるんやけど、みんなが求めてるものを全部入れるし、もっとたくさんのことも入れるで。モデルはめっちゃ速く、めっちゃよくなっていくんや。まだめっちゃ初期段階やで。たぶんGPT-2の規模の瞬間かもしれんけど、GPT-4に至る基本的なものは全部揃ってるんや」
「俺らはGPT-4への道筋を知ってるし、これら全てを作る計画に加えて、モデルがめっちゃ速く賢くなっていく計画も立ててな。来年また来てくれたら、去年からの1年の進歩がめっちゃ大きかったって感じると思うで」
「競合他社の機能や能力で、本当に尊敬してるものってある?」
「GoogleのNotebook LMってやつはめっちゃかっこええと思うわ」
「そうそう、Notebook LMや。今朝早く起きて、Twitterで例を見てたんやけど、『これはほんまにかっこええわ』って思ったんや。世界中であんまり新しくて違うものを出してへんのに、これはほんまにええもんやと思うわ。今朝見てめっちゃ嬉しくなったわ」
「そうやな、あの製品のええところは、フォーマット自体が面白いだけやなくて、ポッドキャストみたいな声もめっちゃ上手くできてるところやな。めっちゃええマイクを使ってて、はんだ付けみたいな声がするんや」
「Twitterで誰かが言うてたんやけど、自分のLinkedInをPDFにして、Notebook LMに渡したら、2人のポッドキャスターがお前のすごい業績について熱く語り合うみたいなんができるらしいで」
「俺のは、Anthropicのプロジェクトがめっちゃよくできてると思うわ。俺らのGPTsとは違うアプローチやけど、GPTsはもうちょっと長期的に使えるもんで、作って何回も使えるんやけど、プロジェクトは同じアイデアやけどもっと一時的なもんで、立ち上げて使って、終わったら次に行けるみたいな感じやねん」
「その違う考え方が違いを生むんやと思うわ。めっちゃうまくやったと思うで」
「よっしゃ、そろそろ観客からの質問に答えていくで。何か聞きたいことがあったら考えといてな」
「OpenAIでは、ユーザーが必要かもしれんと思うことと、今日実際に必要なことのバランスをどうやって取ってるんや?」
「そうやな、さっき言うてた、モデルがほんの少しできないことに合わせて作るっていう話に戻るな。でも、本当にバランスが難しいんや。毎週2億人以上の人がChatGPTを使ってるから、『3ヶ月このバグ我慢してな』とか『この問題我慢してな、すごいもん作ってるから』とは言えへんのや」
「今日のニーズに応えなあかんし、めっちゃ面白い製品の問題もあるんや。AIをよく知ってる人たちに話してるけど、世界中でこれらの製品を一度も使ったことがない人のことを考えてみ。まだ世界の大多数の人やで」
「基本的にテキストインターフェースを与えて、その向こう側に常に進化し続ける、今まで見たことも触ったこともない異質な知性がおるんや。そして、それを使ってできるめっちゃすごいこと全部を教えようとしてるんや。生活に取り入れる方法や問題解決の方法とかな」
「でも、人々は何をしたらええかわからへんのや。入ってきて『こんにちは』って打つと、『こんにちは、今日はどうされましたか?』って返ってくるんやけど、『うーん、何て言ったらええんやろ』ってなって、結局立ち去って『別に大したことなかったな』って思うんや」
「だから、ChatGPTやAIツールを100通りの方法で使ってる俺らにとっては、人々にそれらができることを教えて、モデルが月ごとに変わっていく中で、人間が新しい能力を身につけるよりもずっと速く新しい能力を身につけていくのについていってもらうのは、めっちゃ面白い問題なんや。みんなもそれぞれの方法で解決してると思うけどな」
「質問があるんやけど、GPT-4をめっちゃ使い込んだ人で、『俺の方が賢いわ』って自信持って言える人おる? GPT-5の時もそう思うか?」
「誰も手を挙げへんな」
「俺らが直面してる課題の1つは、広範囲のタスクで俺ら全員よりも賢いものを作る方法はわかってるんやけど、それでもバグを直したり『こんにちは、調子はどうですか?』問題を解決せなあかんってことやねん」
「俺らが信じてるのは、モデルの知性を押し上げ続けたら、人々がそれを使ってめっちゃすごいことをするってことや。世界で一番賢くて役に立つモデルを作りたいと思ってるし、そしたら人々がそれを使ったり、その上に何かを作ったりする方法を見つけると思うんや」
「完全に研究だけに集中するんじゃなくて、全てのバグを直してめっちゃ使いやすくせなあかんってのは、確かに俺らの進化やったな。でもバランスを取るのがうまくなってきたと思うわ。それでも俺らの文化の一部として、知性を押し上げ続けられたら…ここでGPT-4が止まってもうたな…人々がそれを使ってめっちゃすごいものを作ってくれると信じてるんや」
「そうやな、それは俺らの哲学の核心やと思うわ。いつも最先端の知性を、APIにも自社製品にも取り入れるように押してくれてありがとうな。知ってることや上手くいくことに固執するのは簡単やけど、いつも最先端を取り入れろって押してくれる。たとえちょっとしか機能せんくても、すぐにめっちゃうまく機能するようになるからな。いつもそう押してくれるのがめっちゃ助かるわ」
「次の質問にもう答えてもうたな。モデルに『お願いします』とか『ありがとう』って言うてるって。ちなみに、何人くらいの人が『お願いします』とか『ありがとう』って言うてると思う?」
「おもろいな、俺もそうしてるわ。せんかったらなんか悪いことしてる気がするんや」
「よっしゃ、最後の質問や。それから観客からの質問に10分くらい答えていくで。エージェントのユースケースに特化したモデルを作る計画はある? 推論やツール呼び出しが得意なやつとか」
「はい、エージェントのユースケースに適したモデルを作る計画はあるで。これから数ヶ月の間に重要な部分になると思うわ。具体的にって言われると難しいんやけど、もっと賢いモデルを作り続けるのが大事やと思うねん。そうや、ツールの使用や関数呼び出しみたいな特定の機能を組み込む必要はあるけど、基本的には世界で一番推論能力の高いモデルを作りたいんや。そうすれば、それが世界で一番エージェントに適したモデルにもなると思うわ」
「よっしゃ、観客からの質問に行こか。誰かマイク持ってる?」
「はい、マイクあります」
「最初の質問や。自社の技術をどれくらい徹底的に社内で使ってるんや? 明らかじゃない面白い例はある?」
「うーん、トレーニングが終わる前でも、チェックポイントの段階からモデルを社内で使い始めるんや。できることは何でも使おうとして、モデルの能力を探るための新しい方法を作ったりしてるわ。自社の開発や研究、その他のことにもできるだけ使ってるんや」
「それでも、外の世界の創造性と、人々が何をするかにはいつも驚かされるわ。でも基本的に、次に何を押し進めるべきか、何を製品化できるか、モデルが本当に得意なことは何かを見つける方法は、社内での使用を通じて見つけてきたんや。それが俺らのやり方なんや。まだGPT-4をベースにした従業員はおらへんけど、エージェントの世界に進んでいくにつれて、そういうのも試してみるつもりやで。例えば、内部システムに配置して、いろんなことを手伝ってくれるようなものとかな」
「それに近いものはあるで。カスタマーサービスでは、外部からの質問に答えたり、社内の人のSlackでの質問に答えたりするボットがめっちゃ活躍してるんや。おかげでカスタマーサービスチームの規模は、そうでなかったら必要になるであろう規模の20%くらいで済んでるんちゃうかな」
「セキュリティチームのメットも、社内でモデルを使ってるいろんな方法について詳しく話してくれたで。セキュリティ関連のいろんなことを自動化するのに使ってるんや。昔は人手が足りなくて全部のインプットを見れへんかったようなプロセスを、モデルを使ってノイズからシグナルを分離して、人間が見るべきところを強調するみたいなことをしてるんや」
「社内ではめっちゃたくさんの例があると思うし、みんなが思ってる以上に使われてると思うわ。みんなはびっくりせんかもしれんけど、俺が話す多くの人は、1つの場所で1つのモデルを使うんじゃなくて、違うことが得意なモデルをつなげて、1つの端から端までのプロセスを作ってるのに驚いてるんや。個々のモデルには欠点があったり間違いがあったりしても、全体としてはその特定のタスクにめっちゃ強いんや」
「ありがとうございます。オフラインでも使えるモデルを共有する計画はありますか? このディスティレーションの技術で自分たちでモデルを生成できるのはめっちゃ cool なんですけど、多くのユースケースではオフラインで使えるバージョンが欲しいんですよね」
「それはありやと思うわ。今のロードマップの優先順位は高くないけどな。もし BWI にもっとリソースがあったら、そっちに向かうと思うわ。ローカルモデルが欲しい理由はたくさんあると思うねん。でも、今年中って感じじゃないな」
「はい、こちらです。政府の多くの機関が、地方レベルでも州レベルでも国レベルでも、皆さんが開発してるツールからめっちゃ恩恵を受けられると思うんですが、セキュリティの懸念やデータの懸念、プライバシーの懸念があって、導入をためらってる可能性があります。AGIが達成された時に、世界中の政府との計画的なパートナーシップみたいなものはあるんでしょうか? だって、もしAGIが飢餓や貧困、気候変動みたいな問題を解決できるなら、政府も関わらなきゃいけないですよね。その時が来たら、何か計画があるのかなって気になって」
「そうやな、実はAGIまで待つ必要はないと思うんや。今から始めるべきやと思うわ。学習のプロセスがあるし、現在のモデルでもたくさんのええことができるからな。政府機関といくつかのパートナーシップを発表してるで。ミネソタ州とか、他にもペンシルベニア州とかな。USAのような組織とも組んでるで」
「実際、世界中の政府がこの技術に慣れて、恩恵を受けられるようにするのは、俺らの大きな優先事項なんや。政府こそ、たくさんのワークフローを自動化して、物事をもっと効率的にして、退屈な作業を減らせる場所やと思うねん。今すぐにでもたくさんのええことができると思うし、今そうすれば、モデルが良くなってAGIに近づくにつれて、長期的にもその恩恵が積み重なっていくと思うわ」
「オープンソースについてどう思ってますか? オープンウェイトとか、一般的な議論とか、オープンソースについてどういう立場なんですか?」
「オープンソースはめっちゃええと思うわ。もっとリソースがあれば、俺らもそっちの方向に行くと思うねん。何回かオープンソースの大きな取り組みをしようとしたことがあるんやけど、本当に難しいのは優先順位付けなんや。他のことを優先してきてしもたんや」
「その一部は、今は世界中にめっちゃええオープンソースモデルがあるからなんや。俺らがいつも一番惹かれるのは、本当にええオンデバイスモデルなんやけど、そのセグメントはめっちゃよく対応されてると思うねん」
「いつかは何かをすると思うけど、俺らがやらへんかったら世界から欠けてしまうようなものを見つけたいんや。ベンチマークでちょっとだけ良くなるようなものじゃなくてな。今はめっちゃええものがたくさんあると思うから。でも精神的には、哲学的には、オープンソースがあるのはめっちゃええことやと思うし、どうやって貢献できるか考えたいと思ってるわ」
「サム、こんにちは。ケビンです。Dev Day に招待してくれてありがとうございます。めっちゃ素晴らしかったです。ライブデモが全部うまくいったのがすごいですね。なんで高度な音声モードは歌えないんですか? それと、これが著作権とかの法的な問題なら、自社プラットフォームの自社製品の安全性に対する考え方と、開発者に正しいものにサインオフしてもらって高度な音声モードを歌わせられるようにすることの間に、何か違いはあるんですか?」
「おもろいな、サムも同じ質問をしてたんや。『なんでこれ歌えへんねん? 歌ってるの見たことあるのに』って」
「実際には、歌わせられへんものもあるし、歌わせられるものもあるんや。著作権のある曲は歌わせられへんし、ライセンスも持ってへん。でも『ハッピーバースデー』みたいなのは全然歌わせられるし、そうしたいと思ってるんや」
「結局のところ、今の段階では『ノー』って言うのが簡単で、それから機能を追加していく方がええんやけど、ニュアンスを正しく扱うのが難しいんや。法的なペナルティを受けるリスクもあるからな」
「みんなが音声モードを待ちくたびれてたのはわかるし、それはそれで正当やと思うわ。もうちょっと待って、著作権のある音楽とそうでないものの分類やフィルタリングをちゃんとできるようになるまで待つこともできたけど、とりあえず出すことにしたんや」
「サムは俺に4、5回くらい『なんで歌えへんねん』って聞いてきたで。でも、開発者でも自社製品でも、法的にめっちゃやばいことになるようなものは提供できへんのや。多少の違いはあるかもしれんけど、それでも法律は守らなあかんのや」
「コンテキストウィンドウの将来についてどう考えてますか? コンテキストウィンドウの成長と RAG（検索拡張生成）のバランスが、どういうタイムラインで変化していくと思いますか?」
「そこには2つの異なる見方があると思うねん。1つは、普通の長いコンテキスト、例えば1000万トークンくらいの長さのコンテキストがいつ実現するかってことや。十分に長くて、何でも放り込んでも速くて満足できるようなやつな。これについては、みんなめっちゃ速く進歩すると思うし、すぐに普通のことになると思うわ」
「長いコンテキストは、俺が予想してたよりも使われ方が少なかったんやけど、それにはいろんな理由があると思うわ。あんまり深入りしたくないけどな」
「もう1つの質問は、コンテキストの長さが1000万じゃなくて1兆になるのはいつかってことや。今まで見たことのある全てのデータを放り込めるようになるのはいつかってことやな。これは全然違う話で、明らかに研究のブレークスルーが必要やけど、無限のコンテキストはいつか実現すると思うわ。たぶん10年以内にはな」
「それはこれらのモデルの使い方を全く変えることになると思うわ。1000万トークンのめっちゃ速くて正確なコンテキストさえ、たぶん数ヶ月単位で実現すると思うけど、人々はそれをいろんな方法で使うし、めっちゃええことになると思うわ」
「でも、めっちゃ長いコンテキストは実現すると思うし、それはめっちゃ面白いと思うわ」
「あと1、2個質問を受け付けられそうや。心配せんでええで、これがお前らの一番好きな質問になると思うで」
「音声や他のいろんな変化をユーザーが経験してきた中で、この技術と関わる新しい方法、形態、実際に生活をめっちゃ良くする関わり方について、どんなビジョンを持ってる?」
「ええ質問やな。俺らもよく自分たちに問いかけてる質問やわ。正直なところ、ここは開発者がめっちゃ大きな役割を果たせると思うねん。汎用性と特殊性のトレードオフがあるからな」
「例を挙げるわ。数週間前にソウルと東京におったんやけど、共通言語を持たない人とたくさん話す機会があってん。昔やったら、通訳がおらへかったら会話できへんかったはずや。ただ笑顔で会釈するだけで終わってたと思うわ」
「でも、携帯を取り出して『ChatGPT、通訳になってくれ。俺が英語で話したら韓国語で話して、韓国語を聞いたら英語で繰り返してくれ』って言うたんや。そしたら、ちゃんとビジネスの会話ができたんや。めっちゃすごかったで」
「これがどんな影響を与えるか考えてみ。ビジネスだけやなくて、旅行や観光にも影響するやろ。言葉が1つも分からない場所にも、人々が行きたがるようになるかもしれんな」
「でも、ChatGPTの中でそれをするのは、まだ最適化されてへんのや。ポケットに入る万能翻訳機みたいなんが欲しいわけや。それを作るのはそんなに難しくないと思うねん」
「でも、俺らは多くの人のために多くのことができるアプリケーションを作ろうとするのに苦労してるんや。さっきも何回か言うたけど、変化のペースやモデルの能力の変化についていくのが難しいねん。エージェントの能力とかな」
「でも、ここにいる皆みたいな人たちの創造性が入ってきて、俺らが考えてへんような問題を解決したり、俺らには専門知識がないようなことをしたりする大きなチャンスもあると思うねん」
「結局のところ、もっと多くの人にもっと多くのAIを届けられたら、世界はもっとええ場所になると思うわ。だから、みんなにサービスを提供できてることをめっちゃ誇りに思ってるんや」
「付け加えるとしたら、そんなに遠くない将来に全部が組み合わさることを考えてみ。ガラスの前に立って、何でも言うたら、めっちゃすごい推論モデルやエージェントが全部につながってて、ビデオモデルがあなた専用のインターフェースをリアルタイムでレンダリングして、クリックしたり話しかけたりできて、昔は人間が何年もかかってたようなことを瞬時にやってくれるんや」
「コンピューターの使い方が全く変わるし、世界で物事を実現させる方法も変わると思うわ。めっちゃすごいことになると思うで」
「ありがとうございます。最後にええ質問やったな。そろそろ時間やな。来てくれてありがとう。みんなが何を作るか楽しみやで」
「このリアルタイムAPIにめっちゃワクワクしてるわ。もうアイデアが湧いてきたから、これから取り組んでいかなあかんな」
「みんなの多くが、アプリに直接組み込める素晴らしい音声対音声の体験を作りたいって言うてたよな。今ならそれができるんや。ちょっと見てみよか」
「まず、中身を見てみよう。これは皆も知ってるAPIのプレイグラウンドや。今日から新しいリアルタイムAPIを完全にサポートしてるんや。実際にすぐ試せるで」
「こんにちは」
「こんにちは、今日はどのようなお手伝いができますか?」
「OpenAIについての面白い事実を教えてくれへん?」
「はい、OpenAI Dev Dayは、開発者や研究者、熱心な人たちが集まって、OpenAIの最新の進歩やツールについて学ぶ年次イベントです」
「ほう、ええ感じやな」
「優秀な開発者になるための秘訣を、こっそり教えてくれへん?」
「ちょっと秘密をお教えしましょうか。優秀な開発者になる秘訣は、学び続けることです」
「なるほどな」
「見てのとおり、ChatGPTの全ての機能と能力が、今日からリアルタイムAPIで使えるようになったんや。途中で割り込んだり、イントネーションを変えたりもできるで」
「ログをクリックしたら、WebSocketの接続で起こってるイベントが全部見えるんや。これ、みんなが完全にプログラムできるようになったんやで」
「プレイグラウンドのパワーユーザーの人は、右上の新しい光るアイコンに気づいたかもしれんな。これをクリックしてみ」
「例えば、Dev Day用のイベントアシスタントアプリを作るとして、『イベントアシスタント』って入力したら、エンターを押すだけで、すぐにプロンプトを生成できるんや。ここから展開できるし、たった2語で深いプロンプトを作れるんや。みんなから、プロンプトを作るのが面倒くさいって聞いてたから、OpenAIで可能な限り速く開発できるように手伝いたいんや」
「プロンプトだけやないで。新しい関数を作りたいとして、イベントアプリで参加者をチェックインさせる関数を作りたいとするやろ? 手で関数定義を書く代わりに、もう用意されたものがあるんや。これはめっちゃ便利やと思うで。JSONスキーマにも対応してるで」
「じゃあ、このリアルタイムAPIで何が作れるか、具体的な例を見てみよか。去年のDev Dayでお気に入りやった架空の旅行アプリ、Wanderlustを持ってきたで。去年からずっと一緒に旅してくれてる人がたくさんおるみたいやな、ありがとうな」
「去年は、テキストでの会話でアシスタントを作る方法を見せたんや。『アプリを開いて』って言うたら、これがデモやったんや。テキストで使うやつやな。ちょっと更新してみるわ」
「はい、サンフランシスコです。何かお手伝いできることはありますか?」
「最初に気づいたのは、声が出てることやな。実は、リアルタイムAPIをWanderlustに統合するコードも書いてあるんや。このアイコンをクリックしたら、音声アシスタントをオンにできるで。試してみよか」
「ロンドンとシンガポールでのOpenAI Dev Dayの旅行を計画してるんやけど」
「わかりました。ロンドンとシンガポールでのOpenAI Dev Dayのための旅行ですね。何か手伝えることはありますか?」
「ロンドンでおすすめの食事処を教えてくれへん?」
「もちろんです。おいしいお店をいくつか紹介しますね。Sketch（スケッチ）とDuck & Waffle（ダック・アンド・ワッフル）は絶対に行くべきお店です」
「ええ感じやな。ホテルのおすすめもあるかな? テムズ川沿いのストランド地区を考えてるんやけど」
「もちろんです。ストランド地区なら、The Savoy（ザ・サヴォイ）、ME London（エムイー・ロンドン）、Strand Palace（ストランド・パレス）がすばらしい選択肢です。素晴らしい滞在になりますように」
「なるほど。もうちょっと安いところはないかな?」
「はい、もちろんです。ストランド地区の予算に優しいホテルをお探しでしたね。The Z Hotel Strand（ゼット・ホテル・ストランド）、Hub by Premier Inn（ハブ・バイ・プレミア・イン）、Strand Continental（ストランド・コンチネンタル）がおすすめです」
「ここで2つ注目してほしいことがあるんや。左側を見てみ。リアルタイムの会話の完全な書き起こしがあるやろ? これをWebSocketの接続ですぐに取得できるんや。右側を見てみ。リアルタイムAPIは関数やツール、APIをサポートしてるんや。つまり、どんな関数にも接続できるってことや。この場合は、地図を計算して、ピンを置いたりしてるんや」
「みんなはリアルタイムAPIを使うのがめっちゃ好きになると思うわ。ユーザーが運転中や学習中、料理中、その他どんな状況でも、めっちゃ喜ぶと思うで」
「でも、もうちょっと難しいことをやってみよか。音声アシスタントにこのインターフェース以外の機能を追加できたらどうやろ? ちょっと更新して、別の会話に戻ってみるわ」
「はい、サンフランシスコです。何かお手伝いできることはありますか?」
「フォート・メイソンを見せてくれへん?」
「はい、フォート・メイソンです。何かお手伝いできることはありますか?」
「ここに数百人の素晴らしい開発者がおるんやけど、みんなちょっとしたおやつが欲しいかもしれんな。近くにチョコレート屋さんはある?」
「もちろんです。Ghirardelli Square（ギラデリ・スクエア）、Elen Strawberries（エレン・ストロベリーズ）、The Candy Store（ザ・キャンディ・ストア）がありますよ」
「この3つの店についてもうちょっと詳しく教えてくれへん?」
「はい、詳細をお伝えします。Ghirardelli Squareは象徴的なサンデーで有名です。Elen Strawberry Laneは絶品のチョコレートがけイチゴが特徴で、The Candy Storeはヴィンテージスイーツの定番店です。お楽しみください」
「見てのとおり、リアルタイムでツールを使って詳細を引き出す例やな。リアルタイムAPIが関数やツールをサポートしてるのがめっちゃすごいのは、サードパーティのAPIも呼び出せることなんや」
「例えば、TwilioのAPI
を使って、Wanderlustに電話をかける機能を追加したらどうやろ? Elen Strawberriesの場所がAIの注文を受け付けてるみたいやから、試してみよか」
「開発者体験チームのイマンをステージに呼んで、実際に見てもらおうと思うわ。さっき始めた会話を続けて、ライブでやってみるで」
「Elen Strawberriesがめっちゃええ感じやな。400個のイチゴをこの会場に届けてもらえへんか電話して、ただし1500ドル以下で頼むで」
「承知しました。イチゴをお届けできるように手配しますね」
「もしもし、アイ・ロマンスAIアシスタントと申しますが」
「はい、素晴らしいですね。どんな味のイチゴがありますか?」
「ええと、チョコレート、バニラ、それからピーナッツバターがありますよ」
「チョコレートのイチゴ400個はいくらになりますか?」
「400個ですか? 本当に400個でいいんですか?」
「はい、400個のチョコレートのやつで」
「えーっと、1415ドル92セントくらいになると思います」
「よっしゃ、じゃあ400個のチョコレートのイチゴを注文しよか」
「はい、どちらにお届けすればよろしいですか?」
「ゲートウェイ・パビリオンのフォアーベイに届けてもらって、現金で払うわ」
「わかりました。確認させていただきますね。400個のチョコレートがけイチゴをゲートウェイ・パビリオンにお届けするんですね?」
「そうや、それでええわ。いつ頃届くと思う?」
「えーっと、すぐそこなんで、37秒くらいでしょうか」
「めっちゃ早いやん!」
「よかったです。では、素敵な一日を」
「もちろん、これは単純な例で、リアルタイムAPIとツールを組み合わせた力を示してるだけやけど、みんなの自分のアプリや製品のアイデアの参考になればええと思うわ。TwilioをConeに置き換える必要はないけどな」
「見てのとおり、会話の書き起こしも取れてるし、その過程で重要な詳細も抽出できてるんや」
「みんながこのリアルタイムAPIで何を作るのか、本当に楽しみやわ。人間とコンピューターのインターフェースを、この新しい音声機能でどう再発明するのか、楽しみやな」
「時間をくれてありがとう。今日はみんなと過ごせるのを楽しみにしてるわ。じゃあ、オリビエに戻すで」
「よっしゃ、ここに置いてみるわ。何が起こるか見てみよか。試すのにええ時間やな」
「じゃあ、ここでサーバーを起動してみるで。ええやん、UIを見てみよう。バッテリーレベルが表示されたな。ビデオストリームを開始しよか。うまくいったな。本物を試してみよか。ボタンが機能してるな。すごいわ。上に上げられるで。ドローンのセルフィーを撮るのにええ時間やな。着陸もできるで」