OpenAI DevDay 2024 | Sam AltmanとKevin Weilのファイアサイドチャット

15,444 文字

OpenAI DevDay 2024 | Fireside chat with Sam Altman and Kevin Weil
Fireside chat with OpenAI Leaders

Kevin: こんにちは。
Sam: 調子はどう?みんなに会えて嬉しいよ。
Kevin: 来てくれてありがとう。では、もう皆さんご存知だと思いますが、私はKevin Weilで、OpenAIのチーフプロダクトオフィサーです。素晴らしい研究チームの研究成果を、皆さんが日々使用する製品やAPIに変換する仕事をさせていただいています。
まずは会場の皆さんに参加していただきたいと思います。3つ数えますので、今日発表されたものの中で、最初に何を取り入れたいか、何の開発に一番ワクワクしているかを、みんなで声を出してください。いいですか?1、2、3。
Sam: それを聞けて嬉しいね。
Kevin: 個人的には、distillation製品にすごくワクワクしています。本当に面白いものになると思います。Advanced Voice Mode、リアルタイムAPI、そしてvision fine-tuningで皆さんが何を作るのかも見てみたいですね。では、Samに質問していきましょう。私のCEOをここにお招きしています。失態を演じないように気をつけましょう。では簡単な質問から始めましょう。Sam、AGIにどれくらい近づいていますか?
Sam: 以前は、システムを完成させるたびに「どういう点でこれはAGIではないのか?」と考えていました。ルービックキューブをやったり、Dotabodをやったりする小さなロボットハンドを作った時は、いくつかのことはできるけど、明らかにAGIではないと簡単に言えました。今はその判断が難しくなってきています。なので、AGIを一般的な概念として語るのをやめて、レベルの枠組みを使うようにしています。AGIという言葉があまりにも過剰に使われすぎているからです。
簡単に説明すると、レベル1はチャットボット、レベル2は推論能力、レベル3はエージェント、レベル4はイノベーター、レベル5は組織というように大まかに分けています。o1でレベル2には明らかに到達したと私たちは考えています。本当に印象的な認知タスクをこなせます。とても賢いモデルです。
しかし、いくつかの重要な点でAGIのようには感じません。ただ次のステップとして、エージェントのような機能を持たせること、つまり私たちのレベル3に到達することは、それほど遠くない将来に実現できると思います。そうすれば驚くほど高い能力を持つことになるでしょう。その時点でもまだ多くの人はAGIとは呼ばないかもしれませんが、これは重要な一歩だと感じるはずです。
そこから、私にとってAGIの重要な部分である、新しい科学的発見のペースを本当に加速できるものへの飛躍については、少し不確実性を感じています。ただし、それも長い時間はかからないでしょう。これらすべてが今後急速に進展していくと考えています。前回のDevDayから今回までのモデル能力の進化を考えると、難しい問題に対して11ヶ月前に発表した4 Turboからo1を比べてみると、「wow、これは本当に速く進んでいる」と感じるはずです。
次の1年、2年は非常に急速な進歩があると思います。その先は確実性を持って予測するのは難しいですが、とても長くはかからないでしょう。この時点で定義が本当に重要になってきます。定義がこれほど重要になってきたということは、何らかの形で近づいているということなのかもしれません。
Kevin: そうですね。以前はAGIについて、それはバイナリなもので、ある日寝て、AGIがない状態で目が覚めたら次の日にはAGIがある、というような感覚がありました。今はそういう考え方はしていないと思いますが、この考え方はどのように進化してきましたか?
Sam: そうですね。その点には同意します。しばらくの間、非常にぼんやりとした期間が続くと思います。これはAGIなのか、まだAGIではないのか、あるいはどの時点でAGIになったのか、といった議論が続くでしょう。それは単にスムーズな指数関数的な進化であり、おそらく歴史を振り返る多くの人々は、その節目がいつだったのかについて意見が一致しないでしょう。そしてそれは単にばかげた議論だったと気付くことでしょう。
チューリングテストでさえ、私はいつも非常に明確な節目だと思っていましたが、ぼんやりとした期間があり、それはすっと過ぎ去って、誰も気にしませんでした。しかし、正しい見方は、これは1つの指数関数であるということです。
とはいえ、もしAIシステムがAI研究においてOpenAIのすべての人々よりも明らかに優れた能力を持つようになれば、それは何らかの重要な不連続点に感じられます。おそらくそのように考えるのも間違いでしょう。おそらくそれでもスムーズな指数関数曲線なのでしょうが、それは真の節目のように感じられます。
Kevin: OpenAIは初期の頃と同じように研究にコミットしているのでしょうか?研究は今でも製品開発の中核を担っているのでしょうか?
Sam: はい、以前以上にそうだと思います。私たちの歴史の中で、単にスケールアップとコンピューティングが正しい選択だった時期がありました。そしてその確信を持って取り組みました。私たちには「効果的なことは何でもやる」という精神があります。私たちにはミッションがあり、安全なAGIを構築し、その恩恵を共有する方法を見つけたいと考えています。もしGPUを増やすことが答えなら、それをやります。
そして今、答えは再び研究を推し進めることです。これはo1で見ることができます。これは長期間にわたって多くの角度から取り組んできた巨大な研究のブレークスルーが、非常に強力な形で結実したものです。これからもさらに多くの巨大な研究のブレークスルーが来るでしょう。
しかし、OpenAIの最も特別な点は、私たちが研究を深く大切にし、それを理解していることです。効果的なことをコピーするのは簡単です。これは悪いことだとは思っていません。他の人々がOpenAIをコピーする時、私は「素晴らしい、世界にAIが増えることは素晴らしいことだ」と思います。
しかし、何か新しいことを初めて行うこと、本当の意味での研究を行うこと、それは単に何かを少し調整したり改良したりすることではなく、新しいパラダイムを見つけ、その次のパラダイム、さらにその次のパラダイムを見つけることです。それが私たちのモチベーションです。
私たちの組織が特別なのは、製品と研究を結びつけることなど他のすべてのことに加えて、フロンティアを押し広げていくような文化をどのように運営するかを知っているということです。それは本当に難しいことです。しかし私たちはそれを愛しています。そして、あと数回そうすればAGIに到達できると思います。
Kevin: はい、私にとって研究がOpenAIにとってどれほど重要かを示すリトムステストは、通常のテクノロジー企業から来た私の経験から言うと、OpenAIでの製品開発は他のどの場所でも経験したことのない、根本的に異なるものだということです。通常は、技術スタックについてある程度の理解があり、何を使って作業できるか、コンピュータにどんな能力があるかを把握した上で、最高の製品を作ろうとします。誰がユーザーで、どんな問題を抱えていて、その問題をどう解決できるかを考えます。OpenAIにもそういった側面はあります。
しかし、コンピュータに何ができるかという状態は2-3ヶ月ごとに進化し、突然コンピュータは歴史上一度も持ったことのない新しい能力を獲得し、私たちはそれを素晴らしい製品にしようとし、開発者向けのAPIで公開しようとしています。何が来るかを完全に予測することはできません。それは霧の中から少しずつ形を現してくるような感じです。他のどの会社で働いた時とも根本的に異なります。それは研究がとても…
Sam: それが最も驚いたことですか?
Kevin: はい。内部でさえ常に感覚を掴めているわけではないのが興味深いですね。「この能力が来るだろう」とは思えても、「次のモデルで90%の精度になるのか99%の精度になるのか」は分かりません。その違いで、どんな種類の製品が作れるかが本当に変わってきます。
いずれ99%に到達することは分かっていますが、それがいつなのかは分からず、そういう世界でどうやってロードマップを組み立てるかは本当に興味深い課題です。
Sam: 科学に従い、それによって次に何に取り組むか、どんな製品を作るかなどすべてを決めなければならない程度は、伝えるのが難しいと思います。物事がどう進むかについて予測はしていますが、時には正しく、時には間違っています。しかし、何かが機能し始めたり、機能すると思っていたことが機能しなかったりした時、私たちは科学が許す方向に全てを転換する意志を持っています。科学が何を許すかは選べません。それは驚くべきことです。
Kevin: 数週間前、ある企業のお客様と話をしていた時、「これはすべてうまく機能していて素晴らしいけど、本当に欲しいのは新しいものを発表する60日前の通知です」と言われました。私も「私もそれが欲しいです」と答えました。
さて、これらは実は会場からの質問です。最後に会場からの質問の時間も設けたいと思います。マイクを持っている人がいますので、質問を考えておいてください。
次の質問です。アライメントコミュニティの多くの人々は、OpenAIが今やアライメントについて表面的な対応しかしていないのではないかと本当に懸念しています。安心させることはできますか?
Sam: はい。確かに私たちは、インターネット上のフォーラムで書かれているようなアライメントとは異なる見方をしています。しかし、私たちは安全なシステムを構築することを本当に重視しています。これまでの経験に基づいたアプローチを持っています。また、先ほどの質問に関連して、科学がどこに向かうかは選べません。私たちは時間とともにより安全になる能力のあるモデルを作る方法を見つけたいと考えています。
数年前、StrawberryやO1のパラダイムが今のように機能すると考えていませんでした。それは全く新しい安全性の課題をもたらしましたが、同時に安全性の機会ももたらしました。理論的な観点から、スーパーインテリジェンスが登場した時の17の原則のようなものを計画するのではなく、能力がどこに向かうかを理解し、そのシステムを安全にする方法を見つけるというアプローチを取っています。
o1は明らかに私たちの最も能力の高いモデルですが、同時に圧倒的に最もアライメントされたモデルでもあります。これらのモデルがより良い知性、より良い推論能力を持つようになるにつれて、それらをアラインさせ、スタック全体にわたって本当に安全なシステムを構築するために私たちができることも増えています。
世界に出すためには、安全で堅牢であると一般的に認められるモデルを構築する必要があります。OpenAIを立ち上げた時、アライメントの姿がどのようなものに見え、解決が必要だと思われた問題は、今私たちが直面し解決しなければならない問題とは全く異なっていました。
また、最初のGPT-3を作った時、現在のシステムを一般的に安全で堅牢だと認められる形で展開できるようにするための技術について尋ねられても、実際に機能することになった技術とは異なるものを挙げていたでしょう。
私たちの最も重要な安全性の立場の1つである反復的な展開という考え方と、目の前の現実に向き合うことで、私たちは大きな進歩を遂げ、さらなる進歩を期待しています。新しい問題を見つけ続けていますが、同時にそれらを解決する新しい技術も見つけ続けています。
とはいえ、これらすべてが間違った方向に進むかもしれないというSFのような懸念について考えることも非常に重要です。それを考えている人たちもいます。そこでは何をすべきかがやや不明確で、時には多くの後戻りが必要になることもありますが、目の前の問題だけに取り組むと言うのも公平ではないと思います。
これがどこに向かうのかについて考える必要があり、私たちはそれも行っています。両端からこの問題にアプローチし続けることが、私たちにとって効果的な戦略だと考えています。私たちの主な推進力は「これが次のステップで、これを展開したい。そのために何が必要か」というところにありますが、同時に「この曲線がただ伸び続けたらどうなるか」ということも考えています。
Kevin: 反復的な展開という私たちの哲学が本当に気に入っている点の1つです。Twitter在籍時、今から100年くらい前になりますが、Evが言ったことが心に残っています。「あなたの組織の壁の中にいるスマートな人々がどれだけいても、壁の外にはもっと多くのスマートな人々がいる」というものです。
私たちの組織の中だけで、起こりうる問題をすべて理解しようとするのは一つの方法です。その場合、私たちとレッドチームとして雇える人々だけが関わることになります。それも行っていますし、一生懸命取り組んでいます。しかし、反復的に慎重に展開し、皆さんのような方々がどのように使うのか、何がうまくいき何がうまくいかないのかを学ぶことも、これらのことを正しく行うための大きな方法だと考えています。
Sam: また、エージェントが世界で活動するようになる時代に向かう中で、これは本当に重要になってくると思います。これらのシステムがより複雑になり、より長期的な視野で行動するようになるにつれて、外部の世界全体からのプレッシャーテストが重要になると本当に信じています。
Kevin: そうですね。では、それに関連して、エージェントがOpenAIの長期的な計画にどのように適合すると考えているのか、もう少し詳しく教えてください。
Sam: あなたはどう思いますか?
Kevin: それは私たちの…私が興奮しているのは、このモデルセット、特にo1とその後継モデルがこれを可能にするということです。なぜなら、ついに推論能力を持ち、難しい問題を単純な問題に分解して行動を起こすことができるようになったからです。2025年はこれが本当に大きくなる年になると思います。
Sam: はい、チャットインターフェースは素晴らしく、世界で重要な位置を占め続けると思いますが、ChatGPTやエージェントに何かを尋ねた時、単に素早い反応を得るだけでなく、あるいは15秒考えてo1が素晴らしいコードを返してくれるだけでなく、環境や他の人々と複数回のやり取りを本当に行うことができ、人間の何日分もの努力に相当する時間をかけて考え、本当にスマートで能力の高い人間のように、物事を実現させることができるようになります。
私たちは皆「そうだね、AIエージェントが次のステップだ。これは来る、これは次の進化だ」と言っています。しかし、これらを実際に使えるようになるまで本当のことは分かりませんが、私は賭けてもいいと思います。もちろん、人々は新しいテクノロジーにすぐに慣れてしまいますが、これは短期間で世界の仕組みを大きく変える変化になるでしょう。
Kevin: そうですね、驚くべきことです。誰かが新しい能力やAIモデルに慣れる速さについて話していました。実はWaymoについての話でしたが、Waymoを使い始めた最初の10秒は「ああ、あれは自転車だ、気をつけないと」と思っていたのが、10分後には「ああ、これは本当にすごい」と思い、20分後には退屈して携帯電話をいじっていたそうです。新しいものに対して私たちの内部ファームウェアがいかに素早く更新されるかは驚くべきことです。
Sam: そうですね、人々はエージェントに1ヶ月かかるような作業を依頼し、それが1時間で完了し、素晴らしい結果が得られ、そして同時に10の作業を依頼し、さらに1000の作業を同時に依頼するようになり、2030年かそこらになると振り返って「そう、これは人間が何年もかけて取り組んでいたこと、あるいは多くの人間が何年もかけて取り組んでいたことを、今はただコンピュータに頼めば1時間で完了する」と思うようになるでしょう。そして「なぜ1分ではないのか」と考えるようになるでしょう。
Kevin: はい。また、素晴らしい開発者プラットフォームを持つことの利点の1つです。私たちは実験し、もちろんエージェント的なものを構築していきますが、すでに素晴らしい成果が出ています。Cognitionのような組織がすごいことをしていて、HarveyやCasetextのようなコーディング、Speakが言語翻訳で素晴らしいことをしているのを見ています。これらのものが機能し始めているのを目にしており、モデルの改良を続けることでさらに機能するようになっていくと思います。
Sam: このデベロッパープラットフォームを持つことの本当に楽しい点の1つは、これらのエクスペリエンスを構築している人々の信じられないほどの速さと創造性を見られることです。開発者は私たちの心に非常に近い存在です。それは私たちが最初に発表したものの1つでした。また、多くの私たちはプラットフォーム上での開発経験を持っています。
しかし、これらのモデルの能力と素晴らしいエクスペリエンスの多くは、プラットフォーム上で開発する人々によって構築されてきました。私たちは引き続き素晴らしいファーストパーティ製品を提供しようと努めますが、それは世界で人々が構築するアプリケーションやエージェントのほんの一部に過ぎないことを知っています。過去18-24ヶ月の世界での出来事を見ると、それは本当に驚くべきものでした。
Kevin: さて、エージェントの話を続けましょう。コンピュータを制御するエージェントの現在の課題は何だと考えていますか?
Sam: 安全性とアライメントです。本当にエージェントにコンピュータをクリックして操作する能力を与えようとするなら、そのシステムの堅牢性、信頼性、アライメントに対して非常に高い基準が必要になります。技術的に言えば、能力の面ではかなり近づいていると思いますが、エージェントの安全性と信頼のフレームワークが、私が思うに長期的な課題になるでしょう。
Kevin: そして今、以前の質問とは逆の質問をします。安全性が誤検知として機能し、より平等な世界を可能にする重要なツールへの一般のアクセスを実際に制限してしまう可能性はあると思いますか?
Sam: 正直な答えは、はい、それは時々起こるでしょう。私たちはバランスを取ろうとしますが、もし完全にYOLOで、安全性とアライメントを全く気にしなければ、o1をもっと早く発表できたでしょうか?はい、できたと思います。それには代償が伴い、本当に間違ったことが起こっていたでしょう。私たちがそうしなかったことを誇りに思います。
o1の段階では、そのコストは管理可能だったかもしれませんが、o3あたりになると、おそらくかなり受け入れがたいものになっていたでしょう。そのため、保守的な側から始めることは…例えば、人々は「Voice Modeが攻撃的なことを言わない、私はそれを言わせたいのに、ひどい会社だ、私を怒らせてくれ」と不満を言っています。
実際、私もほとんど同意見です。o1に攻撃的なことを言わせようとするなら、ほとんどの場合、ユーザーの指示に従うべきです。もちろん、従うべきでない場合もたくさんあります。しかし、新しいテクノロジーを世界に導入する時、保守的な側から始め、社会が適応する時間を与え、理論的な害よりも実際の害がどこにあるのかを理解しようとしてきた長い歴史があります。
これは安全性へのアプローチの一部であり、誰もが常に好む訳ではありません。私自身も常に好む訳ではありません。しかし、もし私たちが正しく、これらのシステムが私たちが考えるほど強力になり、私たちが考えるほど急速に強力になるのであれば、そのように始めることには意味があります。そして、時間とともに緩和していきます。
Kevin: 全く同感です。スタートアップがAIをコア機能として使用する際の次の大きな課題は何でしょうか?まず…
Sam: あなたから。
Kevin: 私の考えでは、私たちも自分たちのモデルの上に製品を構築しているので同じ課題に直面していますが、フロンティアを見つけることです。今日のAIモデルが得意とすることのために構築すれば、今日はうまく機能しますが、明日には古く感じるでしょう。
そのため、AIモデルがまだできないことのために構築したいと考えます。アーリーアドプターは受け入れるけれど、他の人はまだ受け入れないような領域です。それは次のモデルが登場し、改良を続けた時に、かろうじてできなかったユースケースを最初に実現する立場にいることを意味します。しかし、その境界を見極めるのは本当に難しいです。ただ、最高の製品はそこに構築されると思います。
Sam: 全く同感です。もう1つ付け加えたいのは、テクノロジーがスタートアップを作るという考え方に陥りやすいということです。それはほとんど常に真実ではありません。新しいテクノロジーや新しいテクノロジーの波がどれほど素晴らしくても、時間とともに優位性を積み重ねていく素晴らしい企業を構築するための困難な仕事を免除されることはありません。
多くのスタートアップから話を聞きます。YCでもよくあることでしたが、「私はこの信じられないことができます、この信じられないサービスを作れます」というのが完全な答えのように思えますが、通常のビジネスの法則から免除されることはありません。まだ良いビジネスと良い戦略的ポジションを構築する必要があります。AIの信じられない興奮と上昇気流の中で、人々はそれを忘れがちですが、それは間違いです。
Kevin: これは興味深い質問です。音声モードは人間のAPIに直接アクセスするようなものです。そのような明らかな操作能力を持つ強力なツールの倫理的な使用をどのように確保しますか?
Sam: はい、Voice Modeは私にとって本当に興味深いものでした。AIに本当に騙されたと感じた最初の体験でした。最初のベータ版を使っていた時、自分を止められませんでした。ChatGPTに今でも「please」と言いますが、Voice Modeでは通常の礼儀を使わないわけにはいきませんでした。
本当の…のように感じてしまったのです。明らかに私の脳の中の何かの回路をハックしているだけなのですが、Voice Modeで本当にそれを感じました。そして今でもある程度感じています。これはより一般的なことの例だと思います。これからますます直面することになるでしょう。これらのシステムがより能力を持つようになり、できるだけ自然なインタラクションを目指すにつれて、他の人々と関わるために進化した私たちの神経回路の一部に触れることになります。
私たちがしたくないことについて、明確な線引きがいくつかあります。例えば、少し社会的に操作的な奇妙なパーソナリティ成長ハッキングのようなことは避けたいと思います。しかし、他にも全く明確ではない事柄があります。
Voice Modeができるだけ自然に感じるようにしたいと思いますが、不気味の谷を越えると、少なくとも私の中で何かが引き金になります。ChatGPTに「please」や「thank you」を言うのは問題ありません。おそらく良いことでしょう。決して分かりません。しかし、これは私たちが注意を払い始めなければならない種類の安全性とアライメントの問題を本当に示しています。
Kevin: では実務的な話に戻りましょう。Sam、o1はいつfunction toolsをサポートしますか?
Sam: あなたは知っていますか?
Kevin: 年内です。o1に本当に入れたい3つのことがあります。さあ、どうぞ。これを録画して研究チームに持ち帰り、これがどれほど必要かを示しましょう。
しかし、o1に本当に入れたいことがいくつかあります。また、これは世界に早めに出して、皆さんがどう使うかを学び始めるべきか、あるいは私たちが発表した他のすべてのモデルと同じ能力を持つ完全なものを発表すべきか、のバランスの問題です。システムプロンプト、構造化された出力、function callingがo1に入ることにとてもワクワクしています。年内には実現します。
[拍手]
Sam: それに加えて、この機会を逃すことができないので強調しておきますが、それらすべてともっと多くの皆さんが求めているものを実装します。モデルはとても早く、とても良くなります。私たちはまだとても初期の段階です。これはおそらくGPT-2スケールの瞬間かもしれませんが、私たちはGPT-4まで到達する方法を知っています。そしてGPT-4まで到達するための基礎的なものが今揃っています。
それらすべてを構築する計画に加えて、モデルが急速に賢くなることを計画してください。来年また来てください。そして4 Turboからo1までの1年間の進歩よりもさらに大きな進歩を感じることを期待してください。拍手は不要です。本当に賢くなります。
Kevin: では会場からの質問に移りましょう。マイクを持っている人はどこですか?
質問者: 自社のテクノロジーをどの程度社内で使用していますか?あまり明白ではない興味深い例はありますか?
Sam: はい。モデルのトレーニングが完了する前から、内部で使用のためにモデルを提供しています。チェックポイントを使用し、できる限り人々に使ってもらおうとしています。新しい方法でモデルの能力を探求し、私たちの開発や研究など、できる限り内部で使用しようとしています。
それでも外の世界の創造性と人々が何をするかには常に驚かされます。しかし、基本的に、次に何を推し進めるべきか、何を製品化できるか、モデルが本当に得意とすることは何かを理解するための私たちの方法は、内部での使用を通じてです。それが私たちの全体的なアプローチです。
まだo1をベースにした従業員はいませんが、エージェントの世界に移行するにつれて、それを試してみるつもりです。内部システムに展開して作業を支援するようなものを試してみます。
Kevin: それに近づいているものはあります。例えば、カスタマーサービスでは、外部からの質問に答えたり、Slack上で内部の人々の質問に答えたりするボットを多く使用しています。そのおかげで、カスタマーサービスチームは必要であろう規模の20%程度で済んでいます。
Matt Knightとセキュリティチームは、セキュリティ関連の様々な自動化にモデルを使用している方法について詳しく話しています。以前は手動のプロセスで、すべての入力を見るための人員が足りなかったかもしれません。しかし今は、モデルがシグナルとノイズを分離し、人間が見るべきものを強調表示しています。
そのため、内部には多くの例があり、これは多くの人が想像する以上かもしれません。皆さんは驚かないでしょうが、私が話す多くの人々は、1つの場所でモデルを使用するだけでなく、異なることが得意な複数のモデルをチェーン化して接続し、1つのエンドツーエンドのプロセスを作り上げ、個々のモデルに欠陥や誤りがあっても、やりたいことを非常にうまく実現できることに驚いています。
質問者: ありがとうございます。オフライン使用のためのモデルを共有する計画はありますか?このdistillationの件は本当に素晴らしいと思います。私たちは自分たちのモデルを生成できますが、多くのユースケースでは本当にそのバージョンを持ちたいと思います。
Sam: 答えますか?
Kevin: 検討はしています。現在のロードマップでは優先順位は高くありません。より多くのリソースと余裕があれば、実行するでしょう。ローカルモデルが必要な理由は多くありますが、今年中というわけにはいきません。
質問者: こんにちは。私の質問は、地方、州、国レベルの多くの政府機関が皆さんが開発しているツールから本当に大きな恩恵を受ける可能性がありますが、セキュリティ、データ、プライバシーの懸念から、それらを導入することをためらっているかもしれません。
AGIが達成された時、世界の政府との計画されたパートナーシップのようなものはありますか?明らかにAGIが飢餓、貧困、気候変動のような問題を解決するのを助けることができるなら、政府が関与する必要があるでしょう。その時が来た時に何か計画はありますか?
Sam: はい、実際にAGIまで待つべきではないと思います。今から始めるべきです。なぜなら、学習のプロセスがあり、現在のモデルでもできる良いことがたくさんあるからです。私たちはいくつかの政府機関とのパートナーシップを発表しています。ミネソタやペンシルベニアなどの州、また USAIDのような組織とも提携しています。
世界中の政府がテクノロジーに慣れ、恩恵を受けられるようにすることは、実際に私たちの大きな優先事項です。特に政府は、多くのワークフローを自動化し、より効率的にし、単調な作業を減らすことができる場所だと感じます。今できる良いことはたくさんあると思います。
そして今それを行えば、モデルが改善され、AGIに近づくにつれて、その恩恵は長期的に蓄積されていきます。
質問者: かなりオープンな質問ですが、オープンソースについてどう考えていますか?オープンウェイトなど、一般的な議論を含めて、皆さんはオープンソースについてどのような立場ですか?
Sam: オープンソースは素晴らしいと思います。繰り返しになりますが、より多くの余裕があれば、それも行うでしょう。何度か大規模なオープンソースの取り組みを行う寸前まで来ました。しかし、本当に難しいのは優先順位付けです。他のことを優先してきました。
その一部は、今や世界には非常に良いオープンソースモデルがあるということです。私たちが常に最も魅力を感じていたのは、本当に優れたオンデバイスモデルですが、その分野は今や十分にカバーされていると思います。
いつかは何かをやりたいと思っていますが、私たちがやらなければ世界に欠けているものになるようなことを見つけたいと考えています。ベンチマークでちょっとだけ良いものを作るのではなく、今は良いものがたくさんあると思うからです。
しかし、精神的、哲学的には、オープンソースが存在することをとても嬉しく思い、貢献する方法を見つけたいと考えています。
質問者: Sam、Kevin、こんにちは。DevDayに招待していただき、ありがとうございます。素晴らしかったです。ライブデモもすべてうまくいき、信じられないくらいでした。なぜAdvanced Voice Modeは歌えないのでしょうか?また、それに関連して、もし著作権などの法的な問題であれば、自社のプラットフォーム上の自社製品の安全性と、私たち開発者に…(何かを)サインオフさせてAdvanced Voice Modeに歌わせることができるようにすることの間に、どのような違いがあるのでしょうか?
Kevin: 面白いことにSamも同じ質問をしました。「なぜこれは歌えないんだ?歌うのを見たことがあるのに」と。明らかに歌わせられないものがあります。著作権のある曲は歌わせることはできません。ライセンスを持っていませんから。
そして歌わせることができるものもあります。ハッピーバースデーを歌わせることはできますし、それも望んでいます。限られた時間の中では、まずノーと言って、その後実装していく方が簡単ですが、正しく行うためには微妙な調整が必要です。
このような問題を間違えると罰則があります。だから今はこういう状態です。私たちもモデルに歌ってほしいと思っています。
Sam: 人々はVoice Modeの登場を待ちくたびれていました。それはとても当然のことです。著作権のある音楽とそうでないものの分類やフィルタリングをもっと時間をかけて本当に完成させることもできましたが、まずは発表して、後から追加していくことにしました。
Kevin: でもSamは4、5回くらい「なぜ歌えないんだ」と私に聞いています。
Sam: それは良い機能です。つまり、開発者であれ自社製品であれ、本当に悪い法的な問題に巻き込まれるようなものは提供できません。だから、違いはあるかもしれませんが、それでも法律を遵守する必要があります。
質問者: コンテキストウィンドウの将来についてお話しいただけますか?コンテキストウィンドウの成長とRAG、基本的には情報検索のバランスをどのように見ているのでしょうか?
Sam: それには2つの異なる見方があると思います。1つは、いつ通常の長いコンテキスト、1,000万くらいのコンテキスト長、つまり十分な長さのものを投入して、速度も十分で満足できるようになるかということです。
私は誰もがそこでかなり早い進歩を遂げると予想しており、それは当たり前のことになるでしょう。長いコンテキストは、これまで予想していたよりも奇妙なほど使用されていません。それにはいくつかの理由がありますが、詳しくは触れないでおきましょう。
そして、もう1つの質問は、コンテキスト長が1,000万ではなく10兆になるのはいつかということです。あなたが今までに見たすべてのデータを投入できるようになるのはいつでしょうか。
これは明らかに研究のブレークスルーが必要な、全く異なる一連の課題です。しかし、無限のコンテキストはいつか実現すると私は考えています。それは10年以内のことでしょう。そうなれば、これらのモデルの使い方は全く異なるものになります。
非常に高速で正確な1,000万トークンのコンテキストでさえ、数ヶ月単位で実現すると予想していますが、人々はそれを様々な方法で使用し、素晴らしいものになるでしょう。
しかし、はい、非常に長いコンテキストは実現し、本当に興味深いものになると思います。
Kevin: あと1、2問受け付けられると思います。
質問者: 心配いりません。これはあなたのお気に入りの質問になるでしょう。音声やユーザーが経験してきた他のすべての変化について、新しいエンゲージメントレイヤー、フォームファクター、そして私たちの生活をより良くするためにこのテクノロジーと実際にどのように関わっていくのかについて、どのようなビジョンをお持ちですか?
Kevin: その質問は大好きです。実際、私たちもよく自問する質問です。率直に言って、開発者の方々が大きな役割を果たせる部分だと思います。なぜなら、ここには一般性と特異性のトレードオフがあるからです。
例を挙げましょう。数週間前、私はソウルと東京にいて、共通言語を持たず、通訳もいない状況で多くの会話をしました。以前なら、会話はできなかったでしょう。お互いに微笑み合って、そのまま続けるしかありませんでした。
私は携帯電話を取り出して、「ChatGPT、あなたを通訳にしたいです。私が英語で話す時は韓国語で話してください。韓国語を聞いた時は英語で繰り返してください」と言いました。そして完全なビジネス会話ができ、それは素晴らしいものでした。このような影響を考えてください。ビジネスだけでなく、旅行や観光、言語が全く分からない場所に行こうとする人々の意欲にどのような影響を与えるでしょうか。本当に素晴らしい影響を与えることができます。
しかし、ChatGPTの中でそれは私がしなければならなかったことでした。ChatGPTはそのための最適化がされていません。ポケットの中にデジタルな万能翻訳機があって、翻訳することだけを知っているようなものが欲しいところです。それを作るのはそれほど難しくはありませんが、私たちは多くの人々のために多くのことができるアプリケーションを構築しようと苦心しており、能力の変化のペースについていけるようにしています。
エージェントの機能などについて話してきましたが、このような聴衆の創造性が入り込み、私たちが考えていない問題、私たちには専門知識のない問題を解決する大きな機会があると思います。そして最終的に、より多くのAIをより多くの人々に届けることができれば、世界はもっと良くなります。それが皆さんにサービスを提供することを誇りに思う理由です。
Sam: 付け加えることがあるとすれば、近い将来のある時点で、すべてが組み合わさることを考えてみてください。あなたはガラスの前に立ち、望むことを何でも言います。そこには素晴らしい推論モデルやエージェントがあり、すべてに接続されています。
このたった1つのリクエストのために、カスタムインターフェースがビデオでストリーミングされます。必要なものは何でもリアルタイムでレンダリングされます。あなたはそれと対話し、ストリームをクリックしたり、別のことを言ったりすることができ、かつては人間が何年もかけて解決しなければならなかったような種類のことを処理することができます。
そして、必要なものは何でも動的にレンダリングされ、それはコンピュータの使い方、そして世界で物事を実現する方法として、全く異なるものになるでしょう。それはかなり驚くべきものになるでしょう。
Kevin: 素晴らしい、それは締めくくりとして素晴らしい質問でした。時間になったようです。DevDayに参加していただき、ありがとうございました。
Sam: ありがとうございました。
[拍手]
Kevin: 皆さんが何を作るのか、楽しみにしています。
Sam: ありがとうございました。

コメント

タイトルとURLをコピーしました