ムスタファ・スレイマン:AIが仕事をどう変えるか

7,849 文字

CEO of Microsoft AI Shares The Future of Work (Mustafa Suleyman)
My interview with Mustafa SuleymanDiscover More:🛠️ Explore AI Tools & News: 📰 Weekly Newsletter: 🎙...

AIについて考えたとき、モデルの進化には壁があるでしょうか?単に計算能力を増やし続けることが答えなのでしょうか?これらのモデルから出力される情報を信頼できる段階に達する道筋はあるでしょうか?大規模言語モデルの先にあるものは何だと思いますか?
ソフトウェア企業には競争優位性がなく、誰でもプロンプトでソフトウェアを作れるようになるか、大手テック企業が単なる機能として組み込んでしまうのではないでしょうか。AIが私たちの仕事を奪う、AIがコーディングを学ぶ、AIがアートを作る、AIがグラフィックデザイナーの代わりになる—人々はAIに仕事を奪われることを心配すべきでしょうか?
今日の動画では、ムスタファ・スレイマンとのインタビューをお届けします。ムスタファはマイクロソフトAIのCEOで、マイクロソフトのすべての消費者向けAI製品を率いています。彼は2010年にDeepMindの共同創設者の一人で、後にGoogleに買収され、AlphaGoやAlphafoldなどのプロジェクトを監督しました。彼はまたリード・ホフマンとInflection AIを共同設立し、『The Coming Wave』という本を執筆しました。
この本はビル・ゲイツとバラク・オバマの両方から必読書として推薦されています。タイム誌は彼を2年連続でAI分野のトップ100人に選出し、彼は定期的にホワイトハウスや英国議会にAIの安全性と倫理について説明しています。そして何らかの理由で、彼は約20分間私と座って、AIについて語り合うことに同意してくれました。これは私がこのチャンネルのために準備している多くのインタビューの最初のものであり、ムスタファ・ソロモンとの会話を共有できることを非常に嬉しく思います。
あなたはDeep MindやInflection、そして現在はMicrosoftと、15年以上AIに携わってきましたが、マイクロソフトのどんな点があなたを引き寄せたのでしょうか?
マイクロソフトが50年も前に設立されたというのは驚くべきことです。私や皆さんよりもはるかに古く、その間ほとんどの期間で世界をリードするテクノロジー企業の一つであり、あらゆる新しいテクノロジー革命に適応してきました。新しい波が来るたびに、企業は文化を変え、時にはビジネスモデルを変更し、新しいプログラミング言語を学び、新しい市場参入方法を学ぶ必要があります。私はいつもその適応能力に感銘を受けていました。それが今私たちがしなければならないことです。このコパイロットを使ったエージェントAIコンパニオンの時代に適応しなければなりません。これは会社が慣れ親しんでいたものとは全く異なる考え方です。
Deep Mindの創設から今日まで、この15年間でAIに対するあなたの信念や見方は変わりましたか?
2010年にAIに関わり始めた頃、私たちはAGI(人工汎用知能)の枠組みに非常にこだわっていました。それが実現する可能性はまだ見えていますが、私はいつも日常的な実用面、実際のユーザーや技術の消費者がどう感じるかということに焦点を当ててきました。超知能が全ての科学的問題を解決するというよりも、私たちの日常生活に寄り添い、ワークフローの不可欠な部分となる姿を思い描いています。それはスマートフォンやタブレット、インターネットへのアクセスと同じくらい重要なものになるでしょう。
少し前には、AIのトレーニングが「壁」に当たり、トレーニングする対象がなくなるというナラティブがありました。その後、テスト時の計算処理が増え、現在は推論とそこに向けられる計算能力に移行しています。壁は存在すると思いますか?そして、これらの課題への答えは単に計算能力を投入し続けることなのでしょうか?
興味深いのは、その方程式のもう一方の側では、十分なトレーニングデータがないだろうという意見もありました。「事前トレーニングは終わりで、壁に当たるだろう」と言われていましたが、教訓は6〜12ヶ月の間に障害が現れても、モデルをより効率的にし、計算能力を異なる方法で使用し、合成的にデータを生成するなど、5つの異なる方法で人々が試みているということです。
今はこれらのモデルの一つによって完全に生成された人間品質のデータを生成し、人間からのフィードバックではなく、AIからのフィードバックを使った強化学習を行っています。モデルがどれだけ大きくなったかを見ると、確かに巨大になりましたが、同時に小さくもなっています。現在では、GPT-3と同等のモデルを、元々トレーニングされたときと比べて100分の1のサイズで推論コスト(回答を生成するためのテスト時のコスト)でトレーニングすることができます。それはたった3年前のことです。
つまり、より安く、より簡単に、より小さくなる一方で、より大きく、より強力になり、より多くのデータと計算能力を使用しています。すべてがうまく機能しているときに期待されることです。油井を掘り当てたようなもので、どこを見ても素晴らしい新機能が登場しています。
より多くの計算能力を投入し、より大きなデータセンター、より多くのGPUを使うことが次のレベルに到達する方法だと思いますか?それとも次のレベルは全く異なるものから来るのでしょうか?
その傾向は間違いなく続くでしょう。より大きなモデル、より多くの計算能力が投入され、それから間違いなく大きな利益を得続けるでしょう。しかし、他のモデルからのフィードバックをモデルに与えるという新たな技術も出現しています。より大きく能力の高いモデルが、非常に高品質なデータを使って小さなモデルに特定のタスクを効率的に教えるのです。
この傾向も続くでしょう。最初に最大で最高のモデルを構築するのは非常に高コストですが、12ヶ月前の最先端技術は今日10倍安く構築できるのです。これは素晴らしいことです。そして、これによって第二フェーズまたは第二波のモデル開発能力の全体が生まれるのです。今行っていることの上に強化学習を積み重ねることで、AIの次の時代が提供されています。
より大きなモデルをトレーニングし、他のAIからの高品質なデータフィードバックを得ることと同時に、強化学習のパラダイムも人間からのフィードバックを引き続き使用します。教訓は、すべての機能が最終的に価値を持つということであり、報酬が得られることを利用しながら、新しい技術や方法を探索し、それをスタックに積み重ねることで問題を解決していくのです。
少し幻覚(ハルシネーション)について話したいと思います。幻覚は、AIの使い方によっては特徴にも欠点にもなり得ます。事実に基づいた情報が必要な場合は幻覚を排除したいですが、創造的なものや誰も解決していない新しい問題を解決したい場合は幻覚が欲しいものです。私たちがこれらのモデルから出力される情報を信頼できる段階に到達する道筋はあるでしょうか?
テクノロジーにおいて興味深いのは、新しいトレンドにブランド名やラベルが付けられ、それが誰もが何が起きているのかを混乱させることがあるということです。ある意味で、実際に見ているものについて分野全体が「幻覚を見る」原因になります。「幻覚」は本当に奇妙な言葉です。過去40〜50年間でソフトウェアの価値のほとんどを構築してきたリレーショナルデータベースの弱点を考えると、その大きな弱点は適応できないこと、変化できないこと、あいまいさがないことです。入れたものだけが出てくるのです。
しかし、これは現在、その問題を少し解決しています。あいまいで適応力のある抽象化があり、知識をある領域から別の領域に転送でき、補間することができます。知識点が2つあれば、中間のギャップを見つけてそれらの知識点をつなぐことができます。これは例えば、新しい画像を何かのスタイルで生成するときに見られるものです。「幻覚」は不幸な言葉であり、私はそれを長期的な問題とは見ていません。
3年前のモデルは操作が非常に難しかったことを考えると、スタイル的にも事実的にも、信頼できる引用や参照文書を利用することができませんでした。しかし、より多くの計算能力を持った今、2〜3年後には非常に制御しやすくなっています。私たちが設定した行動ポリシーに非常に忠実で、スタイルのトレーニングに非常に反応し、多くのバイアスを生み出しません。まだ間違いはありますが、非常に異なります。
これが現在の状況で最も有望な兆候の一つだと思います。モデルが大きくなるにつれて、制御しやすくなり操作しやすくなっているということです。これは2〜3年前の多くの人々にとって直感に反することでした。多くの人々は「これらは常に誤情報マシンになる、非常に混沌としている、すべてを間違える」と言っていましたが、それは真実ではないことが判明しています。
そして、今はますますモデルが引用で自分自身を根拠付けていると感じます。事実に基づいた情報を提供する場合、引用を見て実際にソースを調べ、必要に応じて確認することができます。
その通りです。それが信頼の定義です。モデルが知らないことを知っているか、または主張を検証してそれが適切なソースであると確信できると、ますます信頼するようになります。これも非常に励みになることだと思います。より多くの人々がそれを使用すればするほど、それは良くなり、そして再び、より良い品質であるため、より多くの人々がそれを使用するようになるでしょう。
AGIは本当にあなたが焦点を当てている分野ではないとお話されましたが、AGIの定義をお持ちですか?私はその用語の定義がまだあいまいで、答える人によって少し異なる定義を持っているように感じます。あなたの定義を教えていただけますか?
それは別の課題です。幻覚と同様に、将来を予測しようとするとき、言葉は難しいのです。実際には良い定義がありません。人々は超知能や汎用知能について話しますが、私はDeep Mindで使用していた方法、つまり「広範囲の環境で十分に機能する能力」という定義が好きです。重点は汎用性と高品質なパフォーマンスにあります。閾値はいくつかのタスクでの人間レベルのパフォーマンス、あるいはすべてのタスク、あるいは人間レベルのパフォーマンスを超えることかもしれません。それは見守るしかないでしょう。
私が本で提案した定義は「人工能力知能」(artificial capable intelligence)でした。なぜなら、私たちが本当に気にしているのは、知能とは何かという抽象的な考えではなく、それは定義するのが本当に難しいからです。意識や魂、精神と同じくらい定義が難しいものです。しかし、能力は定義できます。どれだけの電力を使用するか、1秒あたりに何トークン生成するか、この特定の課題を解決するか、ウェブ上の文書を取得できるか、ブラウザでアクションを実行できるか、環境と対話するためにCopilot Visionを使用するときにシーンを理解してオブジェクトを識別できるかなど、それらは非常に測定可能で具体的な能力です。
私の考え方はいつもこの月、この四半期、具体的に何ができるのかということです。それが実用的なアプローチだと思います。
ヤン・ルカンをご存知ですよね?彼はLLM(大規模言語モデル)がAGIに到達することはないと信じており、他のタイプのAIモデルになると考えています。LLMの後に他のタイプのAIモデルが来ると思いますか?大規模言語モデルの先にあるものは何だと思いますか?
私はそうは思いません。私たちはすでに非常に強力なシステムの核を持っています。なぜなら、ツールの使用はメタ能力だからです。それが私たちを種として独特なものにしているのです。私たちは物を拾い上げ、動かし、それを使って環境を操作し、私たちの知能を増強することができます。火を作ったり、石斧を使ったり、GPUを作ったり、電気を発明したりすることで、私たちはより賢く、より能力が高くなります。
現在、人間レベルの知能には程遠いシステムがありますが、それはツールを使用することができ、周りには多くの強力なソフトウェアツールがあります。それらの多くはまだ接続されていません。だから、仮に何らかの魔法で数年間モデル開発を停止したとしても、理論的には、モデルがツールを使用し、他のAIと対話し、事実に基づく知識を取得し、物事を順序立てて調整するという素晴らしい能力を持っているという技術的な過剰があると思います。だから、それが近い将来鈍化するとは思いません。
ASI(人工超知能)について簡単に触れたいと思います。ナヴァル・ラヴィカントのインタビューを聞いていて、彼はASIはファンタジーであり、実際には決して見ることはないと信じていると言っていました。あなたの見解を教えていただけますか?
わかりません。私は「決して」や「ファンタジー」という言葉を聞くと、「わかった」と思うタイプの人間です。ヤンの発言のように、これらのモデルがAGIにスケールすることは決してないと言うのは、どちらにしても確実に言うのは本当に難しいと思います。私たちの直感は、新しい進展の波が出るたびに毎年変わっています。
私は、ASIに関して、より慎重になるべき能力があると思います。例えば、当然のことながら、これらのシステムのいずれかに、人間がループ内やループ上、あるいは何らかの形で監督することなく、完全な自律性を与えると、非常に強力なシステムになります。だから、加速させたい特定の能力と、注意が必要で潜在的に非常に強力な結果をもたらす可能性のある能力を考え、その観点から考えるべきだと思います。
また、ゴールポストが常に移動し、誰もそれをどう定義すればいいのか本当にわからない領域の一つだと思います。だから、正直に言って、そこに行くのは難しいです。
次に話したいのは、出てくる懸念のいくつかです。AIに関する動画を作ると、YouTubeのコメントなどでよく見るのは「AIが私たちの仕事を奪う」ということです。AIはコーディングを学び、アートを作り、グラフィックデザイナーになることができます。人々はAIに仕事を奪われることを心配すべきでしょうか?
仕事の性質が根本的に変わると思います。それについては疑いの余地がありません。50年前にはPCがなく、すべてが紙で行われ、郵便に頼っていたように、私たちは仕事の仕方、何をするか、どこに住むかに影響を与える大きな変化を経験しています。それは深遠な変化であり、YouTuberやメディアスターとしてのあなたの日常の仕事が変わったように、5年前あるいは10年前には存在しなかった仕事が今あります。だから、私たちはその変革に備える必要があると思います。
ソフトウェア企業についてお聞きしたいと思います。ソフトウェア企業には競争優位性がなく、誰でもプロンプトでソフトウェアを作れるようになるか、大手テック企業が単なる機能として組み込んでしまうのではないかという話がありました。現在会社を立ち上げようとしている人へのアドバイスはありますか?
良い質問です。会社の規模によりますが、小さな会社にとって、これは素晴らしい時代です。信じられないほどです。GitHub Copilotの新しいバージョンを使っていましたが、自然言語で指示を与えたり、どのようなアプリ、ゲーム、プログラムが欲しいかを伝えるだけで、コードを生成してくれます。そのコードを読んで、特定の部分を変更するよう要求することができます。
そのプロセスで、実際にコードの書き方、バグの場所などを学ぶことができます。非常に洞察力があり、その反復的なやり取りはプロトタイプを作成し、実際に本番品質のコードを構築し、例えばウェブサイトを公開するための素晴らしい方法です。参入障壁がこれほど低かったことはなく、それは誰もが完全に実験を爆発させるという意味です。
これは大企業、中堅企業、小企業、すべての人にとって非常に競争の激しい時代になることを意味し、それは消費者にとって素晴らしいことだと思います。なぜなら、私たちは多くの魔法のような製品や体験を得ることになるからです。しかし、物事が非常に速く変化するため、長期的な競争優位性を作り出すことが難しくなるため、成功するのは非常に競争が激しく爆発的で困難な時代になるでしょう。
しかし、これらのことについて繰り返し見てきたのは、人々が途方もない価値を生み出す方法を見つけ出し、その価値は常に支払われるということです。人々は大きなリターンを得て素晴らしい結果を得ています。だから、私はそれは非常にポジティブなストーリーだと思います。
最後の質問です。2つの部分に分けます。今日AIでできることで最も興奮することは何ですか?そして、これから数年のうちにAIでできるようになることで最も興奮することは何ですか?
私が本当に楽しんでいることの一つは、通勤の途中や一日の終わりに、Copilotと声で会話をして、問題について話し合ったり、質問をしたり、何かについて掘り下げたりすることです。私は基本的に学ぶことが大好きで、対話型の会話が好きです。それが私の学び方です。読書も好きですが、ある意味で、私の本やアイデアは、Copilotを使ってトピックのどんな角も探索できるので生き生きとしてきます。だから、その体験が大好きです。
また、Copilot Visionの体験もよく使っています。それはあなたが見ているすべてをリアルタイムで見て、あなたが両方見ているものについて話すことができます。それはかなり魔法のような体験です。
先日LAXにいて、Copilot Visionを開いたら、私がどの空港にいるかを知り、ゲート番号を見て、「シアトルに向かっているようですね。今は日曜日の4時30分なので、現在一つの便しかありません。ところで、あなたの便が遅れていることをご存知ですか?」と言いました。私は「遅れていない、Copilot、明らかに間違っている、それは幻覚だ」と思いました。それで受付に行って「便は遅れていますか?」と聞くと、彼らは「はい、今アナウンスしようとしていました」と言いました。「どうやって知ったの?」という感じです。それは魔法のような体験です。信じられないくらい素晴らしいです。
しかし、これから来ることで本当に興奮しているのはCopilot Actionsです。これは驚くべきものです。Windowsのデスクトップで操作し、あなたが行き詰まっている場所を強調表示し、物を指し示し、設定を手伝ったり、ブラウザ内で物を購入したり、予約したり、先を計画したりします。Copilotがマウスを動かし、クリックし、新しいタブを開き、フォームに情報を入力するのを見るのは魔法のようです。私たちは未来に生きているような感じです。
Windowsの問題解決がすぐに自動化されるようですね。
その通りです。素晴らしいですね。
時間を割いてくれてありがとうございます。これは魅力的なインタビューでした。本当に時間を割いてくれたことに感謝します。
こちらこそ、ありがとう。本当に楽しかったです。

コメント

タイトルとURLをコピーしました