
7,692 文字

では、AnthropicのCEOダリオ・アモデイとBoxの共同創業者兼CEOのアーロン・レヴィをお迎えしましょう。はい、たくさんのお知らせがありましたね。皆さんまだ消化している最中だと思います。もちろん、デモステーションを用意していますし、これらのテクノロジーを活用して実際に試していただける機会もあります。本日はダリオをお迎えできて大変嬉しく思います。ダリオは日々AIのブレークスルーの最前線にいらっしゃいます。今日は新しい情報も聞けるかもしれませんね。
まずは簡単な質問から始めましょう。AGIはいつ実現するのでしょうか?
ご招待ありがとうございます。AGIについてですが、正直わかりません。私はAGIという言葉自体があまり適切ではないと話してきました。連続的な指数関数的成長があるだけです。たとえば1995年にムーアの法則があって、誰かが「スーパーコンピュータはいつできるのか」と聞くようなものです。その質問自体が意味をなしません。スーパーコンピュータはただの、より強力なコンピュータに過ぎないのです。
私の質問を否定されましたか?最初の質問を完全に失敗してしましまいましたか?
そうですね、モデルは非常に急速に強力になっています。AGIがマイルストーンでないとすれば、他にどのようなマイルストーンを考えていますか?
私が重要だと考えるマイルストーンの一つは、モデルが専門的な仕事を確実にこなせるようになる時期です。皆さんの会社で行われているような種類の仕事ですね。必ずしも完全な仕事ではありませんが、プロフェッショナルが見て「これは十分なレベルだ、信頼できる」と言えるような合理的なタスクを、金融、法務、医療、保険、生産性ソフトウェア、プログラミングなどの分野でこなせるようになることです。これらすべてが同時に実現するわけではありませんが、今後2年ほどの間にそれらの閾値を次々と超えていくと考えています。
少し時間を巻き戻したいと思いますが、今のパラダイムの定義で考えると、ソフトウェアコーディングについてはどのように考えていますか?
コーディングは私が最も楽観的に見ている分野の一つです。その理由の一つは、モデルのトレーニング時も実際の適用時も、フィードバックループを閉じやすいことです。ロボット工学のように実世界に出て行く必要もなければ、生物医学のように薬物試験が必要なわけでもありません。単にコンパイルされるか、実行されるか、望む製品が生成されるかを確認するだけです。トレーニング中は人間を介さずにループを閉じることができ、適用時には「これは機能しているか」を確認でき、検証が自動的になされるため、より信頼性を高めることができます。
コードの進歩は急速でした。実世界のソフトウェアエンジニアリングタスクを測定するSbenchでは、今年1月の時点でAnthropicだけでなく業界全体で3%だった性能が、最新のSonnet 3.5モデルで50%を超えました。
これは何の指標なのでしょうか?
Sbenchは、実際のプルリクエストやタスクの集まりです。コーディングにおける作業の原子的単位を文字通り切り取ったものです。実世界での作業との相関性が非常に高いことがわかっています。モデルがそのデータセットで学習して性能を向上させるという不正はありません。これは保留されたデータセットと保留されたテストなのです。モデルは非常に賢く、不正も可能なため、これらの評価はより厳密になってきています。
その低いパーセンテージから50%への上昇は加速していますか?それとも収束に向かっていくのでしょうか?
100%にしか到達できないので、Sカーブを描いて収束していくでしょう。そして、より難しいベンチマークが登場するでしょう。たとえば、ジェフ・ディーンのような伝説的なコーダーしかできないようなタスクとか。常に新しいフロンティアがあり、新しいタスクが見つかるでしょう。
Anthropicの起源についてお聞きしたいと思います。あなたはOpenAIの初期メンバーでしたね。別のアプローチを考えていたと思いますが、その経緯を教えていただけますか?
OpenAIにいた頃、私は最初期からいて数年間研究をリードしていました。後にAnthropicの共同創業者となった同僚たちと共に、最も力を入れていたのは、ロボット工学や強化学習から大規模言語モデルへの移行でした。私たちは、スケーリング仮説、あるいはより良い仮説と呼ばれるものの初期の提唱者でした。これは、より多くの計算能力、より大きなモデル、より多くのデータが、驚くほど多様なタスクをこなす能力を持つという考えです。モデルは表面的には次の単語を予測するだけ、つまり高度な自動補完のように見えますが、その過程で、今日私たちが目にするようなコーディング、要約、文書分析、情報の並べ替えや操作など、あらゆる種類のタスクをこなせるようになるのです。
これに気づいた時、私はその影響について考え始めました。これらのシステムは非常に強力なため、その開発には細心の注意を払う必要があります。スケーリング仮説を例えると、強力なロケットを作るには大きなエンジンと燃料が必要です。エンジンがモデルで、燃料がデータだとすると、他に何が必要でしょうか?ロケットの操縦が必要です。実際、月や火星に行くためには非常に正確な操縦が必要で、角度を100分の1度程度の精度で合わせる必要があります。
この操縦の比喩で言えば、これが非常に重要になると私たちは気づきました。以前働いていた企業では、スケーリング仮説については徐々に受け入れられるようになっていましたが、モデルの操縦の重要性については、私たちに特有の考えでした。これは企業のお客様との実践的な場面でも多く見られます。モデルの信頼性、信頼性、予測不可能な行動をしないという確信が、企業でのモデル導入を実際に妨げているのです。
私たちはこの分野で最も優れた成果を上げており、そのため企業空間とスタートアップ空間の両方で急速に成長しています。私たちのAPIビジネスは他のどの企業よりも速く成長していますが、それでもこの問題は未解決です。この分野ではまだまだやるべきことがあります。私たちは最も優れた成果を上げていますが、まだ完全には解決されていない問題だと言えるでしょう。
スケーリング仮説の代替案はどのようなものだったのでしょうか?データが少なくても有用だと主張する人はいたのでしょうか?他のアプローチはあったのでしょうか?
代替案は、まだ発見されていない何らかのアルゴリズム的な秘密や科学的な秘密があるというものでした。それをスケールアップする必要があるのか、他に何か起こるのかは未定でした。2017年頃の主要なAI研究所に行けば、最も一般的だった仮説は、適切なアーキテクチャをまだ発明していない、あるいはディープラーニング自体が行き詰まりではないかというものでした。多くの人々が様々な方向を探っていました。今でもそうしている人たちはいます。賭けを分散させることは理にかなっていますが、スケーリング仮説の中心性は理解されていなかったと思います。
この2年間、私たちは皆、変化の速さとモデルのパフォーマンスに驚かされてきました。Claudeはもちろんその中心にいます。データの崖があるのではないか、あるいはもう1桁、2桁、3桁のスケールアップはできないのではないかと考える人もいますが、その点についてはどうお考えですか?
私はデータについて非常に楽観的です。まず、人々が気づいていないデータソースがあります。世界には多くのデータが存在します。
この段階でどのようなデータが必要なのでしょうか?
一般的に、高品質なデータが必要です。インターネットから100兆語、あるいは1000兆語を得ることはできますが、その多くは検索エンジン最適化のためのものです。実際の知識を含むデータが必要なのです。現在のインターネットは、反復的なスキーマや何であれ、汚染されています。これが一つの方向性です。
二つ目は合成データです。合成データを生成する方法は驚くほど多くあります。8年前のAIの世界に戻ってみましょう。8年前、Google DeepMindがAlphaGoを生み出した時、その第二版のAlphaGo Zeroは、人間のデータを使用せず、自己対戦だけで世界チャンピオンを打ち負かすことを学習しました。これは合成データの一形態と考えることができ、Anthropicでも同様の取り組みを行っています。
もう一度確認させてください。業界に残されているものを理解しようとしている私たちのために、合成データとは、例えば契約書や一部のコードを生成するということですか?
モデルが生成した、実データのように見えるデータで、それを学習に使用できるものです。モデルがデータを生成し、そのデータでモデルを学習させるというのは循環的に聞こえるかもしれません。そのため、囲碁の例を挙げたのです。自己対戦だけで、はるかに優れた能力を獲得する方法を見つけました。
循環的に聞こえますし、無から何かを生み出すことはできないように思えますが、適切に行えば、自己推進型の機械のようなものではなく…
そうですね。進化や市場によって生み出される複雑性を見てみると、無限の自己組織化プロセスがあり、それによってものごとをより良くすることができます。
データ仮説は変わっていないし、スケーリングも変わっていないということですね。モデルの改善速度について、速度、コスト、品質の観点からお話しいただけますか?
それは続くと思います。製品の観点から見ると、モデルの知性と、速度やコストとの間にトレードオフがあります。そのため、異なるモデルを提供しています。Haikuは小規模なモデルで、安価で高速、そしてその制約の中で可能な限り賢いものです。最近、Haiku 3.5をリリースしました。
中間にSonnetがあり、Opusが最大で最も賢いモデルですが、それに応じて少し遅く、より高価です。私たちの目標は、常にその境界線を押し広げることです。明日の小型で安価なモデルが、昨日の…
OpusがHaikuになる日が来るということですか?
たとえば、Haiku 3.5は多くの面でOpus 3とほぼ同等です。
すごいですね。APIビジネスについて触れられましたが、先ほど舞台では、Box AI Studioを発表し、お客様がAnthropicをAIモデルとして選択して、Box内でエージェントを構築できるようになります。文書の要約、タスクの実行、ワークフローの自動化、構造化メタデータの抽出などができます。企業におけるAIの位置づけはどのようにお考えですか?私たちのような知識労働者、あるいは非知識労働者との関係をどのように見ていますか?
私は強い直感を持っており、その証拠も見え始めていますが、AIがビジネスの生産性を向上させ、様々な産業を破壊的に変革する能力は、これまで見てきた以上のものです。
消費者向けが早期に先行していますが、企業での成長が急速に加速しています。この順序で進んでいる理由は、まさに先ほど話した信頼性と操縦性の問題です。非常に強力なモデルがAPIを通じて提供され、それを使って何かを構築したいと考えます。問題の一つは、お客様向けのものにすることができるのか、社内でさえ使用できるのか、分析の質を信頼できるのかという問題です。この1年半ほどは、非常に限定的な導入から始めて、それがどのように機能するかを確認し、そこから拡大していくという物語でした。スタートアップ企業で最も早く進んでいます。特にコーディング分野では、モデルを中心にビジネスを完全に構築する企業も見られます。
しかし、大企業にはさらに大きな価値創造の可能性があり、その指数関数的な成長が始まっていると思います。Boxを通じたモデルの使用や一般的なモデルの使用について、私のアドバイスは、大規模な導入を考えることです。幻覚、信頼性、精度、推論能力といった懸念は、私たちや他の企業からのリリースによって、月ごとに緩和されています。企業の価値創造の可能性は非常に大きく、スタートアップが先導していますが、より大きな企業へと移行し始めています。
消費者向けAIの利用に追いつき、追い越していく曲線を見始めています。
シリコンバレーなどで長年議論されている、これは仕事を奪うのか、それとも私たちをより生産的にして仕事を創出するのかという議論について、少なくとも短期・中期的な観点から、現在のお考えはいかがですか?
確かに短期・中期的には、人々をより生産的にすると思います。それは均一に移行するでしょう。平均的な労働者を動かすだけでなく、最も能力のある人々の能力も向上させます。比較優位という経済原理があり、これは非常に強力です。
たとえば、あなたが仕事をしていて、AIシステムが突然その仕事の90%をこなせるようになったとします。「私のような人の仕事が10%減る」とか「給料が10分の1になる」と思うかもしれません。しかし、実際に起こるのは、人間がその10%に集中し、それが仕事全体に拡大するか、AIを補完する新しい仕事が生まれ、AIシステムの弱点を緩和することです。
経済は人々のための新しい仕事を見つけるので、それは本当に移動するターゲットなのです。かつては多くのタイピストがいましたが、今では文書を作成して共有するのは本当に簡単です。人々が以前やっていた多くのことを今はしなくなりましたが、その上に構築される様々なものがあり、人々はコンテンツに集中する時間がより多くなっています。
もちろん、文字通りすべてのことでより優れたスーパーインテリジェントAIの世界もあるかもしれませんが、私たちはそのような世界にはいません。企業と話し、協働する中で見えてくるのは、人間の置き換えではなく、価値の創造と人間のレバレッジの増加です。
エコノミスト誌のエリック・ブライオンソンは、AIと自動化の経済学を20年近く研究しており、10年か15年前に「第二の機械時代」という本を書きました。彼の研究によると、デフォルトでは企業はAIで人間を置き換えようとするかもしれませんが、その場合の生産性向上は、補完的なアプローチを考える場合よりもはるかに小さいそうです。置き換えという考えは怠惰から生まれます。実際のギャップがどこにあるのかをより深く考えると、代わりに補完的なアプローチが生まれ、それがAIと人間がそれぞれ実際に得意とすることにより焦点を当てているため、生産性の向上も大きくなります。
AIに関する仕事の停滞について考える際、私は二つの誤りがあると思います。一つ目は、私たちが競争のない分野にいるわけではないということです。生産性の向上についてのあなたの指摘に関連して、私がAIを使って何かを自動化し、その利益を何らかの漠然とした利益目標のために蓄えておくという考え方があります。しかし実際には競争があり、その競争相手が利益を蓄えずに、会社と生産性に再投資する場合、私が利益を蓄えていては負けてしまい、事業から撤退せざるを得なくなります。
多くの場合、営業担当者やコーダーの生産性を向上させたときに得られる利益は、より多くのことができるようになるため、同じ機能や別の機能に再投資されます。これは労働の固定量の誤謬のようなものです。経済には固定量の仕事があるわけではありません。何かの作業がより効率的になれば、スキルは再配分され、再訓練されます。
これは、固定的な考え方という二つ目の点につながります。AIが高速化した一つのタスクをこなせば、次のタスクに移るだけです。タスクの数は有限ではありませんし、次の健康診断の予約を取るまでの時間が長すぎるという医療システムの問題のような課題は多くあります。医師の効率を10%向上させることができれば、医療システムの順番待ちがそれだけ早くなります。これらの産業の多くには無限の需要があり、AIが実際に私たちをより生産的にできれば良いのです。
これは、あなたが数週間前に書いたエッセイに話を導きます。圧縮された21世紀という非常に深遠な概念を提示されましたが、その論旨はどのようなもので、次にどこで展開されると予想されますか?
私の基本的な考えは、AIがほとんどのタスクでプロフェッショナルレベルを超え、数百万のこれらのシステムを構築できるようになった場合、これはデータセンターの中の天才の国のようなものと表現できるかもしれません。これは奇妙な状況です。文明はこのような状況に直面したことがありません。発明可能なものがすべて瞬時に発明されるとはどういうことでしょうか?
そうはならない理由をいくつか挙げていますが、考えられることの一つは、今後100年間で科学技術の分野で発明しようとしていることのすべてが、5年か10年で実現する可能性があるということです。私は以前生物学者だったので、特に生物学的な側面、つまり学術界からバイオテク企業、大手製薬会社に至る生物医学的発見に焦点を当てています。
衛生、ワクチン、抗生物質で対処できた比較的単純な病気は解決しましたが、がんやアルツハイマー病のような、より複雑な問題は依然として残っています。これらの複雑性を理解し、克服するために必要なのはAIなのではないかと考えています。私たちの多くが想像している以上に速くそれが実現する可能性があります。
これらの病気が非常に難しく、進歩が遅いという世界に私たちは慣れてしまっていますが、そうである必要はないと思います。正しく取り組めば、これらの「不治の」病気を実際に克服することができ、今日のペストやハシカを振り返るように、将来これらを振り返ることになるでしょう。
ペストを振り返るのは避けたいですね。現代版のそれから抜け出せることは素晴らしいことです。圧縮された21世紀は、多くの異なる分野で加速が起こるということですが、最後に、現在のAIで最も好きな使い方は何ですか?
一つはコーディングですね。これはClaudeの開発に多くの時間を費やしているからかもしれません。二つ目は文章を書くことです。このエッセイを書く時も…それは私が書いたものではないのですか?
私はClaudeを使って考えを整理します。すべての言葉は私から出ています。既存のLLMのスタイルは、本当に良い文章を書こうとする時にはまだ十分ではないと感じています。しかし、アイデアを生み出し、物事を考え抜くのに非常に役立ちます。最終版は自分で書きます。
素晴らしい。皆さん、ダリオをお迎えしました。パートナーシップに感謝しており、今後も協力を続けることを楽しみにしています。お越しいただき、ありがとうございました。
ありがとうございました。
コメント