今まで見たことのないAI – フラビアン・シェルベの講演

25,291 文字

L'IA COMME VOUS NE L'AVEZ JAMAIS VUE - Une conférence de Flavien Chervet
L'Intelligence Artificielle Générative déferle sur le monde depuis l'arrivée de ChatGPT. Son usage est si général qu'il ...

ご紹介ありがとうございます、エルベさん。今晩お話しさせていただく機会をいただいて、ディモにも感謝します。
みなさん、テレビのリモコンで困ったことありませんか?あ、大丈夫ですね。ChatGPTを使ったことのない人おられます?今晩はギークの集まりですからね。あ、まだ何人かおられますね。もちろん、ChatGPTについてもお話ししますが、それだけではありません。すでにたくさん聞かれたと思いますし。
今晩は、前に私の講演を聴かれた方もおられますが、普段やっているデモを工夫してみました。複数のAIシステムを連携させて、うまく使えばどんなことができるのかをお見せするデモなんですが、さらに進化させてみました。前に見られた方も、最後にちょっとした驚きがありますよ。初めての方には、私がデモを楽しむタイプだということがわかっていただけると思います。システムで遊ぶのが好きなんです。
普通、人工知能の話をするときは、複雑なアルゴリズムの図とか、スライドにちょっと見づらい図が出てきますよね。そういうスライドも1枚だけ用意してますから、ご心配なく。とても重要なアルゴリズムの図です。でも他のスライドは、もっとアート的なものを見ていただこうと思います。素晴らしいスクリーンと会場がありますからね。
もちろん、これらのイラストはすべて私とAIシステムの共同制作です。「Jour」というAIを使いました。私は1ピクセルも描いていません。ただ私の意図をAIシステムに伝えて、AIが想像力を働かせて、最近よく言われる人工的な想像力でこれらの画像を作り出しました。これは私が進めている漫画プロジェクトのインスピレーションボードで、すべてうまくいけば2025年に人工知能と社会への影響について出版される予定です。
生成AI、少なくともその言葉はメディアで聞いたことがあると思います。今のトレンドワードですからね。生成AIは新しいものではなく、少なくとも10年前からあります。でも、今起きていることは生成AIの登場以上に深いものだということをお見せしたいと思います。生成AIを使えるようにした背景にあるものこそが、社会を大きく変えていくんです。今晩、みなさんに素敵な夢を見ていただけるといいですね。悪夢かもしれませんが、それは私の話をどう解釈されるかによります。
私は10年…いや、今や11年になりますが、人工知能の分野にいます。この白髪が証拠ですね。リヨンで人工知能の仕事を始め、リヨン・メトロポールや他のAI関係者と一緒に、AIの倫理について考える協会を立ち上げました。そして徐々に、人工知能に対する学際的なアプローチを発展させてきました。今晩もそれを感じていただけると思います。
もちろん技術の話もしますし、ビジネスやみなさんの会社での活用事例についても触れます。でも、アートの視点も取り入れながら、哲学的な考察も加えて、これが私たちの社会にどんな影響を与えるのか、より深く理解しようと試みたいと思います。
私はフラビアン・シェルベと申します。最後に私の新刊の署名会もありますので、ぜひお気軽にお越しください。気軽に話しかけていただいて結構です。
人工知能の分野に10年いますが、ここ1年半ほどは約10個のAIシステムに囲まれて日常を過ごしています。1日20〜30回はAIを使っていて、明らかにGoogleよりも使用頻度が高いです。今日、電気が使えなくなったら仕事が大変になると思いますが、私からAIを取り上げられたら…まあ、始めてまだ1年半ですから適応はできるでしょうが、効率は確実に落ちると思います。
具体的な数字は持ち合わせていませんが…ありがとう、雨のおかげで雰囲気が出ましたね…私の実感では、効率は10倍になったと思います。この1年半、AIシステムのおかげで、私の周りに作り上げた小さなインテリジェントな専門家エコシステムのおかげでできたことは、私自身が驚くほどです。
でも特に、創造性が爆発的に高まりました。なぜなら、何かを実現したいと思うとき、創造的であるためには、それが実現できるということを知っている必要があります。現代のAIシステムは、これからお見せするように、スーパーパワーを手に入れたような感覚を与えてくれます。使い方は簡単で、得られる結果は本当に素晴らしいものになります。
できるということがわかれば、やりたいという気持ちも生まれてきます。そして…これは講演の最後でより哲学的な話になりますが…私の感受性も大きく高まりました。こういったエコシステムの中で過ごしていると、人間とは何かについて、たくさんの問いが生まれてくるからです。講演の最後では、そこに焦点を当てたいと思います。
これが1年半の経験ですが、この技術はすでにしっかりと確立されています。私が分野に入った時にはすでに何年も前からあったわけです。ちょっと考えてみてください。人工知能という言葉が初めて登場したのはいつだと思いますか?5秒ほど考えてみてください。
前に私の講演を聴かれた方は知っていますね。いい生徒さんになった気分でしょう。1956年です。人工知能という言葉は1950年代に登場しました。かなり昔ですね。最初は情報科学の一分野で、脳の認知機能をシミュレートしようとしていました。例えば、シロアリの巣全体としては非常に知的ですが、1匹のシロアリはそれほど賢くないというような認知機能です。
認知機能をシミュレートする…20世紀を通じて、この分野は発展していきました。20世紀の終わりには、それまでに作られたものは「人工知能」とは呼ばれなくなりました。エキスパートシステムなど、みなさんの会社の周りにもたくさんありますよね。すでに広く普及していますが、それはとても機械的な、従来型の情報処理になっています。もはやAIとは呼ばれません。
現代の人工知能は、1950年代に始まったとはいえ、本当の意味で現れたのは2000年代です。特定の認知機能のシミュレーションによってです。それは知能の中核にある機能で、他のすべての機能を可能にするものでした。ここでも5秒考えてみてください。知能の最も基本的な認知機能は何だと思いますか?
後ろで誰かが「記憶!」と言っていますね。いいえ、学習です。学習ができれば、他のすべての認知機能を学ぶことができるからです。知能とは環境に適応する能力です。だから木は哺乳類ほど脳を必要としないんです。動く必要が少ないので、環境の変化も少ない。つまり適応能力であり、適応するためには学習できることがとても重要なんです。
ちなみに、私たちの変化の激しい世界では、唯一不変のスキルは「学び方を学ぶ」ことです。2000年代に、機械学習(マシンラーニング)と呼ばれるものが始まりました。学習できるアルゴリズムです。
これは私たちが普段コンピュータで使っているような情報処理とは全く異なるタイプのアルゴリズムです。人工ニューラルネットワークに基づいていて、生物学的なニューラルネットワークからインスピレーションを得ています。
1つのニューロンをシミュレートするのは比較的得意で、ニューロン同士をつなげてネットワークを作ることもできます。大きなネットワークを作ると、学習能力が生まれてきます。つまり、人間や動物の脳の働きからヒントを得ているわけです。
機械が学習するというのは、すでにすごいことです。普通の道具は受動的なものですからね。飛行機の設計図と実際の飛行機の間には、もちろん材料の違いがあり、現実世界で実現するときには複雑な問題が生じます。でも最終的に、飛行機に含まれているものはすべて設計図にあるはずで、逆に設計図があれば何ができるかがわかります。
学習するシステムは全く違います。ニューラルネットワークの設計図があっても、それは知能を持っていません。製油所はあるけど、ガソリンはない、という感じです。例えば、ChatGPTの背後にあるニューラルネットワークは、無料版で約170行のコードです。たいしたことないですよね。
このアルゴリズムが根本的に違うのは、学習できるということです。設計した以上のものに発展していくんです。訓練されたニューラルネットワーク、つまり人工知能は、アルゴリズムの設計図とは全く異なるものになります。このアルゴリズムからは、私たちが予期していなかったことがたくさん現れてきます。後でまた話しましょう。
機械学習は2000年代に本当の意味で現れました。それまでは現実的ではなかった理由が2つあります。ニューラルネットワークは、絵本を見ている子供のように学習します。カバの絵を見せると「キリン!」と言い間違える。「違う、カバだよ」と教えると修正します。また間違える、また修正する、また間違える、また修正する。3頭のカバを見ると、一般化してカバの概念を理解します。
AIの講演でカバの話が出てくるとは思わなかったでしょう?新しいカバを見ても、一般化して理解できるようになります。AIシステムも同じですが、何百万もの例を見せる必要があります。
2000年代以前は、デジタル世界にそれだけのデータがありませんでした。でも2000年代に、私たちみんながインターネットに接続し始め、21世紀の目に見えない石油、つまりデータを生成し始めました。
これが21世紀の目に見えない製油所であるニューラルネットワークに入れられると、私たちの文明を動かす21世紀の燃料である知能が生まれます。2000年代はデータの時代、ビッグデータの時代の幕開けでした。
ITフォーラムにいらっしゃる方々なので、データという言葉には慣れていると思います。これらは機械に世界を学ばせるための例です。みなさんも参加されていますよ。例えば、インターネットでCAPTCHAを入力するとき…あの小さなボックスで「私はロボットではありません」と証明するやつです。
21世紀最大の詐欺かもしれませんね。間違った答えを入れても時々通ることに気付いたことはありませんか?実は多くの場合、CAPTCHAが2つあって、1つ目で本当に人間かどうかを確認します。正しい答えを入れると、2つ目は最初の回答が正しかったので、正直に答えてくれるだろうと考えて、データにラベルを付けるためだけに使われているんです。
手書き文字認識(OCR)を開発したいとき、CAPTCHAで「w3zx」と書かれた文字を見せて、デジタルで「w3zx」と入力させる。人間に文字言語の仕組みをAIに教えさせているわけです。
自動運転車を作りたくなると、横断歩道や信号を選択させるようになりました。今日では、AIが再構築しなければならない穴のある画像が必要なので、パズルのピースを動かさせています。そしてまもなく、3Dオブジェクトを回転させるCAPTCHAが増えてくるでしょう。
現在、3D環境をモデル化できるAIシステムを訓練するための3Dデータが不足しているからです。これはクラウドソーシングと呼ばれますが、一部の人々の利益のために、他のすべての人々を犠牲にしているわけです。このシステムの倫理性については、みなさんご自身で判断してください。でもこれが真相です。
2000年代に機械学習が発展し、みなさんが毎日使っているようなアルゴリズムができました。例えば、スパムフィルターです。スパムフィルターはニューラルネットワークで、60万通のスパムと60万通の非スパムを見せることで、スパムとは何かを自分で一般化することを学びました。
スパムの特徴をすべて記述する必要はありません。すべてのスパムが異なるので、それは非常に複雑な作業になるでしょう。でも一般化することができて、優れたスパムフィルターになるんです。
2010年代には発展が続き、より大きなニューラルネットワークを作るようになりました。これはディープラーニング(深層学習)と呼ばれています。ネットワークが大きいので、ニューロンがネットワークの深い部分に組み込まれている…だからディープラーニングです。
ディープラーニングによって、より産業化可能なユースケースが実現できるようになりました。典型的なのは人工視覚、つまりアルゴリズムが人間よりも優れて世界を見る能力です。iPhoneをお使いの方は、顔認識のFace IDがディープラーニングです。顔を認識する大きなニューラルネットワークが、あなたの顔を他のすべての顔と区別することを学習しています。
産業界では例えば、トタルのように、パイプラインにドローンを飛ばすことができます。ドローンがあらゆる場所の写真を撮り、パイプラインの小さな欠陥を認識するように訓練されています。これにより予防保守が可能になり、故障する前に修理できます。
放射線科医なら、骨折のあるレントゲン写真100万枚と骨折のないレントゲン写真100万枚でAIを訓練して、人間の放射線科医よりも優れた精度で骨折を認識させることができます。これにより自動診断が可能になります。現在の社会では責任の問題から、まだ人間による補助的な使用にとどまっていますが、例えばアフリカの医療過疎地域では、自動診断がすでに広く普及し発展しています。
これらのシステムはすでに私たちの周りのいたるところにあります。iPhoneの最初のページにあるアプリケーションを見ても、この会場の平均で10個中9個はディープラーニングが中核にあると確信しています。
これは目に見えないAI、すべてのAIです。では、なぜ今まではChatGPTのように日常的に使えるAIがなかったのでしょうか?なぜ革命は今起きているのでしょうか?
それは3つの障壁があったからです。まず、大量のデータが必要でした。すでに述べたように、誰もがデータを持っているわけではありません。デジタル大手企業ならデータに基づいてビジネスモデルを構築していますが、そうでない場合は必ずしも簡単ではありません。
さらに、CRMやERPにデータがあっても、使えるようにするためには整理されている必要があります。大量の計算能力も必要で、これはコストがかかります。そして専門知識も必要です。AIエンジニアの人材は限られていて、これもコストがかかります。
さらに、扱えるユースケースはとても限定的でした。放射線科医が同僚とともに、レントゲン写真からがんを識別する別のアルゴリズムを欲しいと思っても、新しいデータ、新しい計算能力、新しい専門知識で新しいアルゴリズムを訓練する必要がありました。
つまり、非常に限定された各ユースケースに対して、膨大なコストがかかり、参入障壁が高かったのです。今、私が挙げたすべての障壁が崩れ去りました。
これは人工知能の革命ではありません。そういった革命は既に4、5回ありましたし、人工知能の冬と呼ばれる時期もありました。科学技術の現象であるすべての革命は約束をもたらし、その後それが実現されないのは当然のことです。
現在、私たちは人工知能の革命の中にいるのではなく、AIの破壊的革新(ディスラプション)の中にいます。ガートナーのハイプ・サイクルをご存じなら、私たちは技術の出現時点ではなく、成熟の時点にいるのです。
ディスラプションは、クリステンセンが導入した用語で、一部の人々のためのものが大多数の人々にアクセス可能になるときを指します。これは世界を変えます。インドのタタの車により、突然インドの誰もが車を持てるようになった…これは社会の力関係を完全に変えます。
ディスラプションは、あるものが大多数の人々にアクセス可能になるときです。これは科学技術的な現象ではなく、社会経済的な現象です。AIは現在まさにディスラプションの最中にあります。
ブロックチェーンはまだディスラプションに至っていません。IoTもまだです…まさに始まったところです。AIは完全なディスラプションの只中にあり、それによってIoTのディスラプションも可能になるでしょう。
では何が起きたのでしょうか?それは3段階で起こり、GPTという略語の意味を理解する助けにもなります。ディスラプションの最初のブロックは、2017年の技術革命です。
これが私の醜いスライドです。お約束した通りですね。これはGoogleの研究者たちが自分たちの頭脳で生み出したもので、AIが生成したものではありません。これはTransformerと呼ばれるアルゴリズムの図で、GPTの「T」にあたります。
ChatGPTの背後にはこのような仕組みがあるわけです。理解する必要はありませんが、一度見ておくのはいいでしょう。このアルゴリズムは当初、機械翻訳のために作られました。
2015年に機械翻訳をアルゴリズムで行うと、言語の専門家に見せられたものではありませんでした。でも私の最初の本は、5月に出版されましたが、完全にTransformerで英訳しました。英語のネイティブに読んでもらいましたが、AIが翻訳したとは信じてもらえませんでした。英語での私のスタイルが守られているんです。
Transformerは完璧な翻訳ができます。これだけでも革命です。なぜなら、これは歴史的な出来事だからです。私たちは言語の障壁の周りに文明を築いてきました。バベルの塔の神話をご存じですよね?なぜ言語によって分断されているのかを説明する聖書の物語です。その言語の障壁が今、崩れ落ちようとしています。
現在、Raybanとメタが協力して作ったメガネが登場しています。日本人と話すとき、あなたはフランス語で話し、リアルタイムで字幕が表示されます。まもなくTeamsでは、日本人と話すとき、あなたはフランス語で話し、相手は日本語で話します。あなたは相手の声で、口の動きも同期された形でフランス語で聞き、相手はあなたの声で日本語で聞くことになります。
これはすでに存在します。Agenと呼ばれていますが、まだリアルタイムではありません。言語の障壁が崩れることは歴史的な瞬間です。これがビジネスや個人生活、市民としての生活にどのような影響を与えるか、考えてみてください。
2番目に重要なのは、Transformerが言語を適切に翻訳するために、言語の構文(単語の並び方)ではなく、セマンティクス(意味)に注目する必要があったことです。これらは、人間の脳とは異なる統計的な方法で、言われていることの意味を処理できる最初のアルゴリズムです。
だから私の本全体をTransformerに通すと、翻訳してくれて、英語で意味を尊重するために数ページ全体を変更する必要があれば、そうしてくれます。単語ごとの翻訳にこだわらないんです。これらのアルゴリズムは意味を理解し、300ページの本を1回のデジタル思考で理解できます。これは私たちとは全く異なります。
適切に翻訳するために、これらのアルゴリズムは本当に人間の言葉を理解し、話す必要があります。これも革命です。私たちには30年の中世的なデジタル時代がありました。
これまでのデジタルは複雑さを前提に設計されていました。使うのが難しいデジタルです。Photoshopのインターフェースはボタンだらけ、Excelは結局人々を枠の中に入れてしまう…これらは機械のために作られたインターフェースで、私たちが機械の考え方に適応しているんです。
CRMやERPは、幸いにもビジネスで必要ですが、決して使いやすくはありません。人工知能のおかげで、CRMやERPを使いたくなるでしょう。なぜなら突然、デジタル世界全体のインターフェースが、人間にとって最も自然なインターフェース、つまり自然言語になるからです。
AIは私たちが知っているデジタルの延長線上にあるのではありません。それは断絶です。機械を非人間化する代わりに、AIは機械を、そしてデジタルをますます人間化していきます。
これは、自発性や人間的な温かみ、機械との象徴的な関係もすべて含むということです。私たちはみな、まもなく知的なアシスタントを持つようになり、それがデジタル世界全体とのインターフェースとなり、会話するようになります。
そして次第に、ChatGPTに対してそうしているように、温かく人間的な調子で話しかけるようになるでしょう。きっとすでに感謝したことがあると思います。少なくとも多くの人がそうしています。
続けてください、それはとても良いことです。機械を使っているからといって、自分を非人間化する必要はありません。
Transformerがもたらす3つ目の重要な点は、人間の言葉を理解し話すため、そして意味を処理するために、このアルゴリズムは3つのルールを見つけるだけでは満足できないということです。
言語を生成するアルゴリズムを統計的に浮かび上がらせる必要があります。言語は私たちの知性へのインターフェース、プロキシです。それを適切に理解するために、これらのアルゴリズムは、私たちの知性の多くを浮かび上がらせる必要があります。
もちろん、私たちの脳とは全く異なる方法で、大きな統計的ネットワークの中で行われますが、統計的に推論能力、創造性、類推能力、論理などの能力を浮かび上がらせる必要があります。
これは「ダークナレッジ(暗黒知識)」と呼ばれています。物理学には暗黒物質があり、人工知能には暗黒知識があります。これは、単に言語を学習することから、アルゴリズムの中に浮かび上がってくるすべてのものです。
なぜなら、言語の背後には思考全体があり、人間の言葉を適切に話すためには、少し人間のように考える必要があるからです。これらのアルゴリズムは私たちのように知的というわけではありません。人間的な特徴を持たせすぎないようにする必要があります。
でも言語を生成するためには、多くの知性を浮かび上がらせる必要があります。だから私は、人工知能というより、デジタル知能と呼ぶことを好みます。「人工的」という言葉の背後には、たとえそれが正しいとしても(確かに人工物であり、道具です)、これは本当の知性ではないという考えがあります。
これは私個人の意見ですが、機械の中に本物の知性があると考えることに慣れる必要があると思います。たとえそれが私たちとは異なる形であっても。私たちとは全く異なる方法で知的な宇宙人に出会うかもしれません。最初の接触は私たちの惑星で起こるでしょう。
さて、GPTの「T」はTransformerですが、「P」は基盤(foundation)のPです。これがすべてを変える本当のキーワードです。生成AIではありません。これこそが現在の革命の核心です。
基盤モデルはTransformerに基づいています。従来のディープラーニングとは正反対のアプローチです。コストがかかるため、非常に限定的だが有用な問題を解決するようにアルゴリズムを訓練する代わりに、完全に無用な一般的な問題を解決するように訓練します。例えばChatGPTのすべての知性は、インターネット上のテキスト全体で次の単語を予測することから生まれています。最初の単語を見せて2番目の単語を予測させ、間違えたら修正して、正解に近づくようにニューラルネットワークを調整します。
最初の2単語を見て3番目を予測し、間違えたら修正し、4番目を予測し、間違えたら修正し…というように。数十億、数百億、数千億の単語でこれを繰り返すと、統計的な言語理解が生まれます。次の単語を適切に予測するためには、言語を理解する必要があるからです。
基盤モデルはあらゆる分野にあり、常に情報の一部をマスクするという考え方です。言語なら次の単語、このような画像を作るための基盤モデル(私が使っているMidjourneyなど)では、画像の一部を削除して、欠けているピクセルを再構築させます。
動画なら次のフレームを予測させ、3Dなら見えない部分(オクルージョン)を予測させ、その後確認します。このように、欠けているデータを予測しようとすることで、データを理解することを学びます。
基盤モデルと呼ばれる理由は、一度訓練されると、その分野のすべてのユースケースの基盤となるからです。以前なら、レントゲン写真の骨折認識とがん細胞認識で異なるアルゴリズムを訓練する必要がありましたが、医療画像の基盤モデルがあれば、すべてのユースケースがすぐに使えます。
従来のモデルでYouTubeのコメントをポジティブ・ネガティブに分類したければ、専用モデルの訓練が必要でした。言語の一般的な基盤モデルであるLLM(Large Language Model)、例えばChatGPTがあれば、自然言語でポジティブなコメントとネガティブなコメントの例を3つずつ示すだけで、その特定のタスクに特化します。
ファインチューニングや洗練化と呼ばれますが、そのタスクに特に優れたものになります。つまり、基盤モデルを作るには、さらに多くのデータ、さらに多くの計算能力、さらに多くの専門知識が必要です。
しかし一度作ってしまえば、あらゆるケースに対応でき、もはやデータも計算能力も専門知識も必要ありません。必要なのは、一つの非常に貴重な資源、想像力だけです。これが、これからのAIの石油です。
私たちは複雑さではなく、シンプルさの革命の中にいます。デジタルをますます自然言語で使うようになり、私たちの意図を理解して、複雑な機械的なインターフェースで意図を仲介する必要なく、要求を実現してくれるようになります。
そして、人工知能のために多額の支出をする必要もなくなります。私のような普通の人でも、日曜の夜に世界最高のAIシステムを月20ドルで使えます。ChatGPTのサブスクリプションさえあれば…以前のバージョンなら無料です。
これは歴史的な瞬間です。だからChatGPTは火事のように広がったんです。AIシステムが成熟し、しかも劇的にアクセス可能になったからです。AIは商品になりつつあります。
したがって、企業がこの機会を活用しないのは問題かもしれません。他のすべての企業がそうできるわけですから。これは重要な時期です。そして、これは技術的な時期であると同時に、人間の時期でもあります。
企業における能力の問題であり、単なる新しいツールの問題ではなく、文化の変革の問題です。なぜなら、これは本当に火事のように広がっていくからです。すでにアメリカでは、ChatGPTのようなAIシステムの企業普及率は68%です。
フランスはかなり遅れていますが…アメリカではChatGPTのようなツールで生産性が高まっています。GPTの「P」はどこにあるのかと疑問に思われるかもしれません。「P」は「Pre-trained(事前訓練済み)」のPです。
特定のタスクに特化させる前に、一般的なタスクでこれらのモデルを事前訓練するという考え方です。つまり、Pre-trained Transformers(事前訓練済みTransformer)です。
そしてGPTの「G」は…もちろん「Generative(生成的)」のGです。生成AIとは、例を認識するためではなく、訓練例に似た新しい例を一から生成できるように訓練されたAIです。
これも長い間存在していました。2016年…これはTransformer以前なので、人工知能の先史時代ですが…2016年にデルフト大学とマイクロソフトが科学的・芸術的な実験を行いました。
オランダの巨匠レンブラントのすべての絵画でAIシステムを訓練し、新しいレンブラントを生成させました。非常に徹底的に行い、画家が絵の具をキャンバスに塗る方法を示すためにX線画像もアルゴリズムに見せました。
そしてアルゴリズムは3Dプリンターで、一滴ずつ絵の具を塗り、実際に絵を描くことができました。この絵は実在し、アムステルダムのギャラリーに展示されています。「The Next Rembrandt」と呼ばれています。
これは偽物の本物のレンブラント…分類が難しいですね。純粋な模倣です。レンブラントを完璧に知るように特化した訓練を受けたアルゴリズムが、すでにあるレンブラントのデータを再現したんです。
見せてみましょう、目の保養になります。こちらがレンブラントで、こちらが偽物のレンブラントです。さあ、考えてみてください。どちらが「The Next Rembrandt」、偽物だと思いますか?画像AですかBですか?
どちらを選んでも、正解だったふりができますね。私が一人一人確認するわけではありませんから。偽物は画像Bで、「The Next Rembrandt」と呼ばれています。「ああ、そうだよね」という人もいますね。
実物を見ても、見分けるのは難しいと思います。レンブラントの専門家の28%が一目見ただけでは騙されました。近づいて見ると、絵の具が当時のものではないことなどがわかりますが、ぱっと見では専門家の28%が騙されたんです。
このような生成AIは興味深いものですが、基盤モデル以前は、モデルが非常に限定的だったため、既存のデータを再現するだけで、新しい価値は生まれませんでした。芸術的な実験としては面白かったですが。
基盤モデルを手に入れると、突然スペースができます。その分野のあらゆるタイプのデータを生成できる余地が大きく広がります。一般的なデータで訓練された基盤モデルは、その分野内のあらゆるタイプのデータを生成できます。
ChatGPTのような言語の大規模モデル(LLM)つまり言語の基盤モデルがあれば、どんなテキストでも生成できます。画像のMidjourneyなら、このような画像を生成できます。これは既存の画像のパッチワークでも、既存のスタイルの内挿でもありません。
これは完全にユニークなスタイルで、私がアルゴリズム内のすべての可能な画像の空間を探索して、自然言語で適切なコマンドを与えると、この種の画像を出力する小さな領域を見つけました。
自然言語で話しかけて、「黒い肌の人型生物を、白い宝石をまとった姿で、黄色い花の背景の中に」といった感じで説明すると、このような画像が得られます。
DALL-E(MidjourneyのライバルでChatGPTと同じOpenAIが開発)のバージョン3で、生成できる画像の数が計算されました。とんでもない数字です。8の後に80桁の数字が続きます。宇宙には10の24乗個の原子しかありません。
組み合わせが爆発的に増えると、私たちの表現能力をはるかに超えてしまいます。とにかく、これらのシステムには創造のための大きな余地があります。これは大きな象徴的な変化です。
これまでの人類のツールはすべて、人間ができることを増強し、自動化するためのものでした。ハンマーはより強く叩けるようにし、車はより速く走れるようにします。生成AIシステム、そして特にその後に続く、さらに創造性の高いシステムは、私たちの創造に積極的に参加します。
これは機械やツールの世界では以前には達成されなかった、非常に文化的なものに積極的に参加するのです。文明の歴史は戦争と創造の歴史です。歴史的な出来事として記録されているのは、偉大な創造と戦争です。
AIが戦争に使われすぎないことを願います…もちろんこれは重要な問題ですが…とにかく、AIはますます創造に使われ、私たちの文明の文化的発展に参加するようになります。
これらのアルゴリズムは依然として人間の創造性のためのツールですが、実際、これは私の最初の本のテーマですが、人工的な好奇心を持ち、独自に世界を探索し、人間とは異なる世界との関係を発展させ始めている、全く別の種類のアルゴリズムもあります。
人間には決して見つけられないものを見つけ、人間とは異なる方法で創造的になり、時には人間以上に創造的になります。私たちにはすべてのバイアスがありますからね。
私たちはこのことを認識していません。これは一種のナルシシスティックな傷です。私たちは機械よりも優れていると感じたがります。なぜなら私たちは少し横に寄れて、素晴らしく、カラフルで、創造的だからです。
でも創造性は魔法ではありません。これは良いニュースです。機械が創造的であることは素晴らしいことです。これによって機械はさらに人間らしくなります。
つまり、創造の世界でも革命が起きているわけです。ここまで30分ほどかけて現在の革命について理解してきましたが、ここからデモンストレーションを提案したいと思います。
複数のAIシステムを連携させて、創造的なことをやってみましょう。もちろん、これは人間と機械の共創になります。自律的に創造的になれるアルゴリズムについては話しませんが、それでも面白いはずです。
大手ジュエリーメーカーと協力して、職人とともに生成AIを使う方法を研究しました。職人の本物らしさ、適切な動作を保ちながら、どこにAIを位置付けるか、そして同時にこれらの新技術と協力する方法を探りました。
そこでジュエリー制作に関するデモを作ってみました。車やワインボトル、スニーカーなど、何でも作れますが、ジュエリーは視覚的にも分かりやすいのでいいですね。
では、まずChatGPTをご紹介します。まだ見たことのない方もいらっしゃるかもしれません。非常にシンプルで、要求を入力できるウィンドウがあります。
人間に話しかけるとき、「おばあちゃんに話しかける」「恋人に話しかける」などと言いますよね。AIシステムへの話しかけ方は少し異なり、その違いを強調するために新しい言葉が導入されました。
「プロンプト」というのが最近の流行語です。「プロンプトエンジニアリング」という新しいスキルが急速に発展していて、今年のスキルトレンド第1位です。
プロンプトエンジニアリングあるいはリクエストエンジニアリング(英語のpromptは「リクエスト」の意味)は、AIの耳に囁くアートとも言えます。自然言語を適切に扱い、AIから最高の結果を引き出す方法を知るアートです。
これは私たちとは少し異なるデジタルな知性なので、インターンや上司に話すのとは少し異なる方法で話しかける必要があります。これから見ていただくプロンプト、つまりAIへのリクエストは、かなり練られたものです。
例えば、「創造的なジュエリーのコンセプトを提供してください」というのは悪いプロンプトです。2つの理由があります。
まず、トレーニングデータを考える必要があります。これらのAIシステムは、インターネット上のテキストを通じて世界を学習しています。インターネット上で「創造的なジュエリー」という言葉を見かけるのは、優れたジュエラーのサイトではありません。一流のジュエラーは自分のジュエリーを「創造的」とは言わず、より力強い言葉、「大胆な」などを使います。
「創造的なジュエリー」というのは、クレアのファンタジージュエリーのようなものです。もちろんクレアには敬意を表しますが、ポジショニングが異なります。本当に創造的で大胆なジュエリーを求めるなら、「創造的なジュエリー」以外の言葉を使う必要があります。
第二に、これらのアルゴリズムは、次に来る最も確率の高い単語を生成することで応答するように学習しています。次の単語を予測することを思い出してください。人間的な意味での思考はせず、これは現在研究中の大きなテーマですが、現時点ではプロンプトを入力すると、最も確率の高い単語で応答します。
確率は非常に大規模になると知性をシミュレートしますが、最も確率の高い単語で応答するのです。「創造的なジュエリーのコンセプトを提供して」と要求すると、プロンプトが非常に一般的なので、最も基本的な応答しか得られません。
もし独創的で差別化された、価値を生み出す応答を得たいなら、プロンプトに予測不可能な要素を入れる必要があります。そうすれば、最も確率の高い応答自体が予測不可能なものになります。
したがって、単に「創造的なジュエリーを提案して」というような状態を超えたプロンプトを作る必要があります。ChatGPTを初めて使うとき、多くの場合、とても基本的なプロンプトを作ってしまいます。
「この職務の求人票を作って」などと要求しますが、より洗練された要求をすることで、より洗練された応答を得られます。私の2冊目の本は、フランス初のプロンプトエンジニアリングマニュアルです。
2つの頭字語について説明しています。GIGOは「Garbage In, Garbage Out(ゴミを入れればゴミが出る)」の意味です。入力がゴミなら出力もゴミになります。つまり、問題は機械の反対側にあるということです。
2つ目の頭字語はVIVOで「Value In, Value Out(価値を入れれば価値が出る)」です。入力に価値があれば、出力にも価値があります。人工知能システムには、知性の総和を高めるために人間の知性が必要です。
これらのシステムで人工的な平凡さを生み出すことも十分可能です。では始めましょう。ChatGPTが応答している間に、このプロンプトについて説明します。
「あなたは非常に創造的な高級ジュエラーです」これはロールプロンプティングと呼ばれ、相談したい専門家の役割をAIに与えます。これも統計の問題です。
インターネット上で、ジュエラーがジュエリーについて話すとき、一般の人が話すよりも専門的に話します。したがって、これを言うことで、より専門的な応答を統計的に導き出します。すべてのプロンプトの始めに、相談したい専門家の立場をAIに与えるのは非常に良い習慣です。これは純粋に統計的な効果です。
「大胆なジュエリーのコンセプトを作る必要があります」再び、言葉の選択…そして創造的な方法論を与えます。創造性において、遠く離れた関連付けを行う方法論があります。めったに一緒にならないものを、しかし意味のある形で結びつけることです。
そこでChatGPTにそれをやってもらいます。ジュエリーの世界とその世界から遠く離れたアーティストを結びつけて、それぞれのアーティストについてジュエリーを提案してもらうのです。
「建築家、ジャクソン・ポロック」…おっと、セリーヌを入れてきました…初めてですね。草間弥生も。もっとグラフィカルなアーティストにしましょう。ジュエリーの方が見栄えが良くなります。
応答してくれました。それぞれのアーティストについてジュエリーのコンセプトを提案しています。ジャクソン・ポロックについては、あのドリッピング、キャンバスに絵の具を垂らす技法を取り入れて、「メダリオンフレームの中にカラフルなエナメルをランダムに配置したペンダント」などを提案しています。
ソル…ポロックも悪くないですね。ブリジット・ライリーを試してみましょう。ちょっと見てみましょう。ブリジット・ライリーはこんな感じです。色が足りないかもしれません。
マレーヴィチ、これはいいかもしれません。マレーヴィチは本当に純粋な…セリーヌはどうでしょう。普段は、カンディンスキーなど、もっとカラフルなアートを提案してくれます。色が足りませんね。画面映えのために、もう少し色が欲しいです。
ヴァザレリ!これですね、色のある錯視芸術です。ヴァザレリ、これが錯視芸術で、確かにとても色鮮やかです。機械と対話して少し改良することができます。
このヴァザレリのコンセプトを取り、2つ目のプロンプトを試してみましょう。これは面白いプロンプトで、プロンプトを作るためのプロンプトです。ChatGPTに「ヴァザレリのコンセプトを残して」と言い、別のAIシステム、私が画像に使っているMidjourney(現在市場で最高のシステム)のプロンプトの仕組みを説明します。
ChatGPTはMidjourneyを知らないので、Midjourneyのプロンプトを求めても良いプロンプトは作れません。そこでMidjourneyのプロンプトの仕組みを説明し、例を示して、先ほど提案してくれたコンセプトのプロンプトを直接作ってもらいます。
ご覧の通り、完全に指示に従って、ここにプロンプトを提供してくれました。Midjourneyは英語の方が良く機能するので英語です。視覚的な言葉を使って、ジュエリーを表現しています。
最後にいくつかのキーワードを追加するよう依頼しました。ジュエリーを美しく見せるために効果的だとわかっているキーワードです。このプロンプトをコピーして、Midjourneyに移動します。
さあ、大きな瞬間です。ご注目ください。現在、Midjourneyは一般向けにはまだベータ版とされていて、Discordという非常に扱いにくいインターフェースを通じてアクセスする必要があります。
私は彼らのベータテスターなので、まだ一般公開されていないプラットフォームにアクセスできます。みなさんの目の前で、Midjourneyが数週間か数ヶ月後に間違いなくリリースするであろう一般向けプラットフォームをご覧いただいています。
これは私が作った画像ではありません。コミュニティが作成したものです。パブリックスペースにいます。見てみましょう。誰かがここにプロンプトを入れて、「女性兵士が戦っている」などと書いて、ご覧になった画像が生成されています。
私のプロンプトをここに貼り付けて送信します。createで…時計やその他のテストをしてきました。画像が生成されているのがわかります。25%…28%…AIシステムが統計的に4つのジュエリーの提案を考えています。
私は何のジュエリーだったか読んでいませんでした。ヴァザレリにインスパイアされたブートニエール…ブートニエール、幾何学的な形で、非常に良いですね。うまく機能しています。
このようなものができました。これは本当に面白く、独創的ですね。高解像度でダウンロードします。もう少し近くで見てみましょう。一種のブートニエールです。私の小さなスカラベの代わりになるかもしれません。
画像を取得して、もう一つ別のAIシステムを使います。これは画像の意味的認識を行うシステムです。ここでは単純に背景を削除するだけです。
それ以上の複雑なことはありません。以前はPhotoshopで画像の輪郭を取るのに時間がかかりましたが、今は瞬時にできます。なぜならAIが画像の内容を認識できるからです。
ダウンロードしたので、背景なしで使えるようになりました。もっとクリーンに使えます。3つ目のプロンプトに移りましょう。
また別のAIシステム…確かにデモに追加したんでしたね。Sunoという音楽システムです。音楽に移ります。
ジュエリーと一緒に音楽があったらどうでしょう。ジュエラーとして、少し異なる顧客体験を作りたい。販売する各ユニークなジュエリーに、ユニークな音楽を付ける。NFTにしてブロックチェーンに入れるなど、何でもできます。
音楽を使って高級感のある体験を作り出します。Sunoに行きましょう。Sunoは現在完全に無料で、バージョン3です。音楽を生成するAIモデルです。まだ準備ができていませんよ。絶対に驚くと思います。
同じように、ChatGPTに行って、Sunoのプロンプトの仕組みを説明し、Sunoのプロンプトを作ってもらいます。「このジュエリーに合う、エレガントで詩的なピアノ音楽を作りたい。この音楽を描写する英語の文を作ってください」など。
このタイプのプロンプトの仕組みを説明します。プロンプトを取得します。歌詞も含まれます。声も、何でも生成してくれます。
ここでも同じ原則で、プロンプトを入れる場所があります。プロンプトを入れて、引用符を削除して、createをクリックします。
いつも通り、2つの提案を生成してくれます。数秒かかります。今まで存在しなかった2つの音楽を一から生成しています。歌詞も完璧に整理されています。
フランス語のラップでも生成できます。音楽のリズム、いわゆるフローと完璧に同期した音楽が生成されます。
ここでは「illusion of bijou(ジュエリーの錯覚)」…ヴァザレリにぴったりですね。クラシカルでミニマルなピアノスタイル。まさに私が求めたものです。うまくいっています。
完了しました。音が機能することを願います。効果と一緒だと常に少し…[音楽]別のを試してみましょう。歌詞がここにあります。音が少しうるさいですね。
教会のような雰囲気ですが、他のを試してみましょう。[音楽]以前作ったものの中に良いのがありました。ピアノのが…一緒にいましょう。
ジョニー・アリディを頼めば良かったですね。でもこの雰囲気にしましょう。これを使います。後で見ていただけますが、軽くてあまり場所を取らないものが必要なんです。なぜかはわかると思います。
同じように音楽をダウンロードして、ダウンロードフォルダから取得して、ここに置きます。
そして、すべてを統合する最後のステップに移ります。このジュエリーをオンラインで販売し、プレゼンテーションしたいとしましょう。
プログラミングコードは、人間にとって少し難しいものかもしれません。慣れていないと理解が難しい。でもAIにとっては言語です。コードで訓練されています。
AIは最近、コード生成で人間を追い越し始めています。ここ数ヶ月は非常に重要でした。完全なプログラムを自律的に作れる新しいAIシステムが登場しています。
もちろん、企業が作るレベルではまだありませんが、小さなビデオゲームやペイントのようなプログラム、そういったものを一つのバグもなく完全に自律的に作れます。
では、AIに「シンプルで魅力的なウェブページを作りたい。ページは濃いグレーの背景で、内部に10%のボーダーがあり、2つのセクションに分かれている。左側のセクションにはジュエリーの画像と音楽を再生するための小さなプレイヤー、右側のセクションにはジュエリーの詩的な説明(ChatGPTに直接コードの中で生成してもらう)とメールアドレスを入力するフォームが欲しい」と伝えます。
ご覧の通り、ChatGPTは誇らしげにページのコードを生成し、便利なコピーコードボタンまでついています。とても親切ですね。コードを読む必要もなく、コピーするだけです。
ここに戻って、page.htmlという名前のテキストドキュメントを追加します。HTMLは単にウェブページであることを示すためです。メモ帳で開きます。本当に空のメモ帳です。何でも入力できます。
ChatGPTが提供したコードを貼り付けます。閉じます。音楽は「music」と名付けると言っていたので「music」に、ジュエリーは「bijou」と名付けると言っていたので「bijou」にします。
ページを開きます。「Bijou Vasarely」…小さな音楽を入れましょう。「このヴァザレリの錯視芸術にインスパイアされたジュエリーは、光と錯覚への賛歌です。その幾何学的な形と遠近法の遊びを通じて、瞬間の儚い美を映し出す瞑想的な観照へと誘います」
ご覧の通り、今日でもこれらのシステムを適切に使い、少し話し方を知っていれば、どのように連携させるかを知っていれば、素早く結果を出すことができます。
もちろん、背後にはある程度のスキルがありますが、それでも舞台上で数分でこれだけのことができました。
最後のステップも用意していましたが、12時33分…12時33分なのでちょっと厳しいですね。最後のステップは面白いものなので、時間があれば最後にお見せします。
ビジネスイベントですから、カスタマーエクスペリエンスを少し加えようと思っていました。最後にお見せしたいAIがあります。みなさんが望まれて、デモの最後を見せてほしいと言われれば、AI販売員に電話をかけてもらって、ジュエリーを売り込んでもらうところをお見せできます。
これも数クリックで可能です。プロンプトエンジニアリングについては、講演後にサイン会で本をご紹介できます。ぜひお越しください。
プロンプトエンジニアリングは現在必要不可欠なスキルです。これらのシステムを適切に使い、お見せしたような完成度の高い結果を得るために。
このスキルは今後10年間は続くと思いますが、その後は人工知能の新たな革命が待っています。それらは急速に進んでいます。
現在のことを見てきましたが、私がお見せしたデモはすべて現在可能なことです。これから先数ヶ月、数年、もしかするともっと先の未来について、少しお話ししたいと思います。何を期待すべきかをお伝えします。
非常に短期的には、数ヶ月の単位で、大きな革新はマルチモーダリティです。先ほど、テキストにはChatGPT、画像にはMidjourney、音楽にはSunoなど、たくさんのシステムを連携させました。
マルチモーダリティの考え方は、「すべてを支配する一つの指輪」のように、すべてを生成できる一つのシステムを持つことです。一つのシステムがあらゆるタイプのデータを理解し生成できる。
最近登場したGoogleのGeminiが、この種の本当のマルチモーダルシステムの最初の例です。特に動画で訓練されており、画像や音声なども理解します。
ChatGPTのプロ版もできますが、異なるモデルを連携させているだけで、一つのモデルで訓練されているわけではありません。ChatGPT5は完全にマルチモーダルになり、Excelデータなどあらゆるタイプのデータを理解するでしょう。
実際、これはすでに現実のものとなっています。マルチモーダリティは急速に進化しており、さらに知能のレベルを高めていくでしょう。
二番目に急速に進化しているのは、もちろんロボティクスです。ロボティクスの問題は、機械的な問題ではありませんでした。
Boston Dynamicsの動画をご覧になったことがあれば、機械的にはすでにかなり完成度の高いものができていることをご存知でしょう。ロボティクスの問題は、今でもそうですが、知能の問題でした。
自動運転車は大変でした。環境を認識するために50個の異なるセンサーが必要だったからです。人間は運転するのにライダー(レーザーを発射して頭部で測定する装置)を必要としません。
そこで現在、すべての自動運転車メーカーは、複雑なセンサーをすべて取り除いています。センサーの統合は問題の種でした。
代わりに、人間の目よりも性能の劣る2つの小さなカメラと、環境を理解する人工知能を大量に搭載しています。背後には視覚の基盤モデルがあり、これで完璧に環境を認識できる自動運転車ができています。
したがって、ロボティクスは飛躍的な進歩を遂げており、AIのディスラプションがロボティクスのディスラプションを引き起こすことが予想されます。
3月は本当に驚くべき月でした。私たちの歴史に残る月になると思います。ロボティクスに関して、ニュースを少し追っていた方ならご存知かもしれませんが、ロボティクスを手がけるほぼすべての大手企業から、非常に重要な進展の発表がありました。
Nvidiaは、ロボティクス専用の基盤モデルをリリースしました。どんなロボットでも環境を認識・理解し、ほぼどんなタイプのアクションでも適用できるようにするものです。あらゆるタイプのロボットのための汎用モデルです。「Groot」というNvidiaのプロジェクトです。
ChatGPTを開発したOpenAIは、Figureというロボティクスのスタートアップと提携し、Figure 01の最初のデモを公開しました。後で動画をお見せします。時間がなければYouTubeでご覧ください。
このロボットは、人間の意図を完璧に理解し、多くのオブジェクトを繊細に操作し、日常的なタスクを実行できます。そしてもちろん、イーロン・マスクのTeslaとOptimusもあります。
みんながロボットの開発に乗り出しており、この10年は一般向けロボットの到来の時代になるでしょう。なぜなら、知能の問題の多くが解決されつつあるからです。
問題がないわけではありません。来年すぐの革命ではありませんが、今から始まり、例えばおもちゃから始まります。
すでにそうなっています。家の掃除をするロボットほど複雑ではありませんが、多くの知能を持ち、増強された能力を持つおもちゃが登場し始めています。
このロボティクスの革命は、AIの革命のおかげで非常に強く出現しています。
三番目の要素は、私の考えでは、これから来るものの中でさらに根本的なものです。
現在のAIシステムは、データを理解し、生成することができます。そしてその能力は素晴らしいものになっています。マルチモーダルになれば、さらに素晴らしいものになるでしょう。
しかし、人間の知能の重要な機能の一つが欠けています。これは、人工知能が本当の意味で汎用人工知能(人間ができるほぼすべてのことができる)になるために絶対に必要なものです。
現在のシステムは、機械の中に人間がいて一つ一つのタスクで適切なアクションを実行しない限り、あまり進展しません。これらは人間を支援し、拡張するツールです。
もちろん、人間の知能に特別なものはありません。魔法のようなものは何もありません。したがって、人間と同じくらい知的な機械を持つことになるでしょう。もちろん、それ以上の知能も…これは良いニュースです。後でお話しできると思いますが、もちろん大きなリスクもあります。それについても話せると思います。
今日の大きな問題は、現在のシステム(データから学習し、ある意味でそのデータを模倣する、非常に賢いオウムのようなもの)から、より自律的で、人間ができることをすべてできる人工知能へと、どのように移行するかということです。
これは、AIシステムの「エージェンシー(主体性)」の問題と呼ばれています。このキーワード「エージェンシー」は、今後数年間、そしておそらく20年以上にわたって、政治的、技術的、道徳的に私たちの文明を形作ることになるでしょう。
私たちの文明が直面した中で最も大きな問題に向き合うことになると思います。エージェント(主体)の考え方は、もちろんあらゆるタイプのデータを生成・理解できるAIですが、さらに2つの要素が加わります。
まず、堅牢な世界モデルです。現在のAIは言語を通じてのみ世界を知っています。いわば表面的な理解です。
あなたがリヨンからパリへの行き方を考えるとき、世界モデル全体を動員する必要がありますが、それはとても自然に行われます。
なぜなら、私たち人間の新皮質は、ほぼすべての他の動物よりもはるかに発達しているからです。これは生物学的に私たちを特徴付けるものの一つです。
投影と計画を行う能力に特化したニューロンを持つ、非常に発達した新皮質を持っています。世界モデルを操作できるおかげで、「椅子から立ち上がって、家を出て、雨が降っているなら傘を持って、駅まで行って、電車に乗って…」というように、一連の行動を考えることができます。
このような一連の行動を考え、世界モデルのおかげで計画し、投影することができます。これが第一の要素で、現在の研究のテーマです。
AIシステムに学習を通じて、私たちと同じくらい完全で堅牢な世界モデルを生み出させる方法です。これはもはや神秘的な問題ではありません。研究プログラムがあり、そう遠くない将来に実現できることがわかっています。
日付は言えませんが、2年という人もいれば10年という人もいます。しかし、この10年のうちにこれらが実現することはほぼ確実です。
この分野で誰かをフォローしたいなら、Yann LeCun氏をフォローすることをお勧めします。もともとフランスの研究者で、現在はFacebookの研究・科学部門のディレクターを務めています。この分野で非常に興味深い研究をしています。
特に動画を通じてAIに世界モデルを学習させる研究です。動画から学習することで、重力や因果関係、オブジェクト同士がどのように相互作用するかを理解できます。
私たちは方法を知っています。時間はかかるかもしれませんが、2番目の要素はそれほど時間がかかりません。
これらのシステムに、人間がツールを使うように、ツールを使用する能力を与えることです。人間は暗算が苦手なので電卓を使います。
これらのシステムは、すべてのデジタル機能を内部に持つシステムではなく、ますますパーソナルアシスタントになっていきます。
考え方としては、インターネットのネットワークを通じて、もちろんデジタルサービスを、そして次第にIoTを通じてあらゆる物体を使用する可能性を与えることです。
これらすべてと連携して、世界に対してアクションを起こすことができます。データを生成するだけでなく、アクションを起こすと言います。
データを理解・生成できるモデルがあり、複雑な完全なプロセスを実行するために複雑な一連のアクションを計画できる堅牢な世界モデルがあり、世界に対してアクションを起こすことができれば、それがエージェントです。そしてエージェントは、多かれ少なかれ汎用人工知能に近いものとなります。
私はadept.aiという米国のスタートアップのベータテスターを務めています。彼らは現在、これを実現するために数億ドルを調達しています。彼らのエージェントをテストしていますが、まだ完璧ではありません。
できることの例を挙げると、「4月の休暇に彼女と日の当たる場所に行きたい。3つの提案を作って」と言うと、システムはまず、私の許可があれば、WhatsAppで私と彼女の間で休暇の場所についての会話がないか確認します。
次に、許可があれば、銀行口座を確認して、私の予算を把握します。その後、Skyscanner、Airbnb、すべての旅行比較サイトや宿泊サイトに接続し、一般的な観光客では見つけられないような珍しい観光スポットを見つけるために、マイナーなブログも探します。
3つのシナリオを美しいパワーポイントにまとめ、説明し、提案を擁護します。「シナリオ2が良さそうだ」と言うと、許可があれば支払いを済ませ、すべてを購入し、もはやコンピュータとは呼べないもの(すべてのインターフェースが大きく変わるでしょう)、明日のインテリジェントなデバイスに、私の旅行のための素敵なチケットを入れてくれます。
これは一般向けのケースで、インテリジェントなアシスタントが生活を便利にしてくれるのは素晴らしいことです。しかし、仕事の世界では、これは社会に根本的な問題を投げかけることになります。
今日、人間が一人でコンピュータの前でできることは、すべて私たちの10年の間にAIシステムの方が上手くできるようになります。私たちは30年かけて、人々を個人用コンピュータ(PC)の前に座らせることに力を注いできました。
なぜでしょう?パフォーマンスを測定しやすいからです。個人のパフォーマンスを測定します。学校でもパフォーマンスを学び、個人のパフォーマンスを学びます。コンピュータの前に座るのに完璧に適応した技術者の世界を作り上げてきました。
私たちは本当の社会の進化を経験することになるでしょう。私たちは、今日知られているような仕事がまったく異なるものとなるポスト資本主義を発明する可能性が高いです。
今日の仕事は、パフォーマンスの概念に基づいています。人工知能システムは私たちよりもパフォーマンスが高くなります。私たちは生物学的な存在です。私たちを定義するのは、パフォーマンスの無限性ではなく、限界なのです。
できないことができる…これが人間の価値です。人間の価値は、仕事でのスーパーパフォーマンスや生産性ではありません。もちろん今日の産業システムではそれが求められていますが。
明日は、生産性はますます人工知能システムによって担われるようになり、仕事における人間の価値は、私の考えでは2つの次元にあります。
まず、関係性の次元です。AIはロボットの中で人間をシミュレートすることができ、人間と同じくらい上手くできます。しかし、それがAIだとわかっている限り、同じ共感は生まれません。私たちは同類が周りにいることを望みます。関係性はパフォーマンスではなく、親密さに依存します。
2つ目は、真正性です。まったく同じ話です。陶芸家の壺の小さな欠陥が、その背後に職人がいて、時間をかけ、注意を払い、愛情を注いだことを示しています。これが、完璧なパフォーマンスを持つ工業製品よりも価値を持つ理由です。
私は、金で割れた陶器を修復する日本の芸術が大好きです。その名前を思い出せませんが…これこそが、明日の人間の価値だと思います。人間の脆弱性、もろさを示し、人間同士がつながることを可能にするものです。
生産性は、より生産的な機械に任せましょう。これは仕事がなくなるという意味ではありません。退屈になるという意味でもありません。他にもたくさんの活動があります。
ギリシャ人は奴隷を持っていました。生産的に働くことは下品なことでした。彼らは人間の3つのペア(pair)に関心を持っていました。哲学、政治、詩的なもの。私たちは仕事においてこれらの次元を完全に萎縮させてしまいました。
おそらく、これらの次元に再び投資する機会が訪れるでしょう。明日の仕事は、この3つの次元を中心に置き直し、関係性を中心に置き直し、人間の真正性、適切な動作を中心に置き直すかもしれません。
これが実現する世界かどうかはわかりません。でも、これが私がAIについて語りたい世界です。
倫理的な課題はたくさんあります。時間切れになってきましたので、サイン会の際にお話しできればと思います。人間の場所は、トランスヒューマンではなく、ハイパーヒューマン、今日以上に人間的な場所にあります。
そしてここで、人工知能が私に感受性を与えてくれたのです。パフォーマンスという基準が、長期的に賭けるべき基準ではないことに気付かせてくれました。
ご清聴ありがとうございます。また、お話ししたい方は、ジャン=ポールと一緒にあちらに座っていますので、よろしくお願いします。[拍手]

コメント

タイトルとURLをコピーしました