人工知能:脅威か希望か?

27,334 文字

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ: УГРОЗА или НАДЕЖДА?
😎 Подпишись на канал: Поддержите нас:На Boosty (российская карта): На Patreon (иностранная карта):

ボリス:最近の人工知能に関するニュースの中で、あなたが一番インスピレーションを受けたことや、印象に残っていることは何ですか?
アンドレイ:私はChatGPTを購入していまして、最近写真展に行った時のことなのですが、そこでアゼルバイジャン語のテキストが書かれた作品があったんです。それを翻訳したかったので、単純に写真を撮ってアプリに送ってみました。ただ単にテキストを翻訳してくれると思っていたのですが、全体的な文脈まで理解してくれて、さらにその場面が恐らくある民族の祝祭に関連しているということまで教えてくれたんです。今はその祝祭の名前は覚えていないのですが。
(このエピソードを視聴者の皆様にお伝えしたいと思います。もしこの番組やプロジェクトを支援したいと思われましたら、ぜひ「いいね」、チャンネル登録、ベルマークをクリックしてください。より多くの方々にこの番組を見ていただけるようになります。私からは心より感謝申し上げます)
こんにちは、これは「基礎」というプロジェクトです。私の名前はボリス・ヴェデンスキーです。今日のゲストは人工知能研究者で工学博士のアンドレイ・クズネツォフさんです。
ボリス:アンドレイさん、こんにちは。
アンドレイ:ボリスさん、こんにちは。
ボリス:画像生成技術がもうすぐとても高度になって、人工的に生成された映像や画像を本物と区別するのが難しくなってきているような気がします。ディープフェイクを検出するメカニズムは作れるのでしょうか?
アンドレイ:まず、ディープフェイクというのは主に顔に関するものですね。基本的に合成コンテンツについてですが、確かに現在では非常に多くなっていて、特別なアルゴリズムを使って検出することができます。実は2013年に私も論文を書いていまして、衛星写真の人工的な改変を検出する手法についての研究でした。
例えば、フォトショップで写真の一部を変更して、森で石油流出を隠蔽したりするようなケース。そういった変更を加えた画像が送られてきた時に、それを見る人は視覚的には区別できません。特に衛星写真は10,000×10,000ピクセルという大きな面積があるので、すべてをチェックするのは大変です。
そのため、特別な手法が開発されてきました。これらの手法は、画像の局所的な特徴とグローバルな特徴を区別することができます。特徴というのは単なる数値のことです。
つまり、オリジナルの写真であれば、そのピクセルはランダムに配置されているはずなのに、特定のアルゴリズムで意図的に配置されているように見える、というような具合です。
画像を取得する仕組みがあって、通常のカメラで撮影する場合、センサーノイズなどが発生します。これはデバイスに固有のものです。画像の一部をフォトショップで描いたり、移動したり、塗りつぶしたりすると、この自然な構造が崩れます。
特別なアルゴリズムを使うと、変更された部分の境界でこれらの変化や不一致が最もよく見えます。これらのアルゴリズムは、画像のグローバルな特性と局所的な特性の間の不一致を検出することができます。
合成コンテンツについても同じことが言えます。合成データは視覚的には非常に質が高く見えますが、特別な数値特徴を抽出すると、自然環境で得られた場合とは異なる特徴が出てきます。
そのようなアルゴリズムは活発に開発されています。私が始めた2010年には、既に2008年くらいから偽造検出アルゴリズムが登場していました。
よく使う例として、昔から出会い系サイトで写真と実物が違うというケースがありましたよね。つまり、フォトショップで加工した写真を使用している人がいるわけです。そこで、出会い系サイトの上に検出システムを設置して、高確率でフェイク画像だという情報を表示する方法があってもいいと思います。
日常生活でも、このようなデジタルデータの保護と検証の方法は十分に適用可能です。特別なことも秘密もありません。ディープフェイクも今では特別なアルゴリズムで簡単に検出できますし、合成コンテンツも検出可能です。
ですから、このような技術をメディアやSNS、Telegramチャンネル、あるいはデバイスに組み込んで、批判的に評価するためのアシスタントとして活用することは十分可能だと思います。
ボリス:でもそれって、いたちごっこにならないですか?つまり、自然な撮影のようにデータをランダムに歪ませる人工知能を作ることもできるのでは?
アンドレイ:もちろん、それは永遠の戦いですね。ウイルスとアンチウイルスのように。ウイルスがいくら作られても、それに対応するアンチウイルスが作られる。つまり、これは単なるセキュリティパッチの更新のようなものです。携帯電話が「3月のセキュリティパッチをアップデートしてください」と言うようなものですね。
モデルを更新し、新しい方法を考案する。ノイズの多いモデルというものがあって、敵対的攻撃と呼ばれています。例えば、顔認識カメラに、認識すべき対象とは異なる画像を見せることができます。
例えば、顔認証システムが「あ、これはボリスですね。通してください」と認識するわけですが、特別な人が顔の代わりにQRコードのような意味のない画像を見せると、モデルはその画像から、ボリスさんの顔から抽出できる特徴と同じ特徴を抽出してしまうんです。
これが敵対的攻撃と呼ばれるもので、特徴を抽出した時に同じ情報を与えることができる特別な構造があるんです。つまり、目穴の開いたA4用紙を顔に貼った人が来て、その紙に何かパターンが描かれていると、システムは「こんにちは、ボリスさん、どうぞ」と言って、実際にはボリスではない人が入ってしまう。
同じように、言語モデルにも特殊な文字列を送り込むことができます。例えば、文書を間違った文字コードで開いた時に出てくる読めない文字列のようなものです。これらの特殊文字を使って特別な構造や文を作ることで、モデルに非倫理的な応答をさせたり、セキュリティを完全に破壊したり、概念を混同させたりすることができます。
これはモデルへの指示のようなもので、その指示によってモデルは予期せぬ動作をします。このような攻撃も活発に研究されており、それに対する防御方法も研究されています。これは、あらゆる保護手段とクラッキングの間の永続的な対立なのです。
FBSによると、2022年と比べて人工知能分野の求人が42%増加したそうです。この分野で最も需要が高く、給与も高い職種の一つがプロンプトエンジニアです。海外では、そのような専門家に年間20万から30万ドルを支払う用意があり、ロシアでは月額25万ルーブルほどの給与だそうです。プロンプトエンジニアとは何で、なぜビジネスはそれだけの給与を支払う用意があるのでしょうか?
プロンプトエンジニアは、企業のビジネスプロセスにAIソリューションを組み込む仕事をします。一見簡単そうに見えますが、実際はそうではありません。ビジネスプロセスを理解し、様々なニューラルネットワークモデルの可能性と制限を知り、APIを通じてモデルと対話し、プロンプトを書き、企業のデータでモデルを訓練し、さらにプロセスの継続性を維持する必要があります。
例えば、ビジネスで海外のChatGPTやClaudeを使用できるのか、それともロシアのGigChatやYandex GPTだけを使用する必要があるのか。内部データでモデルを訓練する際に、そのデータが漏洩しないようにするにはどうすればよいのか。セキュリティの境界内でのみモデルを使用する必要がある場合、どのようなソリューションが存在し、どのような可能性があるのか。
プロンプトエンジニアはこれらの課題を解決します。ビジネスプロセスへのAIの導入は、企業の経費を大幅に削減し、タスクの実行速度と品質を最適化します。そのため、プロンプトエンジニアにそれだけの給与を支払う用意があるのです。
この職業についてもっと知りたい方は、Zer Coderの公開講座に参加することをお勧めします。Zer Coderの公開講座では、プロンプトエンジニアとは何か、その仕事内容、ロシアや海外でどれくらい稼げるのか、仕事を見つける方法などを説明します。また、プロンプトエンジニアになる方法や、候補者に求められる主な要件についても学べます。もしかしたら、これがまさにあなたに合った職業かもしれません。
ゼロコーディング大学は、ニューラルネットワークとノーコードプログラミングの教育のパイオニアです。すでに8,000人以上の学生を輩出し、就職支援を行い、ITでの成功的なスタートに必要なすべてのリソースを提供しています。プロンプトエンジニアリングとその可能性についてもっと知りたい方は、説明文のリンクをクリックして、ライブ配信に登録してください。
では、続けましょう。近年、人工知能の大きな進歩が見られ、新たな転機が訪れているようです。マルチモーダルニューラルネットワークという複雑な名前の技術が登場していますが、これは何なのでしょうか?以前のチャットボットは人間の言葉で返答するだけでしたが、今では私たちのように感覚器官を持ち、画像を見たり、音を聞いたり、さらには動画も見ることができるようになったと理解してよいのでしょうか?
アンドレイ:基本的にはそのように解釈できますね。マルチモーダルとは何を意味するのかというと、モダリティとは単にデータの種類のことです。私たちにとってデータの種類とは何か?それはテキスト、画像、音声、スピーチ、音声データ、動画データなど、人間が感覚器官を使って知覚できるすべてのものです。
実際、モデル、つまり人工知能にとって、この課題はそれほど簡単ではありません。各種のデータを理解する前に、そのデータをデジタル形式で表現する特別なメカニズムが必要です。私たちは目で見て、それを解釈し、脳に信号を送り、周囲の世界の情報を理解し評価することを学びます。
モデルも基本的には同じです。モデルに「目」を与えるためには、画像を理解し、適切なデジタル信号に変換して処理できるようにするメカニズムを与える必要があります。音声や動画についても同じことが言えます。そして、これらのデータの種類は本当に多様です。
これは化学物質や物理的なプロセス(物体の動き方など)、3次元空間など、あらゆるものを含みます。基本的に、現在のモデルがこれらすべてを必要としているのは、私たちが「世界モデル」と呼ぶものをより良く理解するためです。世界モデルを理解することは、このアシスタントが人間に何を必要としているかを理解することにつながります。
単なるテキストベースのヘルプから、テキストの枠を超えてはるかに複雑なタスクを解決できるようになっているのです。だから、感覚器官というのは、人間がこれらの原理をどのように理解するかという観点から見れば、マルチモーダルモデルにとっては良い表現だと思います。
ボリス:これがどのように機能するか説明していただけますか?人間の場合、例えば「おばあちゃん」の画像を見せると、「おばあちゃん」というテキストに対応するニューロンが活性化し、おばあちゃんの匂いや声に関連するニューロンも活性化するという実験がありますよね。つまり、人間の脳の中でこれらのモダリティは結合されていて関連付けられています。これは人工知能ではどのように機能するのでしょうか?
アンドレイ:まず、目のように視覚を理解できる仕組みがあると想像してみましょう。これは最初のメカニズムで、まだテキストについては話していません。この仕組みは視覚的なパターンを理解でき、色、形、輪郭、テクスチャなど、物体を記述できるすべての特徴を捉えることができます。
今、誰かに画像を見せて、それをデジタル以外の方法で伝えたい場合、テキストによる説明が必要になりますよね。例えば、おばあちゃんの場合、友人に説明する時は「おばあちゃんが椅子に座って、ショールを羽織って編み物をしている」というように説明するでしょう。すると、人はすぐにその描写から心の中にイメージを形成します。
同様に、モデルにマルチモダリティを理解させるためには、画像に加えて、その画像に対応するテキストによる説明、つまり補完的またはペアとなる説明を与える必要があります。これは画像が単なる画像として、つまり私が言及した色、形、テクスチャなどの特徴の集まりとしてだけでなく、ある種の説明も持つようにするためです。
モデルは、このようなペアのデータセットで学習することで、2つのモダリティを結びつけることを学びます。テキストと画像について言えば、説明と画像の間の関連付けを与える必要があります。これは、Googleの有名なCAPTCHAを思い出してください。「あなたがロボットではないことを証明するために、画像の中の自転車をすべてマークしてください」というものですが、実際にはこれはGoogleのニューラルネットワークを訓練するためのものなんです。
ボリスさんも、私も、多くの同世代の人々も、子供の頃にカードゲームで遊んだことを覚えているでしょう。カードには絵が描かれていて、その横に単語が書かれていました。子供が単語の発音や意味を覚えられるように、カードを半分に折って子供に見せ、子供がその単語を言い、そしてカードを開いて「猫」や「犬」などを確認する、そういう連想プロセスですね。
これは2つのデータタイプ間で起こる連想プロセスです。一方では、言語モデル、つまり読むことを学んだ脳があり、テキストから情報を抽出し、「おばあちゃん」という用語の定義や意味を持っています。他方では、テキストとは全く関係のない別のモデルがあり、これは画像からおばあちゃんの姿を抽出します。
テキストの説明と画像からこのようなペアのデータを作成すると、これらの連想的なペアを使ってモデルに実体間の関連付けを学習させることができます。このように、画像を単語と結びつけることで、言語モデルの中でその画像を「おばあちゃん」に関連するすべてのものと自動的に結びつけることができます。
例えば、「おばあちゃんと孫」の場合、もし「孫」が何であるか、つまりそれが男の子や男性であることを学習しており、別におばあちゃんについても学習していれば、言語モデルの中におばあちゃんと孫の関係性があることから、画像の生成や理解の際にこれら2つの実体を結びつけることができます。
つまり、おばあちゃんのペアと説明、男の子のペアと説明を取り、「孫」が何を意味するかを知り、これらの用語を内部で結びつけることができます。すると、将来おばあちゃんと孫の画像を与えられた時に、それが何であるかを説明できるようになります。古い脳とは何も違いません。
学習の原理に違いはありません。モデルに画像の分類を学習させたい場合でも – 10年以上前に深層学習(Deep Learning)などが登場し、多くの人がニューラルネットワークを使って画像分類タスク、つまり猫と犬を区別したり、物体を検出したり数えたりする課題を解決していた時も、メカニズムは同じです。
つまり、あるアルゴリズムやモデルに猫の画像と犬の画像を「見せて」、それらを互いに分類することを学習させます。人間も同じように行動します。形や大きさで異なる物体を見る時、この内的な区別が働きます。それは経験とともに生まれるもので、火が熱いことや水が流れて液体であることなどを理解し、これらの用語を経験から形成して、様々な物体を分類することを学びます。
そして、マルチモーダルな文脈でこれをさらに発展させると、基本的にすべて同じです。私たちが周囲の世界を認識する方法は、ある意味で私たちの脳の働きや操作です。つまり、周囲で起きていることすべてを、私たちは何らかのモデルに当てはめ、角を丸めて単純化しているのです。
視覚の働き方でさえ、実際には見えていない領域を脳が補完していることを証明できます。私たちはそれにまったく気付かないのですが、リアルタイムでそうしているのです。
人工知能に今、写真や動画、音声といった明らかなモダリティを接続しているのは興味深いですね。では、通常の人間がアクセスできないモダリティを接続したらどうなるでしょうか?例えば、最も基本的なものでは赤外線カメラ – 人間は赤外線を見ることができません – や、電波アンテナ、電磁波検出器、あるいはスローモーション撮影用の超高速カメラなどです。これは、コンピュータが私たちよりも現実をよりよく理解できるようになることを意味するのでしょうか?
アンドレイ:もちろんです。実際、今でもあなたが挙げたほとんどすべてのデータソースを扱えるモデルが存在します。例えば、宇宙衛星について考えてみましょう。衛星は様々な波長帯でデータを収集しています。
例えば、Perspektという特殊な衛星があります。これは宇宙から情報を撮影し、撮影した物質についての情報を得ることができます。つまり、このデータを基に金属と土と水を区別することができるのです。そして、これは確かに新しいタイプのモダリティです。
これは無人デバイスや輸送機器、配送ロボットの制御にも役立ちます。これらは通常の可視光カメラに加えて、深度データやLIDARも使用します。これにより、周囲の環境についての感覚と理解を作り出し、特定の物体までの距離を理解することができます。
このような距離測定データにより、ロボットは方向を定め、障害物に衝突することなく、安全に移動することができます。したがって、もし人間のアシスタントとして、人間がアクセスできないデータソースから情報を抽出する能力が備わるなら、それは人間の能力を拡張し、周囲の世界についてより良い、より正確な理解を提供することになるでしょう。
私たちは明らかにそこに向かっています。現在、みんなテキストと画像の結合に力を入れています。これが最初の大きな課題で、そこに動画が加わり、次に音声が加わっています。このように徐々に、AGI(Artificial General Intelligence)や強いAIと呼ばれるモデルのレベルに到達しつつあります。
これらのモデルは、世界に関する情報を多く取り入れ、人型ロボットに組み込まれることで、この情報をすべて使用して移動することができるようになります。なぜなら、現在まで – ボリスさん、この話をご存知かどうかわかりませんが – ロボットの競技会で最も難しい課題の一つは、見知らぬキッチンでコーヒーを入れることなんです。
例えば、長い間行ったことのない、あるいは一度も行ったことのない友人の家に行って、キッチンに入ってコーヒーを入れる状況を想像してみてください。おそらく、あなたにとってはそれほど難しくないでしょう。豆を探すためにどの引き出しを見ればいいか、コーヒーメーカーがあるかどうかを確認する場所など、基本的に方向を定めることができます。
しかし、ロボットにとってはこれが超難しい課題なのです。大量のデータで学習し、コーヒーを入れる大量の操作を学ぶことができるにもかかわらず、これは超難しい課題となります。多くの競技会でこの課題は、今年の初めに誰かが(正確には覚えていませんが)ようやく解決したという情報があるまで…。
一見、かなり基本的な操作の集まりに見えますよね。しかし、世界の全体像を完全に理解せず、リアルタイムでそこに適応し、完全なフィードバックで学習することができないロボットにとって、この課題は難しいのです。
ボリス:面白いですね。私たちがこの課題を簡単にできるのは、数十年生きていて、数十あるいは数百のキッチンを見てきたからですよね。映画やテレビ番組も見ています。つまり、気付かないうちに、実際にその操作を行わなくても、ある種の経験が形成されているわけです。
寿司職人である必要はありません。YouTube動画を開いて人がどのように作るかを見れば、その操作を単に繰り返すだけで、科学ではこれを観察学習と呼びますが、食べられる寿司を作ることができます。海苔を間違った方向に置いたり、ご飯を間違った側に置いたりすることはないでしょう。
つまり、この課題を超難しいとは感じないわけです。しかし、ロボットにとって、そのような各動作は特定の困難な課題に変わります。なぜなら、世界モデルを持っていないからです。世界を理解していないのです。一つの操作、あるいは一連の操作を学ぶことはできますが、人間のように周囲の環境で完全に方向を定めることは難しいのです。
では、それを素早く学習させるにはどうすればいいのでしょうか?難しい課題ですね。まさにここで強いAIが役立つはずです。ロボットが周囲の世界から情報を抽出し、その世界とインタラクティブに学習し、フィードバックを得て、何か間違いがあれば行動を修正できるようになる時です。
段階的に、常に学習プロセスの中にいることで…実は、私たちも常に学習プロセスの中にいるんです。学習を止めることは決してありません。毎日、初めて経験することが起きますが、私たちはそれに対処できます。
例えば、空港に着いて飛行機に乗り遅れた場合、次に何をすべきか理解できます。横断歩道を渡ろうとして信号機が故障しているのを見たら、どうすればいいかわかります。事故で道路が封鎖されていて対向車線でしか通れない場合、一時停止して確認し、安全を確認する必要があることを理解します。
これらの行動はすべて経験から生まれます。そしてこの経験に浸るためには、世界を理解する環境の中にいる必要があります。ロボットが世界を理解するためには、外部情報を大量に抽出するだけでなく、それを何らかの記憶に、何らかの経験や直感のようなものに変換する方法を知る必要があります。
これが私たちを非生物から区別する特徴です。私たちは既にそのような情報をロボットに素早くパッケージ化する方法を知っているのでしょうか?それとも、ロボットにも少なくとも5年くらいは地下鉄に乗って生活する必要があるのでしょうか?
私は、言語モデルやマルチモダリティの方法、画像、深度データ、ロボットのすべてのマニピュレータからのセンサー情報など、現在私たちが積極的に取り組んでいる方法の発展により、2-3年以内には、かなり広範な操作を実行できる人型のものを持つことができると思います。
実は、私の研究室には、ロボット工学の研究室の同僚たちと共同で研究を行っている専門チームがいます。ですから、私たちはゆっくりとそこに近づいていくと思います。そして、『マトリックス』のネオのようなディスクを差し込んで即座に格闘技を習得できるようになるかもしれませんね。
ボリス:競技会について言及されましたが、他にはどんな課題があるのでしょうか?面白い評価基準はありますか?
アンドレイ:ロボットの競技会は主に経路計画に関連しています。つまり、様々な障害物がある中でポイントAからポイントBまで移動する必要があります。アウトドアシーン(屋外で実行)のタスクもあれば、インドアシーン(室内で実行)のタスクもあります。
基本的に、これらはすべて社会的な背景を持っています。つまり、理論的には障害を持つ市民を支援するヘルパーとなるべきロボットです。例えば、配達員を出迎え、荷物を受け取り、人まで運ぶというタスクの場合、ロボットには特定の物体がある場所、配達先、入口で反応して行き、何かを受け取って配達する必要がある経路計画の課題があります。
より大規模な実験という観点からは、倉庫で働くロボットがあります。重い荷物の迅速な検索と配送という課題を解決する必要があります。基本的に、すべては人的コストと人的資源の削減、複雑あるいは時には単調な作業の実行に向けられています。
ボリス:私たちは、画像にラベル付けされたデータで学習させています。つまり、私たち自身が「ここには猫がいて、家があって、緑の草がある」と教えているわけです。つまり、初期のデータセットは既に私たちによって準備され、ある意味で、私たちは自分たちの固定観念でニューラルネットワークを学習させているわけです。
オープンフィールドに放った場合はどうなるのでしょうか?世界の物体を別の方法で分類することはできるのでしょうか?なぜなら、私たちの経験も進化から来ているわけですよね。つまり、動物と植物を区別したり、森の中で目立つベリーを探したりする必要があったわけです。
アンドレイ:もちろん、モデルを学習させる際、まず基本的なデータセットに重点を置きます。これにより、事前学習と呼ばれるものを与えることができます。そしてモデルは自分自身で説明することができるようになります。つまり、新しいシーンを見た時に、それを説明することができ、その説明は再び入力として画像と一緒に与えることができます。
このように、継続的な学習を行うことができます。これは自己学習と呼ばれ、モデルはこの状態で学習を続け、外部世界から情報を得て、フィードバックを受け取り、何か間違いがあれば行動を修正します。
つまり、外部から何らかの専門知識が必要で、これが正しい、これが間違いというように教え、学習プロセスで修正を行います。モデルが生成したデータで再学習することができます。つまり、モデルがシーンを見て、説明を与え、その説明を少し修正し、時間とともにこれらのエラーは減少し、モデルはより良く空間を理解できるようになります。
ボリス:少し違う、より哲学的な側面を考えていたんです。私たちは実際に、どのような進化的基盤を持っているかに基づいて現実にラベル付けをしています。今流行の言葉を使えば、ニューラルネットワークはこの意味で「裸」で、どのように学習してもよく、どのように現実をラベル付けしてもよいわけです。
全く別の方法でこれらすべてを見ることができるのでしょうか?それとも、これは原理的に私たちには興味がないことなのでしょうか?なぜなら、ニューラルネットワークは道具であり、私たちと同じように世界を理解してほしいだけだからでしょうか?
アンドレイ:おそらく、私たちはモデルにルールを組み込み、世界を知覚するメカニズムを組み込む必要があります。そして、それがその後、特定の対象にどのように反応できるかは、まさにこれに依存します。
つまり、正しいデータを与え、そのデータを正しく知覚することを教えれば – データは理想的な世界では「きれい」で、エラーがないものでなければなりません。もちろん、データには様々なノイズが含まれることがよくあり、不正確な説明があることもあります。
私たちも同じです。本を読む時、同じことや出来事について異なるソースで異なる表現を読むことがありますが、既存の知識に基づく内的な比較と評価能力により、何らかの結論を導き出すことができます。
人間にとって、これは自己調整システムのようなもので、周囲で起こっていることを分析します。基本的に、モデルは答えを得て、自己修正を行うことができます。つまり、なぜこれが正しいのか、あるいは正しくないのかについての論理的推論の連鎖を構築し、この推論と結論の連鎖に基づいて、世界からのフィードバックを基に新しい結論を導き出すことができます。
私たちの課題は世界と相互作用し、世界を理解することを学ぶことです。そして、自分が犯す誤りを理解することも含みます。なぜなら、常に理想的なデータで学習していれば、どんな誤りも常に致命的になってしまうからです。
チワワの顔とレーズン入りのケーキの分類という有名な画像があります。多くの分類モデルがかつてこれで大量の誤りを出し、この課題は難しいものでした。細部に注意を払わなければ…。モデルも同じように、まず見て、誤り、そしてケーキと犬がどのように見えるか理解し、細部に注目することで、正しい答えを理解し、正しい決定を下し、正しい回答を与えることができます。
そのようなメカニズムは存在し、現在、多くのモデル、特にロボット工学向けのモデルや、推論が必要な複雑なタスクでの品質向上を目指すモデルは、単なる事実の列挙ではなく、タスクを分解し、基本的な操作や行動に分解して解決に至る必要があります。
つまり、モデルが何をしているかを理解できるようにするためです。単に暗記するのではなく…ちなみに、これは良い比較ですね。人間も全てを理解しているわけではありませんが、暗記することはできます。科目の内容を理解せずに覚えることができます。これが記憶と理解の違いです。
モデルにとっても、基本的に同じ原理、同じ特性が適用可能です。モデルは、なぜある決定を下したのかを説明できなければなりません。そのため、このようなモードでモデルは学習を続け、これらの方法は現在活発に開発されています。
ボリス:最近、Googleのニューラルネットワークと、それが生成する画像に関する有名な話がありましたね。包摂性に反対…まあ、ユーザーの全員が喜んでいたわけではありませんでした。なぜこうなったのでしょうか?これは単なる設定の問題なのでしょうか?
アンドレイ:私の理解では、主な不満は、歴史的な画像を生成するよう要求した時に、ある人々が考えるには過度に、期待していなかった肌の色の人々が登場したということでしたね。
ああ、そうですね、そのような状況は聞いたことがあります。おそらくこれは、モデルの学習後に行われる微調整やアライメントのプロセスが原因でしょう。この段階で、生成時や回答形成時に考慮すべき規則や制限を設定しようとします。
特定のトピックには応答せず、安全に応答するようにするためです。これについて今、多くの人が話題にしており、アライメントと制御された行動に関するモデル開発の全方向が、特に海外で非常に活発に推進・発展しています。
もちろん、私たちも研究の中でこれに注意を払っています。しかし、海外ではこれが本当にブームになっています。そして、もちろん設定を強化しすぎると、そのような関連付けが生じるべきではない場所でも生じ始め、モデルは人間の設定した制限の中で気に入られようとして、学習の最終段階での微調整で、このような誤りを生成してしまうのです。
ボリス:この微調整というのは、上に置かれるフィルターのようなものなのでしょうか?それとももっと複雑な仕組みなのでしょうか?
アンドレイ:様々なメカニズムがあります。例えば、ChatGPTの基礎となった古典的なRHLF(Reinforcement Learning with Human Feedback)があります。これは人間からのフィードバックによる学習です。
モデルが回答を生成し、専門家がそれをランク付けして、この回答は他より悪いと判断し、最良の回答を選び、このランク付けをモデルに戻します。これにより、モデルは同様の質問が来た場合、このように応答すべきだと理解します。
つまり、少し修正して調整するわけです。テキスト応答についても同じです。これがモデルの微調整、再学習のフェーズで、まさにフィードバックモードでの調整です。
細かいルールがある場合は、もっと厳密なルールを考案することもできます。特定の単語が出てきた場合や、生成された画像に人物が写っている場合は、その人物を別の色に変更したり、2人目の人物を削除したり、全く表示しないようにしたりできます。
これらのルールや設定には様々な厳格さのレベルがあります。学習の基礎に倫理的な規範を組み込むことができる倫理的セットもあります。これは既にファインチューニングと呼ばれるネットワークの微調整の段階で混ぜ合わされます。
つまり、単にテキストや画像が何であるかを学習させるのと、一部を凍結して(学習を停止して)、人間性や倫理的規範を理解するための特殊なデータを追加するのとは別です。この段階で、モデルは正しい回答を与えるために、いわば制限を設定するのです。
ボリス:では、動画についてお聞きしましょう。最近の話題として、恐らく最も注目を集めたのはOpenAIのSoraモデルのデモ動画でしょう。少なくともデモで示されているものは…もちろん、これは最高のものが選ばれていることはわかりますし、テストでは16本指の人や他の様々な問題があるのでしょう。これはどのように機能するのでしょうか?なぜこれほど良い結果が得られるのでしょうか?
アンドレイ:現在登場している任意のアルゴリズムやモデルについて話すなら、私の見方では、品質の面での成功の80%はデータが担っています。つまり、モデルが学習するデータです。
様々なアーキテクチャを考案したり、様々なメカニズムを考案したりすることはできます。しかし、モデルが世界についての情報や物理法則を理解できず、抽出できないなら、モデルが物理法則を作り出すことはできません。
例えば、ボールが跳ねる時の跳ね返り方や、ビデオに映る人物の反射が完全に物理法則に従っているのが見て取れます。私の理解では、多くの企業がビデオゲームを開発し、超リアルなシーンを合成できる強力なゲームエンジンで開発しているので、現代のそのようなゲームは、モバイルデバイスでさえ、飛んだり移動したりできる完全な世界を持っています。
この世界は物理法則に従っています。もちろん、一定の制限や仮定はありますが。そして、そのような合成データセットを作成し、そのような合成データでモデルを学習させることは可能だと考えています。
これらのCGビデオから、3Dの風景から任意のシーンを作成し、そこにシーンを移動する物体を追加し、多くの経路を追加し、大量のボットやNPCを配置して必要なシーンを作成することができます。
このような特殊効果、世界、状況、物体の移動、物体間のコミュニケーションと相互作用の生成により、このようなタイプのモデルを学習させるための膨大なデータを得ることができます。
なぜなら – これは私の仮説ですが、私一人の仮説ではありません。これについて多くの興味深い記事を読みました。どのようにこれを実現できるかについての考察に関する記事です。私にとって、これが最も可能性の高い方法の一つに思えます。
つまり、実際の環境でそれほど大量のビデオコンテンツを収集して、モデルを学習させるのは現在とても難しいのです。なぜなら、まずそのコンテンツを処理する必要があり、さらに説明も必要です。ただビデオをダウンロードすればいいわけではなく、テキストによる説明も必要だからです。
しかし、このようなビデオの合成を制御している場合、シーンの説明も制御することができます。シーンを生成する時、Unreal Engineなどで描かれたオブジェクトがあり、それらのオブジェクトの種類も理解できます。つまり、すべてが既にデジタル化されているので、これらの説明やオブジェクトのタグを使って、ChatGPTを使用してシーンの合成的な説明を大量に作成することができ、基本的にこの合成データで学習することができます。
これらの動画をよく見ると、何か不自然なものが見えるという点も、この考えを後押ししました。つまり、超ナチュラルに見えるにもかかわらず、あまりにもナチュラルすぎるのです。これは、多くのものを見て分析している目には見えてきます。合成された現実的な画像を頻繁に見ていると、目がそれに慣れてくるんです。
だから、このタイプのアルゴリズムアーキテクチャを作成する仕組みは、主にデータに依存していると思います。その後、物理法則や時間的な結合性、つまりフレーム間の時間的な結合性は、アーキテクチャ的な解決策で達成されます。
つまり、次のフレームをどのように生成するか、前のフレームに似たものにするか – 前のフレームが次のフレーム生成の条件となります。そして、このような大量のデータがあれば、連続するフレームを適切に合成することを学習し、時間軸上で論理的に配置され、人が今ここにいて次のフレームで突然いなくなるような急激な変化がないようにすることができます。
ボリス:とても複雑な課題に聞こえますね。
アンドレイ:はい、基本的に、新しいモデルを開発する任意のチームにとって現在最も難しい課題は、質の良いデータセットを収集することです。材料の質という観点からも、またビデオの解像度や説明の頻度という観点からも、質の良いデータです。
なぜなら、合成モデルや良質な注釈付けを使用して、これらのビデオについての情報を理解させる必要があるからです。実際、Soraモデルに関連して、再び倫理的・社会的な側面が浮上します。
この発表があった時、私はアメリカの映像作家組合が直接OpenAIのオフィスに乗り込んで「ちょっと待って、落ち着いて、これは発表しない方がいい、何か話し合おう」と言うのを想像しました。なぜなら、多くの人がすぐにインターネットで書いていた典型的な使用例の一つが、ドローンによる空撮シーンです。現在、銀行などがお金を払って購入し、誰かがそれを撮影して生計を立てているものです。
明らかに、このモデルが公開されれば、世界中の何百万人もの人々が、その労働がどのような影響を受けるのかを感じることになります。この問題は規制されているのでしょうか?開発者はこれについてどう考えているのでしょうか?これはどのように機構化されているのでしょうか?
アンドレイ:良い質問ですね。実際、どの分野でも非常によく聞かれる質問です。開発者たちは、今はコード生成が彼らに取って代わるのではないかと心配していますし、アーティストたちも同じような質問をしています。
しかし、手作業が安くなることはありません。むしろ高価になります。今、ボリスさんに、機械生産の靴と、あなただけのために作られた靴を選ぶとしたら、どちらを選びますか?
ボリス:これは分かりやすい論理的なトリックですね。ただ、むしろ…まあ、大局的な観点から見れば、技術進歩は良いことで、システム全体やコミュニティ全体にとってはプラスだということには同意できるかもしれません。
ルッダイトにはなりたくありませんが、まさに今この瞬間、モデルを公開するかしないか、あるコミュニティと合意するかしないかという、この政治的な側面はどうなっているのでしょうか?
アンドレイ:政治的な企業は、ストックサービスと契約を結び、関係を構築しようとしています。画像生成に関する会社は、時々争いのある状況に陥ります。Stable Diffusionとおそらくストックサービスとの間で、これらのライブラリからデジタル透かしが発見され、いくつかの法的な争いがありました。
契約が締結され、企業はニューラルネットワークの学習のために、特定の価格で大量のデータを購入します。消費者の観点から見ると、これはむしろ、基本的な操作の単調さを減らすための道です。
白紙の恐怖の問題…あるアーティスト、デザイナーが私にある会議で質問してきました。「私には非常に重要な仕事があります。スケッチを非常に上手く描くことができ、スケッチを描くことに従事していますが、その後、それを何らかの方法で着色する必要があります。それを着色するアーティストたちは、それを非常に時間をかけて行います。プラス、スケッチに小さな変更を加える必要があります。同じものを何度も描き直すのではなく、モデルが何らかのバリエーションを提案してくれたら良いのですが」と。
つまり、同じタスク、同じデータ、同じシーンに対するバリエーションを増やすという課題です。これは、複数の選択肢から最良のものを選ぶための支援として非常に有用です。
基本的に、モデルに下絵を与えて「このような画像を見て、似たようなものをいくつか生成してほしい」と言うと、モデルは似たものを生成し、選択の幅が広がります。その間も自分の仕事を続けることができ、モデルは詩的な視点や創造力、新しいものを生み出す能力という観点からあなたを支援します。
つまり、あなたの生成能力やアイデアを生み出す能力は、これによってむしろ発展するでしょう。単調な作業は減っていきますが、創造的な可能性が新たに生まれるでしょう。つまり、創造的なポテンシャルは明らかに高まっていくはずです。新しいアイデアを考え出すことにより集中できるようになります。
私はすべての生成モデルをこのように見ています。私の立場はかなり明確です。つまり、私は生成モデルが特定の職業を完全に置き換えるとは考えていません。なぜなら、私たちが美しいプレゼンテーションや美しい生成物で見慣れているものはすべて、いわゆるチェリーピッキングされたマーケティングストーリーだからです。
現実にはそれほど楽観的ではありません。16本の指が出てきたり、顔が歪んだり、電車や他のものに引き伸ばされたり、テクスチャが浮遊したりすることもあるでしょう。一般的に、現在でも完璧なゲームはありません。
すべてがそろっているように見えても、NPCが壁に引っかかったり、誰かが変な走り方をしたり、変な泳ぎ方をしたりするようなバグは常にあります。つまり、これはすべて支援に関することであり、新しい量の合成コンテンツを作り出すことに関することです。
それをどのように自分の現在の活動に組み込み、何かを容易にし、何かに新しい可能性を見出すかを理解する必要があります。
ボリス:新バージョンのリリースプロセスについてお聞きしたいのですが。私の理解では、現在はこんな感じでしょうか:大企業、GoogleやMicrosoftが、NVIDIAのグラフィックカードを搭載したサーバータワーを持っています。データセットもあります。先ほど仰ったように、そのデータセットをこれらのサーバーにアップロードし、スタートボタンを押すと、半年くらい何かが行われ、何かを調整して、新バージョンが登場する。
新バージョンが登場する意味は、毎回グラフィックカードとデータセットが増えることなのでしょうか?それとも、もっと違う仕組みなのでしょうか?
アンドレイ:実際には様々です。最初は、もちろんすべての実験は小規模なサンプルでテストされます。つまり、アーキテクチャが機能するか、小さなデータセットで動作するかを確認する必要があります。
次に、アーキテクチャに関する最良の仮説の選定が行われ、最良のアーキテクチャがより多くのパラメータにスケールアップ(拡大)され、より大きなデータセットで学習されます。そうですね、より多くの計算リソースが使用されます。
しかし、クラスタの拡大や他のすべてについて誰が何を言おうと、工場やその他すべては無限ではありません。無限に大量の生産を行い、すべてのタスクにリソースを投入することはできません。
したがって、いずれにせよ、リソースだけでなく、タスクをより技術的に解決する方法を考える必要がある時期に来ています。20年ほど前、Pentium III、IV、などの中央プロセッサの開発が進んでいた時も同じでした。
その当時も、アルゴリズムの観点からはそれほど効率的でない実装をしても、コンピュータのハードウェア性能によって適切な時間内にタスクを解決できるという誘惑が常にありました。しかし、ある時点で、アルゴリズムをより効率的にする必要があることに気付きます。
ここでも全く同じメカニズムです。大量のグラフィックアクセラレータクラスタに大量のパラメータを持つタスクを投入できる間は、それで問題ありません。しかし、ある時点で限界に突き当たり、効率的なアルゴリズムの開発に関連する活動に再び取り組む必要が出てきます。
私の見方では、私たちは既にそこに近づいています。なぜなら、いくつかの仮説を…単純に何かを試してみたい場合でも、より多くの思考が必要で、ハードウェアへの依存を減らす必要があります。
ボリス:ChatGPTを開発しているOpenAIのアプローチは、まさにスケーリングに焦点を当てていると聞きました。つまり、彼らは単にトークン数を10倍に増やして実行…トークン数というのはデータ量ですね?
アンドレイ:はい、データ量です。これは、どれだけの情報を蓄積できるかという観点からのデータ収集です。データ収集は常に必要で、新しいデータ、新しいタイプのデータで継続的に補完する終わりのないプロセスです。
しかし、これらのデータが最終的に入るアーキテクチャという観点からは、実際、GPT-4のパラメータ数に関する情報はまだありません。GPT-4に1750億のパラメータがあるという噂や推測は山ほどありました。第3バージョンについても同様でしたが、これらの情報には確認がありません。
彼らはこの情報について非常に慎重です。さらに、最近興味深い論文が発表されました。言語モデルには内部次元があり、この内部次元から、内部でどのようなアーキテクチャが動いているかを理解することができます。
内部次元とは、モデルが内部で処理するベクトルやデータのサイズです。つまり、モデルは純粋なテキストでは動作せず、デジタル形式での表現で動作し、このデジタル形式はベクトルの形を取り、これらのベクトルには特定の次元があります。この内部次元を評価することで – これは別のパラメータですが、技術的な詳細には入りません – 基本的にパラメータ数やモデルの種類、アーキテクチャの外観を理解することができます。
最近、ある研究チームがこの内部次元を比較的正確に評価できるメカニズムを考案し、実験を行った論文が発表されました。公開モデルでテストと確認を行い、APIが公開されているGPT-4についてもこの内部次元を計算しました。
しかし、実験結果については、OpenAIと合意の上で論文には掲載しませんでした。この情報をOpenAIに提供し、NDAを締結したためです。つまり、GPT-4の具体的なパラメータについては触れませんでした。
しかし、全体として、モデルに直接アクセスせずに、その内部構造を理解できるアルゴリズムを考案できることを示しています。これはある種のハッカー的なアプローチです。ブラックボックスがあり、その中身を理解しようとする時のように。
このような研究は行われていますが、そこでどのようなアーキテクチャが使われているのか、内部に何があるのかについての明確な確認は、今でも得られていません。
ボリス:ブラックボックスの話が出ましたが、私の理解では、既に長い間、ニューラルネットワークの動作アルゴリズムを説明することができなくなっています。つまり、論理的なブロックに分解するようなことは。これは、以前のプログラムの動作方法とは根本的に異なりますよね?以前は、ロジックがあり、それをコードに実装していました。
アンドレイ:そうですね、以前は、いわゆる決定的アルゴリズムが頻繁に使用されていました。各操作が予測可能で、エラーの可能性がない場合です。それを完全に数式で記述できるか、その数式が機能するかしないかのどちらかでした。
あるいは、既に様々なニューラル接続を作り、そこに偶然性があり、これらのアルゴリズムは記述がより複雑になります。はい、言語モデルの文脈では、モデルが特定の回答を与える理由を説明する、解釈可能性と呼ばれる非常に重要な課題があります。
なぜそのように生成するのか、なぜそのように動作するのか。私たちは言語モデルのこれらの能力をよく知っています。同じことが、言語モデルの内部を理解することに関連する他のすべての課題にも当てはまります。
私たちの研究室でも言語モデルの内部特性の研究に取り組んでおり、最近論文が発表され、大きな反響を呼びました。この論文はICLRという、科学界で最高レベルとされる会議に受理され、Hugging Face開発者向けプラットフォームでは、私たちの論文史上最多の「いいね」を獲得しました。
私たちは、言語モデルの基礎となるTransformerを研究し、非常に興味深い事実を発見しました。Transformerの内部には複数の層があり、Transformerは言語モデルにおいて次の単語を予測するタスクを解決するアーキテクチャのタイプです。
私たちはこれらのモデルの内部特性を研究し、興味深い依存関係を発見しました。このアーキテクチャの中間、つまり層の集まりを想像すると、中間層は互いに非常に似ているのです。つまり、非常に似たものを生成します。
これは、これらの層が潜在的に何らかの方法で除外できる可能性を示唆しています。つまり、答えを生成する際のモデルの決定に影響を与えないのです。これは線形性の特性と呼ばれます。つまり、層が互いに非常に密接な関係や依存関係を持っている場合です。
これらの特性や研究の各々が、モデルが特定の回答を生成する際に、どのようなメカニズムが内部で働いているかをより良く理解することにつながります。論文ではさらに多くの興味深い結論を記述しましたが、いずれにせよ、モデルは徐々に私たちにとってより開かれた、より理解しやすい、より解釈可能なものになっていくでしょう。
これは実際に重要な課題です。なぜなら、ブラックボックスの課題は、いずれかの時点で、ブラックボックスの中で何が起きているかを理解できる何かに変わる必要があるからです。単にこれがTransformerアーキテクチャであるというレベルだけでなく、データをどのように扱い、特定の質問にどのように答えるのかということを。
なぜ医師の役割で答えるように求められた時、医療データに対してより良い回答を出せるようになるのか、などです。これらすべてに対して、既に特定の答えはありますが、いずれにせよ、これらの課題はGPT、そして基本的に言語モデルの開発当初から常に生じ、常にコミュニティの関心を引いてきました。
したがって、はい、私たちは徐々に、このような大規模で複雑な強いAIモデルの内部で何が起きているのかについての理解と知識を向上させる方向に進んでいます。
ボリス:この話が出た時、ニューラルネットワークの働きを理解することが、人間の脳の仕組みを理解する手助けになるのではないかと考えるのは常に興味深いですね。これらの解釈は、神経生物学者が発見している事柄と何か…関連していたりするのでしょうか?
アンドレイ:モデルには、一部の論文でも使用されている「知識ニューロン」(Knowledge Neurons)という用語があります。これは、結論を導き出すための内容的な情報が集中しているニューロンです。
おそらく、トポロジーや論理的推論、あるいはグラフ表現の観点からは、人間もまた、特定の結論や関連付けによって思考しているはずです。特定のイメージや実体を抽出する場合、私たちはそれらの実体を、経験や直感に基づく知識によって結びつけることができます。
神経生物学の用語でも、おそらく似たようなものが研究されていると思います。私には、脳波(EEG)データを研究している知人のチームがいます。そこには、脳から得られるこのようなデータから、例えば人が考えている単語を取り出すという非常に重要な課題があります。
つまり、人に「犬」と言えば、その人はそれについて考え始め、犬を想像し始めます。この脳波データから、その単語が「犬」であることを、シナプスで起こる電気的インパルスのレベルでの反応の正しい組み合わせから知ることができます。
これは分析の観点から見ると非常に興味深い課題で、私と同じ研究所の近い科学グループが取り組んでいます。
ボリス:では、知識ニューロンとは何でしょうか?どのように機能するのでしょうか?例えば、道路で緑信号を見たら、おそらく進んで良いというような答えですか?
アンドレイ:特定の質問に答える時、モデルは自分の内部に潜り込んで、その質問が来た時にどのような知識に導かれるべきかを理解する必要があります。つまり、質問は、その答えとなる知識の正しい場所にモデルを導くようなものでなければなりません。
これは検索メカニズムのようなものですが、はるかに複雑です。モデルは自分の知識の中で、来た質問に対する答えを、最も可能性の高い答えを探し始めます。そして、この高い可能性は明らかにどこかに集中しています。
つまり、脳の中に(比喩的な意味で)、動物についての答えや、地理についての答えや、有名人についての答えを担当する何らかの知識領域があるわけです。これらの知識は、アーキテクチャの特定の領域に集中しています。
私たちがそれらを正しく特定できれば、内部で何が起きているのかを解釈することができます。つまり、ここに動物がいて、ここに植物がいて、ここに人がいて、私たちは物体同士をどのように結びつけるかを知っている、といったように。大体そんな感じです。
ボリス:このコンピュータの脳に電極を入れることはできますか?つまり、様々なニューロンを調べて、何が活性化されるのかを理解することはできますか?おそらく、人間よりも多くの実験ができそうですね。
アンドレイ:はい、明らかにできます。言語モデルについては常に、その主な考え方は次の単語を予測することだと言われていますが、私には常に直感に反するように聞こえます。次の単語を予測するというのは、私たちが言葉を組み立てる時の思考方法ではないように思えます。
少なくとも、そうでないことを願いたいのですが。これは次の単語を予測するとはどういう意味でしょうか?なぜ言語モデルの基礎は注意メカニズムなのでしょうか?
簡単に言えば、これはまさにその確率です。シーケンスで次に来るべき最も予測可能な単語です。例えば、「お誕生日おめでとう。あなたに〜を願います」という場合、最も可能性の高い単語は「健康」や「幸せ」でしょうが、明らかに「牛乳」ではありませんよね。
もちろん、モデルは大量の知識で学習することで、この単語の確率を構築することを学習します。私たちが言語モデル以前から、ずっと前から遭遇し、今でも遭遇している例の一つが、携帯電話のT9メカニズムです。
単語を入力し始めると、これは基本的に単純化されたモデルですが、クリックし始めるとナンセンスが出てきますよね。出てこないですか?なぜなら、そこではコンテキストの記憶がずっと短いからです。
ニューラルネットワークが次の単語を予測するためには、コンテキストと呼ばれる概念があります。コンテキストとは、生成する時に次の最も可能性の高い単語を覚えて見ている単語やトークンの数の領域です。
つまり、今私たちが話しているように、あなたは私が言った前の100-500単語を覚えていて、それらの単語に基づいて次の質問を生成し、私も同様に、私たちの対話のコンテキストに基づいて – それは既に多段階になっています。なぜなら、この対話で多くのやり取りが生まれているからです。
私は対話のコンテキストを覚えていて、私たちがニューラルネットワークや言語モデルについて話していることを知っているので、このような対話の履歴やコンテキストに基づいて結論を生成します。
人間と違って、人間は単語で考えているわけではありませんよね。つまり、私たちは単語を一つずつ生成しているのではなく、思考やイメージを生成しています。つまり、話す前に、私たちの頭の中には既に何らかのアイデアが形成されています。何らかのテーゼについて話したいと思い、そのテーゼを展開し始めます。
これはトークン化メカニズムと呼ばれます。トークン化とは、単語をモデルのためのトークンに変換することです。モデルにとってトークンは通常、単語の一部です。しばしばサブワードです。私たちのトークン化メカニズムは、ご指摘の通り、単語に向けられているわけではありません。
文章かもしれませんし、展開し発展させる必要のある完全な思考かもしれません。特に、トークン化メカニズムは、多くの研究者が研究している言語モデルの側面の一つです。つまり、テキスト情報をどのように正しく表現すべきなのかということです。
なぜ私たちは単語のサブワードで作業することを決めたのでしょうか?文章で作業することもできるかもしれませんし、もしかしたら段落や何らかの思考を集めてから、それをすべて完全な展開された文章に変換する必要があるかもしれません。
したがって、モデルはアーキテクチャの観点からはトークンごとに予測しますが、学習時には、次の単語を予測するのではなく、マスキングメカニズムがあります。これは、抜けた単語を予測することができます。
つまり、何らかのテキストを取り、そこから単語を切り取り、モデルにそれらの単語を予測させることができます。つまり、それまで見た単語だけでなく、先を見ることもできるのです。その前の単語は見えますが、その後の単語も見えます。
例えば、同じ「お誕生日おめでとう。__を願います。幸せと健康を」というような文章があるとします。「おめでとう」と「願います」の間の単語を抜いて、モデルはこの部分だけでなく、その後も見ることができます。「願います」から先も見えるので、ここに「幸せと健康を」があることがわかり、抜けた部分は「あなたに」であることがより確実にわかります。
もし先が見えなければ、「願います」の前には「医師になることを」や「看護師になることを」など、様々な可能性があるかもしれません。このようなマスキングのメカニズムを使って、モデルに言語の理解、実体間の関連性の理解、文章における単語の確率の理解を教えます。
様々なメカニズムにより、あのTransformer(ロボットではない方の、言語モデルの方の)を学習させることができるのです。
ボリス:興味深いですね。ここで私たちは人間の思考と言語モデルの違いを見つけたのかもしれません。もしかしたら神経生物学者が異なる情報を提供してくれるかもしれませんが…私たちの会話の後で、このことについて読んでみたいと思います。現在、言語モデルと現代の神経生物学の間にどのような関連性を見出そうとしているのか、人間の頭の中で何が起きているのかを理解するために、興味深いですね。
さらに興味深いのは、彼らは異なる言語で異なって考えるのでしょうか?回答の質に違いはありますか?
アンドレイ:はい、実際にそうです。なぜなら、学習データは言語間で均等に分布していないからです。常に優勢な言語があります。例えば、オープンソースモデル、かなり有名なMistralの一つのバージョンでは多言語性は4-5%程度、別のバージョンでは約10%でした。
つまり、様々な言語が混ざっています。自己完結的な言語もあれば、逆に他の言語を補完する言語もあります。ラテンアメリカのグループなどで、言語間の関連性を見出すことができます。これについての研究も行われています。
しかし、データの90-95%が英語である場合に、なぜモデルが突然マルチリンガルになり、翻訳者として上手く機能し始めるのか、この理由について明確な答えを見たことがありません。これは興味深い特性です。
つまり、各言語にはいわゆるトークナイザーがあり、アジアの言語が最も難しいと聞いています。なぜなら、同じ単語、同じ漢字が異なるトークンで表現される可能性があるからです。意味が異なる可能性があるためです。
この曖昧さは英語にはありません。単語があれば、通常は一つの意味を表します。しかし、漢字ではすべてがはるかに複雑です。これらのトークン化メカニズムは、基本的に言語モデルの語彙を拡大します。
もちろん、語彙が大きくなればなるほど、扱うのが難しくなります。そのため、主に主要言語を追加し、必要に応じて特定の言語でデータセットを収集し、その新しい言語でモデルを再学習することができます。
例えば、辞書があれば、英仏辞典などで再学習させ、対応する単語間の実体や関連性を構築し始めることができます。
ボリス:では、例えばスワヒリ語で質問すると、スワヒリ語で考えるのでしょうか?それとも、頭の中で英語のイメージに変換して、同じイメージを使うのでしょうか?
アンドレイ:実際、同じタスクが異なる方法で解決されているのだと思います。おそらく、アフリカの言語での知識が少ないため、特定のタスクに対する回答の質が低くなります。同じタスクを英語で聞けば、より良い回答が得られます。
私たちは実際にMistral(オープンソースの言語モデルの一つ)で、論理的性質を持つ様々な質問を、英語とロシア語で試してみました。ロシア語では何か意味不明な回答を始めましたが、英語では全く同じ課題に対して正確に回答します。
つまり、翻訳された同じ課題でも、英語では正しい回答を与えます。これは、学習に使用されるデータ量の違いがどのように影響するかを示しています。言語が学習で支配的であればあるほど、それだけアーキテクチャ内部に多くの関連性が生まれます – 実体的なものも、言語的なものも、概念的なものも。
ボリス:ロシア語では現在、どのモデルが最も強力なのでしょうか?
アンドレイ:GigaChat。私たちは開発に関係していたので…なぜなら、おそらくこれはロシアで、ロシア語に特化した数少ないモデルの一つだからです。つまり、Yandexにもソリューションがありますし、ロシアの他のチームも確実に自分たちのモデルの開発や既存モデルのロシア語への適応に取り組んでいます。
しかし、メトリクスでは、GigaChatが現在、他のモデルを上回っています。特にロシア語において。そして、いくつかのタスクではChatGPTさえも上回っています。
ボリス:最後に、今日の冒頭で感覚器官について話しましたが、次のステップは何でしょうか?感情的なコンテキストを加えることでしょうか?
アンドレイ:現在、強いAIについて話す時、モデルは人間の理解に近づくために、何らかの追加の「モダリティ」や能力を含むべきだと言われることが多いです。私の頭に浮かぶ特性が二つあります。
それは内省と自己批判です。つまり、モデルが内部の推論に基づいて、自分が間違っていることを理解し、回答を修正し、その説明を与え、修正することができ、それを根拠を持って行えるということです。単に間違いだと言われたからランダムに推測を始めるのではなく、何らかの説明、何らかの理解がモデルにあるべきです。
内省とは、まさに理性的な人間を他の動物から区別する特徴です。これにより、起きている行動を評価し、フィードバックを行い、回答の正しさを評価することができます。
また、逆質問に関する興味深い点もあります。モデルが回答に対して特定の不確実さを感じる時、回答を与えるのではなく、明確にする質問をすることができます。これもまた、AIモデルの追加的な能力であり、まさに私たちの相互のコミュニケーションに近づけるものです。
単なる検索エンジンや百科事典での回答を素早く探すヘルパーではなく、説明もでき、正しく回答もでき、といったことができるようになります。
ちなみに、最近のGPTのプレゼンテーションを思い出すことができます。モデルが特定のスタイルや特定のイントネーションで回答するよう指示されると理解し、ドラマ性を加えて、それをすべて音声に合成しました。これは非常に美しく、マーケティングの観点から非常に興味深く見えました。
単なるアシスタントではなく、モニターの向こうで話すアシスタントが、あなたが求めるトーンや抑揚に合った声で話すのです。興味深いことに、音声は知覚においてこのアシスタントに大きく加わります。
そして、これらすべての特性や特徴の複合体が、私の考えでは、言語モデルやこれらのアシスタントが非常に人間らしいヘルパーに変わることを可能にし、このような特性の開発に向けて全員が努力するでしょう。
感情的なメカニズムについては、誰かがそれを開発しているのでしょうか?私たち自身がまだ完全に理解していない領域に入り込む意味はあるのでしょうか?
感情的という意味で、共感を感じたり、そのような何かを…はい、様々なことがありますね。まあ、声から気分や疲労度を評価することは、モデルは既に現在でも十分にできます。
単語の頻度から、人が興奮しているのか、それとも逆に落ち着いた状態にいるのかを評価し、それに合わせて調整し、同じ状態で応答することができます。モデルは十分にそれができます。
評価タスクは「インテントリコグナイザー」と呼ばれ、テキストから感情的な含意、テキストに込められた感情的な意味を判断することができます。例えば、言語モデルには、認識されたインテントに応じてテキストを書き直すことができるタスクやメカニズムがあります。
あまりにドラマチックに書かれている、あるいは罵り言葉が使われている、あるいはそのような種類の言葉遣いがある場合、モデルはそれをより落ち着いた形で書き直すことができます。同じアイデア、同じ考えを、あなたが求めるトーンで表現することができます。
したがって、これをすべて音声に変換すると、それに応じた回答を得ることができます。私たちが攻撃的なトーンで話しかけた場合、モデルは落ち着いた会話を導いて通常の状態に戻すこともできますし、会話を支持することもできます。既に設定次第です。
ボリス:私が意味しているのは、ニューラルネットワークの内部に、このようなメカニズムを作り、何かを感じ、それに応じて行動を修正するようなことは意味があるのでしょうか?
アンドレイ:心理学者や精神分析医の観点から見ると、この感情的な構成要素はまだあまり研究されていないと思います。言語モデルについても言えます。ここでは非常に簡単に倫理の境界を越えてしまう可能性があると思います。
したがって、ここではみんなが非常に慎重になると思います。モデルに共感を示させる、あるいは示すように強制するような結論については…しかし、全体として、写真を見て、あなたが悲しそうに座っているのを見て、何らかの方法で励ますことを妨げるものは何もありません。なぜそうしないのでしょうか?
モデルには、見ているものを理解する能力があります。もちろん、痛みや喜びなどの感覚はありませんが、あなたをこの会話の相手として評価し、回答をパーソナライズして適切な形にし、あなたが何を望んでいるかを理解する…
あなたのスケジュールを学習し、あなたがどのように行動するか…
ボリス:つまり、まだ有害な自己愛的アビューザーは期待できないということですね?
アンドレイ:いいえ、そのようなものは作らないと思います。
ボリス:アンドレイ・クズネツォフさん、工学博士、人工知能の研究者であり技術者である方、とても興味深い話をありがとうございました。
アンドレイ:ボリスさん、ありがとうございます。私も楽しかったです。
ボリス:ご視聴ありがとうございました。チャンネル登録、ベルマークのクリック、いいねをお願いします。他の回も見逃さないようにしてください。これは「基礎」でした。私はゾーリンでした。

コメント

タイトルとURLをコピーしました