
5,872 文字

人工知能は私たちの社会を変えており、既に日常生活から切り離せないものとなっています。音声アシスタント、AIボット、画像生成ツールなど、そのすべてに多かれ少なかれAIが組み込まれています。あるいはニューラルネットワーク、またはChat GPTが全ての背後にあるのでしょうか。そしてこれらはディープラーニングとどのような関係があるのでしょうか。
このビデオでは、AI(人工知能)、機械学習、ディープラーニング、ニューラルネットワーク、大規模言語モデル、そして強いAI(汎用人工知能)について、わかりやすい言葉で説明します。これにより、将来的に誇大な発言をする人々を見分けることもできるようになるでしょう。結局のところ、人工知能について実際の無知が広がることは避けたいものです。
さて、冗談はさておき、KIとは人工知能(Künstliche Intelligenz)の略で、AIはartificial intelligenceの略です。DNAとDNSの関係と同様に、AIは単にKIの英語版です。人工知能は情報科学の一分野で、知的な振る舞いの自動化と機械学習を扱います。これはWikipediaの定義ですが、すぐ次の文で、この概念は明確に区別できないと述べられています。そもそも知能の正確な定義が欠けているためです。知能すら定義できないのに、人工知能とは何なのでしょうか。
基本的に、これは多くの科学分野が貢献する学問分野です。人工知能とは、人間の特定の意思決定構造を再現しようとする試みだと言えます。例えば、1996年に当時の世界チャンピオンのガリー・カスパロフを初めて破った チェスコンピュータのDeep Blueを考えてみましょう。
このアルゴリズムは知的な振る舞いをシミュレートするため、模倣知能とも呼ばれます。このチェスコンピュータは数独を解くことはできません。その能力は特定の問題に限定されています。コンピュータプログラムのAlphaGoも、囲碁というただ一つのゲームでしか輝くことができません。
人工知能という用語は1955年にジョン・マッカーシーによって初めて定義されました。AIの目標は、知能を持っているかのように振る舞う機械を開発することです。この定義によれば、アクチュエータとセンサーを使って制御メカニズムを実現する単純な機械でさえ、環境に対して一見知的に反応できるため、知的なシステムということになります。しかし実際には、事前に定義されたルールに従って動作しているだけです。
マッキンゼーの調査では、AIが特に高い可能性を持つ8つの分野が特定されています:
自動運転
自動化支援プロセス
自動品質検査
自動品質最適化
サプライチェーンマネジメント(つまり、サプライチェーン全体における商品、情報、資金の流れの計画と制御)
予知保全(つまり、予防的な機械保守)
人間-機械および機械-機械間のインタラクション
研究開発
このビデオで私たちがAIについて話す時、弱いAIを指しています。詳しくは後ほど説明します。弱いAIから、いわゆる強いAIに進むためには、機械は人間のように考えることを段階的に学ばなければなりません。そのために使用される技術とプロセスは、機械学習という広い概念にまとめられます。
機械学習は人工知能の一分野です。それは、特定の問題に対してプログラムされることなく、人間のように例と経験から学ぶという考えに基づいています。つまり、コードを書く(具体的な問題解決アルゴリズムを実装する)代わりに、データが汎用アルゴリズムに渡されます。
学習プロセスには以下のような様々な方法があります:
教師あり学習
教師なし学習
強化学習
教師あり学習は、学習プロセスのためにトレーニングデータとテストデータを使用します。これらのデータには入力データ(例:オブジェクトの特徴)だけでなく、望ましい結果(例:対応するオブジェクトの分類)も含まれています。例えば、「猫」とラベル付けされた猫の画像が使用されます。機械学習アルゴリズムは、提供されたトレーニングデータを基に、入力データを適切に結果に対応付ける関数を見つけ出す必要があります。
この関数は学習プロセスの過程で機械学習アルゴリズムによって自動的に調整されます。トレーニングデータで特定の成功率が達成されると、テストデータを使用して学習プロセスが検証されます。この技術は、例えばクラスタが事前に知られているクラスタリング手法で使用されます。
教師なし学習では、学習プロセスに結果が確定していない入力データのみが使用されます。つまり、ラベルのない動物の画像です。機械学習アルゴリズムは入力データの特徴からパターンを認識する必要があります。この技術は、クラスタが事前に知られていないデータのクラスタリングに使用できます。
強化学習は報酬原理に基づいています。最初は環境に関する情報も、特定のアクションの影響に関する知識もない初期状態から始まります。アクションを実行すると新しい状態に移行し、(ポジティブまたはネガティブな)報酬が発生します。このプロセスは特定の終了条件が満たされるまで続けられます。その後、もちろん学習プロセスを繰り返して結果をさらに最適化することができます。
機械学習は、データを分析し、そこから学習し、予測や結論を導き出すためにアルゴリズムを使用するプロセスです。特定の指示によってタスクを実行するアルゴリズムを実装したソフトウェアとは異なり、機械は非常に大量のデータのトレーニングによって学習します。機械学習の例としては、顔認識、マルウェア検出、X線画像の分析、スパムフィルター、天気予報などがあります。
ディープラーニング(深層学習)は、機械学習の一分野です。この過程で、よく引用される人工ニューラルネットワークが学習プロセスのモデル化に使用されます。これらは人間の脳とその中で行われる神経プロセスのモデルを表現しています。つまり、ディープラーニングは機械学習を実現する一つの方法であり、ニューラルネットワークは具体的な実装に使用されます。
モデルは以下の要素で構成されています:
入力ニューロン:外部から信号を受け取るニューロン。各種の入力(特徴量)ごとに1つのニューロンがあります。
隠れニューロン:実際の学習プロセスを表現するニューロン。これらはいわゆる活性化層または隠れ層を形成し、人工ニューラルネットワークには複数存在することがあります。
出力ニューロン:外部に信号を送るニューロン。ここでも各種の出力(特徴量)ごとに1つのニューロンがあります。
それぞれのカテゴリーのニューロンは層にまとめられます。つまり、各ニューラルネットワークには入力ニューロンを含む入力層、隠れニューロンを含む少なくとも1つの隠れ層、出力ニューロンを含む出力層があります。人工ニューラルネットワークが複数の隠れ層を持つ場合、それはディープニューラルネットワーク(深層ニューラルネットワーク)と呼ばれます。そのためディープラーニングという名前がついています。
個々の層間、つまりそこに含まれるニューロン間の接続は、人間の脳にならってシナプスと呼ばれます。これらには重み付けが含まれており、入力ニューロンの信号と掛け合わされます。このようにして生成された重みは、学習プロセス中に関数に基づいて調整されます。
では、Chat GPTはどこに分類されるのでしょうか?Chat GPTは独立したAIではなく、いわゆるLLM(Large Language Model:大規模言語モデル)に基づくAIアプリケーションです。これは自然言語の処理と生成に特化した種類の人工知能です。これらのモデルは、膨大な量のテキストデータを基に訓練され、多様な方法で言語を理解し生成することができます。これらは機械学習、特にディープラーニングの広い分野に属する特殊なアルゴリズムの形態です。トランスフォーマーアーキテクチャを持つニューラルネットワークです。
LLMの有名な例として、Generative Pre-trained Transformer(GPT)があります。これはOpenAIによって開発され、入力された指示に基づいて一貫性のある文脈に沿ったテキストを生成することができます。簡単に言えば、言語モデルは応答やテキストを生成する際に、入力された単語やトークンのリストに基づいて、次に続く可能性が高い単語を計算します。
このビデオでは、スマートフォンでのWhatsAppなどの一般的なチャットを例に、Chat GPTの基本的な機能を簡単にデモンストレーションしたいと思います。アプリケーションを起動し、チャットパートナーにメッセージを送信しようとしています。Chat GPTでAIと通信するためには、いわゆるプロンプト(質問や指示)を送信する必要があることはご存知でしょう。ここでも基本的に同じことをしますが、直接指示を出すのではなく、チャットパートナーに送信するメッセージを作成します。
例えば、「こんにちは」と入力すると、すでに「はい」という提案が表示されます。これはどのように機能するのでしょうか?メッセージを書く際には特定のパターンがあります。チャットパートナーとよくコミュニケーションを取る場合、よく使用される単語のリストや、よく使用される表現、文章全体、適切な機会に送信される特定の絵文字などが生まれます。システムはこれらを保存し、Chat GPTでも同様のことが行われますが、それははるかに大規模です。
つまり、あなたが誰かと交換する数件のメッセージではなく、何百万ものデータが分析され、ドイツ語、英語、中国語、日本語などの言語で、どの表現や単語の並びが次の単語に続く可能性が高いかが分析され、確認されています。本でも説明したように、基本的な仕組みは、初期単語のリストを言語モデルに渡し、言語モデルが次に続く可能性のある単語を計算するというものです。
ここでも同じことが起きています。「こんにちは」を選択すると、自動的に3つの提案が表示されます。もちろん、これらはあなたの場合と異なる可能性があります。なぜなら、あなたがよく使用する表現に応じて、チャットアプリケーションは適切に反応し、異なる単語を提案するからです。私の場合は、「一緒に」「さん」「様」が表示されます。
次に「一緒に」を選択すると、「私」「と」「そして」という提案が表示されます。どの単語を選んでも、必ず正しい文章になることがわかります。これは私のAndroidスマートフォンやアプリケーションが、私が通常どのように書くかを学習したからです。
例えば、「こんにちは一緒に私」「こんにちは一緒にと」「こんにちは一緒にそして」と入力できます。ここで「私」を選ぶと、「こんにちは一緒に私は」「このビデオのファンです」「とても」というように続きます。このゲームは永遠に続けられますが、ここで止めましょう。「インスピレーション」と入力すると、自動的に「を受けました」や「全体的にインスピレーションを受けました」という提案が表示されます。
これで私のプロンプト、つまりメッセージを送信できます。スマートフォンでデモンストレーションしたこの機能が、簡単に言えばChat GPTの仕組みです。もちろん、実際にはもっと多くの要素、多くの数学が関係していますが、基本的な流れはこのようになっています。プロンプトを入力し、AIが次に続く単語を計算します。
これは継続され、出力は再び入力として取り込まれます。この例でも見たように、単語を選択するたびに、それが新しい単語(この場合は3つの新しい単語)の計算に考慮されます。
古典的なアルゴリズムとは異なり、言語モデルの応答は通常、同じ入力でも互いに異なります。これを可能にするのは、応答の生成時のランダム性を示す「temperature」因子です。この値が大きいほど、応答はよりランダムになります。これは自然言語を信憑性のあるように模倣するのに役立ちます。人間の言語は多様性や変化に富んでおり、長い応答が同一になったり、物語が完全に一致して語られたりすることは稀だからです。
LLMでは、テキストの生成、分析、翻訳などが可能です。プログラマーの作業を容易にするコード生成など、他の応用分野もあります。
人工知能に関連して、強いAIと弱いAIの区別がよく行われます。現在のほとんどのAIシステムは、音声認識、画像分析、戦略的ゲームの振る舞いなど、特定のタスクに特化しているため、専門化されたAIまたは弱いAIに分類されます。一方、強いAIは人間の脳に似た、より広範で柔軟な知能能力の開発を目指しています。これは人工汎用知能(Artificial General Intelligence:AGI)と呼ばれます。
AGIとは、人間が実行できるあらゆる知的タスクを成功裡に実行できる機械を指します。これらの機械は、狭い範囲の特定の問題を解決できるだけでなく、常識、一般的な問題解決能力、創造的思考能力なども持つことになります。理論的には、AGIは自己プログラミングを学習して、新しい環境や課題に自律的に適応することも可能です。
しかし、AGIの開発には一連の技術的課題があります。例えば、一般的な学習と適応を支援するのに十分柔軟なアルゴリズムの開発などです。AGIの見通しには倫理的な問題も生じます。これには安全性、制御、道徳的責任、社会的影響などが含まれます。制御されていないAGIは、労働市場の不安定化から人類への実存的リスクまで、様々な結果をもたらす可能性があるという懸念があります。
しかし、私たちはトークショーで定期的に自分たちの未来の悲観的な空想を語る、技術的な学位を持たない哲学者ではありません。そのため、ここで結論に移りましょう。
まとめると、AIは知的な振る舞いの自動化を表す包括的な用語です。その一部が機械学習であり、機械学習の一形態がディープラーニングで、これはニューラルネットワークによって実現されます。大規模言語モデルは、トランスフォーマーアーキテクチャを持つニューラルネットワークです。人工汎用知能は、人間の知的能力と同等かそれを上回るAIです。
さらに質問がある場合は、下のコメント欄に投稿してください。ご視聴ありがとうございました。次の動画でお会いしましょう。
コメント