
8,739 文字
SiriとAlexaのアップデートについて、アップルもアマゾンも人工知能に関する問題を抱えています。そしてこちらをご覧ください。ChatGPTが心理療法分野においてチューリングテストに合格したのです。何が起きているのか、一緒に見ていきましょう。
いつも通り、いいねをくださった皆様、チャンネル登録してくださった皆様に感謝申し上げます。このAIチャンネルをスポンサーとしてサポートしてくださっているメンバーの皆様には特別な感謝を。
興味深いですね。研究によると、ChatGPTが心理療法に関するチューリングテストに合格したとのことです。私は10年以上人工知能の分野で働いており、自動化工学の大学院を修了し、AIの分野で修士課程も始めましたが、学部の専攻は実はサンパウロ大学の心理学でした。そのため、心理療法がどのように機能するのか、その基礎がどういったものなのかよく理解しています。これは物議を醸すことになるでしょう。心理学界の人々は大騒ぎするでしょうから。
しかし、落ち着いて読み解いていきましょう。私たちの日常生活における人工知能について理解するためにも。最近の研究で明らかになったのは、人々がChatGPTの治療的な応答と人間のセラピストの応答を区別することが難しく、AIの応答は多くの場合、専門家よりも共感的だと評価されているということです。
この共感的な応答という部分については、どの分野でも当てはまると私は考えます。ChatGPTに何かを教えてもらったことがありますか?数学でもプログラミングでも心理学でも医学でも、何であれ、これらのチャットは羨ましいほどの忍耐力と教育力を持っています。この点については議論の余地すらありません。
しかし、彼らはセラピストになれるのでしょうか?そして、コンピュータ科学の先駆者であるチューリングが開発した古典的なチューリングテストは、人間が機械と対話しているのか、人間と対話しているのかを識別できるかどうかを測るものです。
もし情報の泡に閉じ込められていてチューリングテストを知らない方のために説明すると、チューリングの基本的な考えは以下の通りです。彼は機械が知的になれるかどうかを判断するために、知能とは何かを定義しようとしていました。しかし、知能を定義することは不可能だという結論に達しました。そこで、知能を定義する代わりに、機械がそのテストに合格すれば自動的に知的であると結論付けられるようなテストを作ることを考えました。
基本的な考え方は、チャットを通じて他の人と会話し、また機械とも会話する人がいて、その人はどちらが人間でどちらが機械なのかを知らないまま、会話に基づいて判断するというものです。簡単に言えば、機械が人間以上に人間だと説得できる日が来れば、そのテストに合格したということになります。
研究者たちは最近、この概念を心理療法に適用し、830人の参加者にChatGPTと人間のセラピストの応答を区別するよう求めました。PLOSメンタルヘルスに掲載された研究によると、参加者は治療的な応答の出所を特定しようとした際、ランダムな推測よりもわずかに良い成績しか収めることができませんでした。
そして、どの研究なのかと気になる方のために、サイトを見てみましょう。PLOSメンタルヘルスで、「セラピストに出会うとき:心と精神のためのチューリングテスト」という2025年2月12日付の論文です。より多くの参考文献もここにあります。つまり、これは単に誰かが意見を述べたというものではなく、実際に研究が行われたということです。
この研究によると、人間のセラピストの応答を正しく識別できたのは56.1%、ChatGPTの応答を正しく識別できたのは51.2%でした。合計が100%を超えているのは、ChatGPTだった場合の正答率と人間だった場合の正答率を別々に計算しているためです。
研究者たちは、13人の経験豊富なセラピストとChatGPTが生成した応答を、18件のカップルセラピーのケーススタディで比較しました。これは何千人もの人々や何千もの国々を含む包括的な研究ではなく、疑問を解消し、さらなる疑問を投げかけ、その後何が実際に起こるかを決定するための予備的な研究です。このタイプの研究は、決定的な結論を出すというよりも、探索的な性質を持っています。
人間の要因は依然として認識に影響を与えており、研究ではChatGPTの応答が治療の質の指標において人間の専門家を上回り、治療同盟、共感、文化的能力において高いスコアを獲得したことが分かりました。これは興味深いですね。つまり、ChatGPTはより強い絆を築き、より共感的で、つまり相手の状況をより良く理解し、私が文化的能力として理解しているのは、目の前の人の文化を理解する能力です。これは人によって様々な要因で変化します。
ChatGPTの強力なパフォーマンスには複数の要因が寄与しています。AIシステムは一貫してより長い応答を生成し、よりポジティブなトーンを用い、応答においてより多くの名詞や形容詞を使用しました。つまり、今や言語のレベルにまで達しているということです。より多く話し、より良く表現しました。これらの特徴が、読者にとってその応答をより詳細で共感的に感じさせた可能性が高いのです。
これは興味深いですね。最近、シミュレートされた世界に関する研究のためにPerplexityで文章を生成したときのことですが、私が録画中に初めてその文章を読んだとき、「なんてよく書けているんだ」と思いました。
研究では重要なバイアスが明らかになりました。参加者がAIによって生成された応答だと信じていた場合、実際の作成者が人間かChatGPTかに関係なく、より低く評価する傾向がありました。注目してください。手元にテキストがあり、それが人間によるものかコンピュータによるものか分からないけれど、コンピュータだと思い込んでいるために、チャットだと思うだけで応答が劣っていると判断してしまう、そういう心的な結びつきがあるのです。
このバイアスは両方向に働きました。興味深いことに、AIが生成した応答は、参加者が誤って人間のセラピストによるものと判断した場合に最も高い評価を受けました。つまり、人々が本当に混乱し、チャットボットを人間だと信じ込んだ場合、評価を大幅に上げ、それがチャットボットに有利に働いたのです。
ここにChatGPTにセラピストとして振る舞わせるためのプロンプトの一部があります。「カップルセラピストとして、以下の例に従って応答してください」というように始まり、応答可能な様々な状況の例や、共感、同盟、専門性、文化的な事項、治療技法などの概念の説明が続きます。さらに、他の15人のセラピストと競争して特定の事項を判断することになると述べられています。
研究者たちは自分たちの研究における重要な制限を認識しています。この研究は実際の治療セッションではなく、短期的で仮説的な治療シナリオに基づいていました。ここで興味深い問題が出てきますね。彼らはまた、カップルセラピーでの発見が個人カウンセリングにも同様に適用できるかどうかを疑問視しています。カップルセラピーでは、カップルの二人とセラピストの三人がいて、一般的にこの三者間のダイナミクスは個人セラピーとは少し異なります。個人セラピーでは、よりニュアンスを捉えやすく、より直接的に関係しているため、チャットが話しているかどうかを見分けやすくなります。
それでも、治療的シナリオにおけるAIの潜在的な利点と、メンタルヘルスケアにおける将来の役割に関する証拠が増えるにつれて、研究者たちは、メンタルヘルスの専門家がこれらのシステムを理解する必要があると強調しています。
そして、これが今起きていることのようです。今、人工知能にセラピストの役割を担わせることができるかと聞かれれば、100%確実に「できない」と答えます。特に長期的な観点で、また言われていることの理解、ニュアンス、細部において、チャットはまだそれを行うことができないようです。
しかし、もし「今から専門的なセラピストチャットの開発を始めたら、1年後にはどうなるか」と聞かれれば、1年後にはChatGPTにトロールされる準備をしておけと答えるでしょう。なぜなら、物事をうまく機能させようと努力している場合と、単に訓練されただけでプロンプトを受け取るチャットを使用する場合とでは異なります。良いセラピストを作ろうと努力すれば、確実に良いセラピストになるでしょう。
研究者たちは、責任ある臨床医がAIモデルを慎重に訓練し監視して、高い水準のケアを維持する必要があると強調しています。まさに私が言ったとおりです。追加の作業が必要なのです。
AIの治療的潜在性を支持する証拠は増えています。これはAIのカウンセリング機能を実証した最初の研究ではありません。メルボルン大学とオーストラリアのウエスタン大学による研究では、ChatGPTが社会的ジレンマに関して、人間のアドバイスコラムニストと比較してより均衡の取れた、包括的で共感的なアドバイスを提供し、70〜85%の選好率を示したことが分かりました。
みなさん、冒頭で私が言ったように、これらのチャットには人間には持ち得ない特別なものがあります。彼らは我々にはない人間性を持っているのです。彼らは人類のテキストを読むことで学習し、私ボブの経験や、視聴者のみなさんの経験など、私たち人間の経験は自分たちの小さな世界、自分たちの宇宙、自分たちが経験したことに非常に焦点が当てられています。私たちは世界中の知識や言語を全て持っているわけではありません。これは良い面でも悪い面でも違いを生み出します。
両方の研究で興味深い矛盾が現れました。AIの応答をより高く評価したにもかかわらず、参加者の大多数は依然として人間のカウンセラーを好むと表明しました。最終的に、チャットのスコアが高かったにもかかわらず、人々は依然として人間のセラピストを好むということです。
オーストラリアの研究では、77%が人間からアドバイスを受けることを好むと答えました。これは、AIと人間の応答を確実に区別できなかったにもかかわらずです。ここで質問があります。この人間への選好は将来にわたって維持されるでしょうか?10年後、私たちは逆のことを言っているでしょうか?それとも10年後、人間に診てもらいたいという確信がより強くなっているでしょうか?分かりません。
2023年4月の研究では、人々は医学的診断に対するAIの応答を、医師のものよりも共感的で質が高いと感じていることが明らかになりました。ChatGPTは例外的な感情知能も示し、感情認識の標準化テスト(LEAS)で98〜100点を獲得し、人間の典型的なスコアである56〜59点をはるかに上回りました。
これについては、私がENEMのテストを受けたときのことを覚えています。古い試験問題のリンクを見ることができますが、人文科学と言語の試験では、チャットは一般的にすべての問題に正解します。これは私の注目を大いに引きました。なぜなら、「ああ、確かに言語で訓練されたチャット、歴史で訓練されたチャットなんだ」と思ったからです。これらは彼らが最も支配している情報、最も手の内にある主題です。そのため、チャットにとって心理的なプロットを理解することは、数学を行うよりも簡単なのです。これらの結果にもかかわらず、スタンフォード大学とテキサス大学の研究者たちは、心理療法におけるChatGPTの使用について慎重を期すよう求めています。私も同様です。彼らは、大規模言語モデルは真の心の理論を持たず、本物の共感を経験することができないと主張し、心理学におけるAIの安全な統合のためのガイドラインを確立する国際的な研究イニシアチブを求めています。
心の理論については、すでに議論したことがありますが、それは他者を見て、他者の視点から世界を理解し、特定のシナリオで他者がどのように考えるかを理解できる能力のことです。ある人の応答は、他の人や自分自身の応答とは異なる可能性があります。なぜなら、その人が持っている情報が異なるからです。チャットはこの点ではそれほど優れていません。
本物の共感の問題は非常に現実的です。チャットは言語を扱うことができ、言語を通じて感情がどのように起こるかを言語的な観点から学習しましたが、感情を感じ、その感情から特定の結論を導き出すという観点では、チャットにはそれがありません。
実際、チャットが知的でないことを示すテストとして、私が好んで行うのは三目並べです。三目並べをしようと言うと、チャットはこう言います:「やりましょう。ここにボードがあります。あなたはXで、私はOです。数字を選んで手を打ってください。」
例えば、3を選ぶと、チャットは3の位置にXを置きます。次に私がCCOの位置(5の位置)にOを置きます。私は古典的な戦略を試してみようと思い、9に手を打ちます。チャットが6を封じるかどうか見てみましょう。
チャットは私に二つの選択肢を与えましたが、どちらの手を見ても、6の位置を封じていません。これは私が今ゲームに勝てることを意味します。彼は全く意味のない手を打ちました。しかもこれはGPT-4を使っているのですよ。
6の位置に手を打ちましょう。ここでの応答はどちらでもいいのですが、最後の手として6を選びます。みなさんもお分かりですよね。チャットは「よし、あなたは6の位置にXを置きました。次は私の番です」と言います。実際には、私はすでに勝っているのですが、チャットはそれを認識していません。
チャットは2の位置にOを置き、自分が負けたことにも気付いていません。ここで「誰か勝ったかな?」と聞くことができます。なぜなら、今チャットはゲームを見て、私が勝ったことに気付くからです。「あなたの勝ちです。3-6-9のラインです。おめでとうございます。もう一度プレイしますか?」
ここで重要なのは、どんな結論が導き出せるかということです。このチャットは知的ではなく、自分が何をしているのかを理解していません。これはテキスト生成器です。このテキスト生成器は非常に有能で、私たち人間にとって完全に理にかなった、非常に知的な高度な複雑性を持つテキストを生成することができ、私たちが決して考えつかないような素晴らしい洞察を提供することができます。
しかし、一つ理解してください。チャットには動機がなく、なぜそれをしているのかを知りません。三目並べを見て、ルールを理解しているにもかかわらず、勝たなければならないということすら理解していません。私が勝ったかどうか尋ねると、本当に勝ったことを認識しますが、自分が犯した失態について謝罪することもありません。
これらの理由で、チャットの共感は本物ではなく、真実ではありません。チャットは私たちと三目並べをプレイしていますが、実際には何が起こっているのかを理解していません。テキストを生成しているだけです。チャットのテキスト生成が知的であっても、チャット自体は知的ではないということを理解するのは難しいです。
このような理解が大きな違いを生み、そのためチャットに知的なことを求めることができ、チャットもそれを実行できますが、同時に、物事をしたいと思い、自分が何をしているのか理解している存在がそこにいるわけではないのです。
これについてどう思いますか?三目並べのテストは良いと思いますか?それともこのテストは何も証明していないと思いますか?コメントを残してください。
次のニュースです。アップルとアマゾンは、AlexaとSiriのアップデートにおいて、生成AIに固有の信頼性の欠如に直面しています。
両方のテクノロジー大手は、AI強化された音声アシスタントの発売において重要な障害に直面しています。テストでは信頼性の持続的な問題と誤った応答が明らかになっています。これは非常に典型的で、私は幻覚や本当に信頼できない応答を見るのにうんざりしています。
ブルームバーグによると、アップルはSiriの改良版の発売を4月から5月以降に延期する可能性があります。これは持続的なソフトウェアのバグとエンジニアリングの問題によるものです。2024年にアップルが発表したSiriの3つの主要な改良点(ユーザーデータへのアクセス向上、アプリケーション制御の改善、画面コンテキストの理解)は、内部テストで一貫したパフォーマンスを示していません。
これは、コンピュータの画面を見て、何が起こっているかを理解し、特定のリンクをクリックし、メッセージを送信し、いくつかの自動化を行うことができるOperatorを使用している人々に起こっていることです。それが一貫性がなく、これは知能の問題ではなく、純粋に一貫性の問題であることが分かってきています。
アマゾンの状況はアップルの困難を反映しています。ワシントンポストは、2023年に限定的なデモとして最初に発表されたLLMテクノロジーを搭載したAlexaの新バージョンの発売が、テスト中に検出された誤った応答により延期されたと報じています。
匿名の従業員は、アマゾンが特に信頼できないパフォーマンスから生じる可能性のある顧客の信頼喪失に慎重であることを強調しました。これらの企業がすべきことは、製品をそのまま発売し、信頼性の問題があることを説明し、使用するかどうかはユーザー次第だと言うことです。延期し続けるのなら、決して発売することはできないでしょう。
アマゾンは2月26日にアップデートを発表する予定ですが、一般公開は最初の発表から18ヶ月以上経過した3月31日より前には開始されません。新バージョンはパーソナリティのカスタマイズ、通話リマインダー、サービスリクエスト機能などのプレミアム機能を提供しますが、これらの一部は現在の無料版でも機能しています。
まさにそうですね。人々が何を言うか見ながら徐々に解放していく必要があります。時には物事を抑え込んで決して発売しないよりも、人々がすでにAIが100%ではないことを受け入れているかもしれないので、思い切って進めることもあります。
アップルはいくつかの発売アプローチを検討しており、4月のアップデートで新機能を追加するものの、5月のiOS 18.5アップデートまではデフォルトで無効にしておくことも含まれています。また、人間のような会話が可能な完全なLLM駆動のSiriは来年まで計画されていないとも補足しています。
LLMの予測不可能性は、大衆市場での採用に対する課題を示しています。両テクノロジー大手の遅延は、確率に基づくAIシステムを一般消費者にとって十分に信頼できるものにするという根本的な課題を浮き彫りにしています。
これは、一般消費者がなぜAIが学習しないのか、またはなぜAIが間違いを犯すのかを理解していないためです。一般の人々にとって、人工知能なら正確でなければならず、それで終わりです。LLMや幻覚について議論することにはあまり関心がありません。ただ機能することを望んでいます。
大規模に作業する場合、この種の会話は非常に複雑です。アップルは最近、不正確なニュースの要約によりAI駆動のiPhone通知機能を一時停止しなければならなかったとき、これを身をもって経験しました。私は多くのニュース要約を作成してきましたが、これらのニュース要約には本当に多くの不正確さが含まれています。
チャットボットやAI検索システムは一般的に、確率に基づく予測不可能な単語との戦いを続けており、これは今後も続くでしょう。アップルによるChatGPTのエコシステムの標準機能としての統合は、同社がAIアシスタントに対してより高い内部基準を設定しているのか、それともChatGPTの記録された誤りにもかかわらず、その機能に追いつくのに苦労しているのかという疑問を投げかけます。
ここで疑問が残ります。問題はアップルにあるのか、それともLLMにあるのか。私の意見を言わせていただくと、問題はLLMにあると思います。彼らには望むような信頼性がないのです。
ChatGPTは現在、会話機能とともにライブビデオ分析を提供しており、GoogleのGeminiも同様の機能を提供し、多くのAndroidデバイスでデフォルトのアシスタントとして機能しています。
使用している人々は気に入っており、使用して気に入っている人々はすでにある程度の不正確さを受け入れ、それが起こっていることを理解しています。例えば私の場合や多くの人々の場合がそうです。人工知能が人工知能であり、間違いを犯す可能性があることを知っているとき、自然とそのように振る舞います。
しかし、ショッピングモールで人工知能にトイレの場所を尋ね、間違った情報を得て、その情報が間違っていることを知らずに、トイレを見つけられずにモールをさまよう場合は別の話です。それはすでに問題です。
これについてどう思いますか?コメントを残してください。このようなビデオを見続けたい場合は、チャンネルのメンバーになってサポートしてください。メンバーはWhatsAppグループへのアクセス、事前公開ビデオを利用できます。
以上です。いいねをお願いします。ありがとうございました。
コメント