AIは医学試験に合格できるが、実際の人々を助けることはできない

5,722 文字

AI Can’t Help Real People - But Pass Med Exam w 95%
We need to code new AI systems w/ improved Human-AI interaction, especially on medical topics and health care. We need t...

こんにちは、コミュニティの皆さん。今日は未来のAIシステムが世界の医療システム、あるいは少なくともあなたの国の医療システムにどう統合されるかという非常に魅力的なトピックについてお話しします。医療、薬局へのAI統合が本日のトピックです。
前回の動画で私はすでに話の半分をお伝えしました。LLMは医学的質問に正確に答えられるのかという疑問に対して、私はこう示しました。「そう、彼らは本当に優秀です。医学試験のために訓練すれば素晴らしい成績を収めます。大学のAIラボの管理された環境では優れた性能を発揮します」。しかし、ここで別の質問に移りましょう。LLMは実際の医療判断において、人間のユーザーを効果的に支援できるのでしょうか?
まず病院で出会う専門家、医師やすべての専門家、サポートスタッフ、さらには診療所の管理部門などにどう役立つかを見ていきます。そして一般市民に話を進め、オックスフォード大学による新しい研究を見ていきましょう。この研究では、医療へのアクセスが経済的に難しい多くの一般の人々が自宅でAIを使用していることが示されています。実際のユーザーはAIをどのように使用し、AIシステム構築において何を学ぶべきでしょうか?多くの問題が起きていることをお伝えできます。AIシステムをコーディングしたり構築したりする場合、この動画の最後に2つの提言があります。注意が必要です。
これは重要な区別です。ここで2つ目の質問に移りましょう。医療におけるAIの安全で実用的な統合について考えます。医療はAIよりもはるかに多くの側面を持っています。医療は人類の文明の多くの側面に触れています。動画を開いて見ていきましょう。
先ほど言ったように、大学のAIラボでは、GPT-4、Llama 3、CommanderなどのAIが医学条件において素晴らしい高い精度、95%の成績を示します。これは4、5年前から知られている医学テストでの素晴らしいパフォーマンスです。しかし実際の世界に触れ、実際の人間の参加者に使用されると、そのパフォーマンスは崩れ、約3%まで低下します。何が起こっているのでしょうか?
オックスフォード大学による素晴らしい研究があります。彼らは約1,300人の参加者を対象に、LLMが人間を支援する実験を行いました。結果は驚くべきものでした。LLMを使用した参加者たちは、LLMについてより多くの経験を持ち、LLMがサポートするはずなのに、インターネット検索を行う対照群と同じパフォーマンスしか示しませんでした。つまり、医療におけるAIの価値は何もないのです。
現在のAIシステムは完全に失敗しています。ニュースで1、2の報告を見るかもしれませんが、1,300人の参加者を対象とした研究の結果は非常に厳しいものです。インターネット検索などの従来の方法を使用する対照群よりも良いパフォーマンスは示していません。これが今日の医療におけるAIの実際の価値です。
何が起きているのか理解するための閃きが必要です。この大学は系統的な人間のユーザーテスト、無作為対照タスク、シナリオベースの評価、トランスクリプト分析などを含む研究を構築しました。オックスフォード大学、バンガー大学、マウンテンビュー、サンフランシスコ、パロアルト、英国バーミンガムの女性・子供のNIS財団、オックスフォード大学の生物医学工学など多くの機関が関わっています。
研究設計は素晴らしく、彼らは何をしているのかよく理解しています。問題は医学ではなく、AIについてです。AIシステムの設計、訓練、調整についてお話しします。現在、これらのメタAIシステムは実際の世界と接触すると失敗しています。なぜでしょうか?何を変える必要があるのでしょうか?
別の次元として、グローバルヘルスケアプロバイダーが一般市民への医療アドバイスにAIの使用を推進していることを見る必要があります。彼らは株主のために企業の利益を増やすことに関心があります。それはLLMが実験室での医療免許試験でほぼ完璧なスコアを達成していることを理解していますが、これが実際の環境に変換されないことも理解しています。
彼らがAIとグローバルヘルスケアに大規模な投資を決定し、議論すれば、世界中で何十億ドルもの投資になります。あなたの国がAIを統合することを決定すれば、それはもちろん人間の健康システムを改善するためですが、グローバルヘルスケアプロバイダーのコスト削減、そして利益の増加を目的としている可能性もあります。このエコシステムにおける緊張関係を明確にしておきます。
この研究では、オックスフォード大学が、アメリカ人成人の6人に1人が少なくとも月に1回は健康情報についてAIチャットボットに相談していると述べています。その理由は、医師と接触したり病院に行ったりする余裕がないからだと考えられます。私はヨーロッパに住んでいますが、ヨーロッパの多くの国では無料の医療がありますが、それは私たちが税金でこれを支払い、これに税金を使うことを決めたからです。
臨床環境にLLMを統合する実際の試みも大きな困難に直面しています。放射線科に関する他の研究を参照し、AIは人間の支援なしでX線を読むことにおいて、人間の支援ありよりも良いパフォーマンスを示さず、両方ともAI単独よりも悪いパフォーマンスを示したと述べています。これは成功談ではありません。
医師についても同じことが見つかりました。AIは役に立たず、クリニックや病院などのプロセスにどのように統合するかが問題です。グローバルヘルスケアプロバイダーは、顧客であるあなたの利益を最適化しようとすると同時に、利益も最適化しようとしています。彼らはLLMチャットボットを医療への新しい入り口として語っています。これは重要なアイデアかもしれません。
もちろん医学的専門知識のない患者のためでありますが、同時に過負荷の医療システムをサポートするためでもあります。グローバルヘルスケアプロバイダーは、国、地域、大都市の医療システムにお金を払わなければなりません。
ここでは興味深い二面性の問題があります。病院で働く人々は単純なメッセージを持ち、グローバルヘルスケアプロバイダーのパフォーマンス指標を最適化しようとする人々がいますが、彼らは全く同調していません。そして今、彼らはAIを統合しようとしています。医療専門家はLLMが直接人間の患者にアドバイスする見通しについて意見が分かれています。私個人的にはこれを完全に理解できます。
監視と責任の問題が挙げられており、人間の医師がAIシステムを使用するチームがあり、責任の問題が生じた場合、誰が責任を負うのか、人間かAIかという問題があります。一方、臨床環境外での自宅でのサポートの可能な利点は、患者の常時モニタリングがあることです。
AIは標準的なことを処理し、報告することができます。監視と責任とコスト最適化の問題がある一方で、AIが本当に有益で私たちの状態を改善できる良い点もあります。特に医療援助が必要な場合です。
この研究に来ましょう。美しい研究です。AIの範囲外かもしれませんが、AIにとって非常に重要です。なぜならAIシステムがどこで失敗するかを教えてくれるからです。そして私たちは悲惨に失敗しています。LLMの臨床知識は人間との相互作用に変換されません。
すべてのパートナーがおり、彼らは特に医療セクターにおけるAIの公開配備に関心を持っています。もちろんグローバル企業はコストを削減することを決定し、これが彼らの主要なトピックかもしれませんが、人間にもっと良い医療サービスを提供するためにどのように最適化できるかについて話したいと思います。
参加者は潜在的な健康状態、推奨される処置と行動方針を特定され、10の異なる医療シナリオの1つを与えられました。シナリオは3人の人間の医師によって開発されました。合成データではなく、各シナリオに対して正しい処置について全員一致で同意し、その後シナリオは4人の医師の異なるグループに与えられ、異なる鑑別診断を提供しました。
多くの作業が関わっており、これは本当に興味深いです。なぜなら人間とAIの相互作用があり、この特定のトピックについてはあまり情報がないからです。先ほど言ったように、GPT-4 OmniやLlama 3、CommanderOPlusは素晴らしく、対照群も含めて結果は壊滅的です。
ベンチマーク合成ベンチマークデータでは、すべてのLLMが90%と優れていました。しかし実世界テストでは、実際の問題がありました。条件付きで、参加者との会話の65%がLLM単独よりも低いパフォーマンスを示し、参加者が不完全な情報を提供し、LLMがプロンプトを完全に誤解する事例が観察されました。
合成ベンチマークの質問と回答のデータセットから少し離れた瞬間、実際の世界と接触した瞬間にパフォーマンスは崩れます。さらに人間の参加者はAIとのコミュニケーション方法についての推奨に従わず、恐れや混乱などがありました。人間とLLMの相互作用の分野で報告できるのは失敗ばかりです。
この研究では、LLMを公共医療アシスタントとして安全に展開するには、専門レベルの医学知識を超えたAI能力が必要であることが示唆されています。つまり、AI専門家やAIコーダーによって操作される臨床環境でパフォーマンスを発揮できるAIは持っていますが、実際の人々との現実の設定では機能しません。
AIを再訓練して、ラボ外の実際の環境で実際の人間との実際のコンタクト、実際の会話ができるようにする必要があります。これは、この研究で見つかった状況に対処するために、完全に新しいトレーニングデータセット、完全に新しい微調整データセットを生成する必要があることを意味します。
著者らは、直接患者ケアのためのLLMやAIシステム全般の公開展開の課題を強調し、LLMやAI全般とユーザー間の情報伝達を特定の失敗点として識別しています。
ユーザーがLLMに不完全な情報を提供することと、LLMが正しい答えを提案しているにもかかわらず、この情報をユーザーに効果的に伝えないことの両方で失敗しています。データパイプラインやコミュニケーションパイプラインの両側で失敗しています。
彼らがまとまって私たちに2つの提言をくれることが本当に気に入っています。システムを構築する私たちにとって、金融AIや医療AIなど何を構築するかに関わらず、これは本当に素晴らしい洞察です。なぜなら、人間とコミュニケーションできないAI抽象だけでは、そのものの価値はほとんどないからです。
提言1:対話の過程で、今日一般的なLLMは通常2〜3の異なる選択肢を提供します。LLMは1つの答えを与えるのではなく、確率分布として訓練されているからです。最も可能性の高い2〜3の答えを提供し、人間が決定できるようにします。これは専門家であれば素晴らしいですが、一般的な人間ではどうでしょうか?
これによりユーザーが最終的な決定を下せますが、人間のユーザーはこの選択をうまく行うことができません。したがって、LLM単独で、特に高度に洗練されたメタAI専門家システムがあれば、ほとんどのユーザーよりもタスクをより良く実行できるため、LLMからユーザーへの情報の伝達において改善が必要です。より多くの説明、より構造化された出力、または明確な推奨を含めて、人間のユーザーが決定を下すのを助ける必要があります。新しいトレーニングデータセットを提供し、AIが平均的な人間に対して答える方法を変える必要があります。
提言2:この研究での実際の医師と患者の相互作用と同様に、ユーザーはすべての情報を持ち、LLMに何を伝えるかを選択します。平均して、これはLLMに完全なシナリオを与えるよりも弱いパフォーマンスにつながりました。特定のシナリオでは、モデルは単独で一貫して失敗し、ユーザーによって修正されました。
人間は医師やメディシステムにすぐにすべての必要な情報を提供しません。そして今、メディシステムの仕事は不完全な情報を持ち、この情報から10の可能性のある医学的状態を理解することです。
AIは異なる方法で訓練され、この不完全な情報に対処し、10の他の症状原因の確率分布を評価し、結論に達する必要があります。今日、それらの美しい医学試験でAIを訓練する方法は完全に間違っています。これはAIが遭遇するものではなく、インテリジェンスや超インテリジェンスの出現はありません。
これをトレーニングデータに事前トレーニング情報としてエンコードする必要があり、運が良ければ監督付き微調整とタスク指向の少しと、強化学習ではシステムの調整だけが必要です。今、AIを一般に公開するなら、これまでほとんどすべてを間違えてきました。
完全な情報へのアクセスは臨床実践を代表するものではなく、不完全または間違った情報を与えられるなどの要因を考慮して、人間のユーザーとの相互作用のために設計されたAIシステムを開発するための研究が必要であることを示しています。人間は「腕が痛い」などと言うかもしれませんが、それが症状であるかどうかの関係を人間は知りません。
AIは会話に入り、可能なすべての解決策の確率分布を計算し、それをさらに絞り込み、まだ存在しない方法で人間と対話する能力を持つ必要があります。そうすれば、実際の人間と対話する準備ができたAIシステムを持つことができるかもしれません。
これは素晴らしい研究だと思います。将来のAIヘルスケアについて多くのことを学ぶことができます。1,300人の人間が参加しました。皆さんありがとうございます。将来の医療AIに最適化されたAIシステムをどのように構築すべきかについての新しい洞察を提供してくれました。
楽しんでいただけたでしょうか?何か新しい情報があったと思います。気に入っていただけたなら、ぜひチャンネル登録をお願いします。

コメント

タイトルとURLをコピーしました