
5,251 文字
医療分野におけるAIの考え方を変える可能性のある興味深い研究について、今日は詳しく見ていきます。研究者たちは、最新のAIシステムの1つであるo1プレビューを、人間の医師や、GPT-4のような以前のモデルと比較テストし、医療診断と意思決定においてAIがどれほど優れているかを検証しました。
これは単純なテストではありません。研究者たちは、医師を悩ませた複雑な医療ケースの診断から、治療計画の提案、見落としてはならない重要な状態の特定まで、4~5つの異なる厳しい課題をAIに課しました。権威ある医学誌「ニューイングランド・ジャーナル・オブ・メディシン」から実際の医療ケースを使用し、これらは経験豊富な医師でも難しいと感じるような複雑なケースです。
この研究が特に興味深いのは、単なる多肢選択式の質問を使用するのではなく、医師が実際の現場でするような思考と推論の能力をテストしたことです。医師が日々の患者の治療で使用する複雑な多段階思考をAIが扱えるかどうかを確認したかったからです。
この研究で判明したことの1つは、このAIモデル、OpenAIのo1モデルが、GPT-4と比較して実に印象的だったということです。GPT-4が解決できない複雑なケースを3つ紹介していますが、GPT-4が完全に誤診を下したのに対し、o1は完全に正しい診断を下しています。
ケース1では、非常に複雑な疾患について、GPT-4は完全に間違えてボンドスコア0を記録しましたが、o1プレビューは完全に正解し、正確な症状を特定しました。ケース2では、もう1つの複雑なタスクでGPT-4は完全に見逃し、代わりに一般的な症状を列挙しましたが、o1プレビューは完全に的中し、稀少な症状を正確に特定しました。ケース3では実際の症状があり、GPT-4は近い答えを出してボンドスコア3を記録し、いくつかの正しい情報を挙げましたが、症状は間違っていました。一方、o1プレビューは再び完全に正解しました。
特に興味深いのは、ボンドスコアが各AIの正確さを示していることです。0は完全な誤り、5は完全な正解を意味します。これらは本当に難しいケースで、医学的な謎のようなものでした。GPT-4は一般的な症状を推測する傾向がありましたが、o1プレビューは稀少で複雑な症状を正確に特定することができました。これは基本的に、AIの各改良により、そしてもちろんこの新しいモデルシリーズにより、日常的にこのAIを使用する場合でも、このような複雑なシナリオに取り組む際に、これらの思考モデルが本当に輝くということを示しています。
また、この画像は、ニューイングランド・ジャーナル・オブ・メディシンのケースを使用して、AIと人間の両方の診断システムが医学的症状を正しく診断する能力をどのように比較したかを示しています。これは2012年から2020年までのものです。青色で示されているのは現代のAIシステムで、薄い青色は医師が症状を手動で入力する必要がある古い診断システムです。そして下部の茶色のバーは、人間の臨床医のパフォーマンスを示しています。
全体的に見ると、o1プレビューとGPT-4を比較した場合、明らかな改善が見られます。古いAIシステムを見ると、それほど優れていないことがわかります。そして臨床医と比較すると、正確な診断の割合が大幅に向上していることがわかります。ここでは約30%ですが、これらの大規模言語モデルでは60%から75%以上となっており、これは驚くべきことです。
これは、これらのAIシステムがいかに強力であるかを実際に示しています。生成AIシステムは単なる情報の再生成だと批判する人も多いですが、医療用途に適用すると、これらのツールが様々なシナリオで異なる病気や症状を診断する上で驚くほど強力であることがわかります。複雑な医療情報を処理し、正しい診断に至ることは、AIが正確に、あるいは独自に設計されているものなのです。
ここで図5を見ると、管理と診断推論におけるGPT-4、o1プレビュー、医師の比較が示されています。この画像は、グレーマター管理ケースと呼ばれる医療ケースの管理において、異なるグループがどの程度うまく対応したかを示しています。o1プレビュー単独では85~90%という驚異的なスコアを記録し、GPT-4 AIは40~50%、GPT-4をツールとして使用する人間の医師は40~50%、そして標準的な従来の医療リソースを使用する人間の医師は30~40%というスコアでした。
これは非常に興味深いことです。0から100のスコアは、o1プレビューが他のすべてのオプションを大幅に上回るパフォーマンスを示しています。これは、GPT-4と人間の医師の両方よりも大幅に優れていたことが興味深いポイントです。GPT-4単独と、GPT-4を使用する医師の間にはそれほど差がありませんでしたが、この視覚化は、o1プレビューが以前のAIシステムや人間の医師と比べて、医療管理の推論においていかに優れた能力を持っているかを強力に示しています。これは医師がAIや従来のリソースにアクセスできる場合でも同様です。
さらに、これはo1プレビューであり、完全なo1でもなく、最近OpenAIがデモで公開したo3でもないことに注意が必要です。そのモデルはさらにスマートであることがわかっています。このプレビューモデルが80~90%のスコアを記録しているならば、どのような結果が得られるか想像してみてください。
これはランドマーク的な診断ケースでも見ることができます。これらのケースは基本的に、解決された最大の医学的謎です。医学における教育の古典となった有名なケース、いわば医学診断の最高傑作のようなものです。これらは過去の実際の患者のケースで、特に困難だったり画期的だったりしたもので、医師が病気や症状について新しい何かを学ぶのに役立ち、多くの場合、医師が同様の問題の診断にアプローチする方法を変えました。
これらのランドマークケースが特別なのは、通常、解決が明白ではない複雑なケースだということです。多くの場合、異常な症状の組み合わせを含み、最終的な診断は本質的に驚くべきものであるか、医師に新しい何かを教えるものでした。そして、医学校での標準的な教材となっています。
これらのAIシステムをテストした際、o1プレビューは左側で非常に高いスコアを記録し、GPT-4もまた興味深いことに、GPT-4を使用する医師よりも優れたパフォーマンスを示しました。そしてGPT-4を使用する医師は、リソースを使用する医師よりも優れていました。
興味深いことに、ここではAIが人間をそれほど上回ることはありませんでした。人間が解決できたケースがいくつかあったためです。しかし、これらのランドマーク的な診断ケースにおいて、AIが非常に効果的であることは明らかです。これが訓練データの問題だと言えるかどうかは別として、医師がこれらのAIツールを使用した方が、使用しない場合よりも良い結果を得られているということを考えると、これは驚くべき印象的な結果だと思います。
このグラフは、異なるグループが最も重要な診断をどの程度捉えることができたかを示しています。これらは「見逃してはならない診断」と呼ばれるもので、見逃した場合に患者の生命を脅かす可能性のある診断状態です。4つの異なるカテゴリーがあります。ピンク色は研修医(トレーニング中の若手医師)、緑色は担当医(経験豊富な正規の医師)、青色は以前のAIモデルであるGPT-4、紫色は最新のAIモデルであるo1プレビューです。
グラフは0から1(0%から100%)のスケールを示しており、ボックスは大多数のスコアが集中している範囲を示し、黒い線は異なるスコアの全範囲を示し、点は個々の結果を示しています。すべてのグループが同様に50%から100%の範囲で実施しましたが、o1プレビューがより一貫性があり、研修医はパフォーマンスにばらつきが見られました。経験豊富な医師はこれらのAIシステムとほぼ同等のパフォーマンスを示し、これは非常に興味深い結果でした。なぜなら、再びAIがこれらのシナリオで優れたパフォーマンスを示したからです。
o1プレビューが計画した医療検査を、実際のケースで行われたことと比較したこの表を詳しく見てみましょう。最初のケースを見ると、医師が実際に計画した特定の計画があり、興味深いことにo1プレビューは、これらの医師が提案したものとまったく同様の別の計画を提案することができました。このケースでは、診断を確定するためにどのような検査を実施するかという検査の範囲に関して、完全に正しいスコアである2点を獲得しました。
ここでは興味深いことがいくつかありました。AIがランダムな検査を提案するだけではなく、バックアッププランや代替案を含む包括的な段階的計画を立てたことは印象的でした。各検査が必要な理由を説明し、専門医が実際の現場で行ったことと一致していました。これは非常に興味深いことでした。なぜなら、これには複雑なステップが含まれており、AIが正しい答えを得るためには、それらすべての推論ステップを成功裏に完了する必要があることを理解することが重要だからです。
AIが間違っていた領域もありました。AIが半分正解し、残りの半分が完全に不正解だった他の2つのシナリオがありましたが、これについて最も興味深いと思うのは、これが純粋に医療ベースのAIシステムではないということです。医療問題に特化して調整されているわけではありませんが、驚くべきことに、これらの診断を見ると、提案された計画や取るべきステップを見ると、時には正しい提案計画と正しいステップを得ることができることがわかります。これは非常に印象的で、今後5年間で得られるモデルの種類や、症状を診断する際の正確さがどのようになっていくのか、想像するしかありません。
もちろん、人間があまりこれに依存しすぎないことを願っています。幻覚があるため、疲れた歯科医や、過労の医師、疲れた臨床医や医師がAIの言うことだけを使用し、次に幻覚が人を台無しにするということは避けたいからです。もちろん、個人を診断する際には、人間が常に重要な役割を果たすと思います。
また、ある個人が、この分野のトップ科学者の1人である友人のために、非常に特殊な免疫疾患をA1に分析させたところ、その結果に対する友人の反応は「なんてこった、今読んだけど、これはすごい。信じられないほど素晴らしい」というものでした。このように、この分野のトップにいる個人による定性的な結果も、これらのモデルが非常に魅力的であることを証明しているようです。
では、医療業界におけるAIと人間の未来についてどう思いますか?今、これをより詳細に探求し始めていることは本当に興味深いと思います。規則や規制があるため、これらのモデルを実際の診療に導入するのはかなり難しいと思いますが、医師が見逃したかもしれないことを、o1やo3のようなモデルに相談し、医師が単純に見逃していたかもしれない素晴らしい結果を得るために、ユーザーが自分で行動を起こすようなケースが増えていくと思います。
これは以前に議論したことですが、毎年文字通り何百万人ものアメリカ人が医師のミスで亡くなっています。私たちは人間なので、ミスをします。しかし、問が、医療業界では時に生死を分けるような状況があり、そのようなミスが命を奪うことがあります。そのため、AIシステムにすべての決定を確認させることで、見逃していたかもしれない稀な症状や病気を発見し、そしてもちろん人間がAIの提案が潜在的に事実かどうかを確認するために必要な検査を実施することで、より良い医療が提供できるかもしれません。
さて、あなたはAI医師を受け入れることができますか?個人的には、今後15年から20年の間に、指先から採血して瞬時に血液検査を行い、体の異常をすべて告げてくれるAI医師がいて、即座に診断を受けられるようなポッドのようなものができるかもしれないと考えています。AIがあなたの個人データをすべて分析し、あなたがしたことすべて、見たことすべて、食べたことすべてを知っており、あなたの感情状態、身体状態、水分レベル、飲酒量を理解し、おそらく最も効果的な計画を提案できるでしょう。
文脈は当然重要で、これらのモデルや医師により多くの文脈を与えれば与えるほど、彼らはより良くなります。そしてAIが私たちの生活にどのように統合されていくかを考えると、近いうちに私たちがそのAIデータを医師と共有することになっても驚きません。長生きを目指している人々にとって、とても興味深い世界です。
以上です。よろしければ、次の動画でお会いしましょう。
コメント