
11,889 文字

めっちゃ明確やな。糖尿病が疑われたけど、HbA1cの値が正常やったから診断には至らへんかったって書いてあるわ。これはすごいわ。推論の部分でちょっとだけ間違いがあったけど、ワシの罠にはハマらへんかったな。
これらのモデルは、トレーニングプロセスの中で、もっと実験的な感じで学習してきたみたいやな。モデルが何かを試して、また試して、10回も試して、そこからミスを学んで正しいやり方を見つけるみたいな。理論的やなくて、もっと実験的な感じやな。
誰かが血尿があって、特徴的な紫色のピリピリした発疹があるときは、すぐに珍しい診断である血管炎を考えるんや。
この場合、チャットGPT1プレビューは13秒間考えたわ。明らかにこういうことを考えてるか、少なくとも再帰的にチェーン・オブ・ソートのプロンプティングをしてるんやな。で、第一の診断はHSP(ヘノッホ・シェーンライン紫斑病)やった。
これは以前のモデルからすると大きな進歩やな。見てわかるように、全ての提案がめっちゃええんや。
デボン先生の番組にようこそ。9月14日土曜日の午後1時やな。今回はポッドキャストをする予定はなかったんやけど、GPT-01が出たからここにおるわけや。そやな、なんか言わんとあかんな。
みんなが話してるけど、このバージョンの面白いところは、あんまり詳しいことがわからへんっちゅうことやな。前のバージョンやったら、トレーニングの方法とかアルゴリズムとかはわかってたんやけど、今回はもっと謎に包まれてるわ。今はみんな、どうやってより良くなったんかを推測してる段階やな。
ちょっとした詳細はあるけど、OpenAIは明らかに市場のリーダーになりたいから、もう洞察を共有したくないんやろうな。もう透明性のある再現可能な論文は会社から出てへんわ。
正直言うと、片方ではわかるんや。膨大な努力と神のみぞ知る金額をかけたんやから、「はい、これが我々の学んだ全てです。さあ、あなたもやってください」とは言いたくないんやろうな。わかるけど、やっぱり共有してほしいわ。メタのアプローチの方が好きやな。ほぼ全てを共有して、ほとんど全てを与えてくれる。
3つのモデルをリリースしたんや。今の新しい命名規則では、01、01プレビュー、01ミニって呼んでるな。01ミニが一番小さくて、一番賢くないんやけど、それでもGPT-4.0やその他全てよりはマシやな。プレビューは、完全版の01とミニの間くらいやな。もちろん、01が一番ええんやけど、それはまだリリースされてへんわ。
今のところ、一般の人が見れるのは01ミニと01プレビューだけやな。01プレビューは今、OpenAIのチャットGPTインターフェースで使えるようになってる。これは多分ベータテストみたいなもんやな。チェスゲームみたいに、「ああ、これはプレビューです」って言いながら、実際にはこの出力と人々の反応を使って、本当の01をリリースするんやろうな。
面白いことがいくつかあるな。簡単にまとめると、このモデルで進歩したことや得られたものは、純粋なテキストベースのモデルってことやな。ビジョンも音声機能もなくて、他の何もない。純粋なテキストベースのモデルだけや。
基本的に、彼らが追加した最大の機能は、推論って呼んでるものや。モデル自体にもっと統合されたチェーン・オブ・ソートがあるんや。今、モデルに質問すると、考える段階があるんや。「今日の日付は?」って聞くと、「7秒間考えています」って言って、それから「今日は土曜日です」って答えるんや。
簡単に言うと、これが新しいモデルで得られたものやな。
そうやな。以前のポッドキャストでも、1年以上前から言うてたけど、推論っていう能力は大規模言語モデルに本当に欠けてて、ヘルスケアやハイリスクな分野で役立つためには本当に必要なもんやって。
聞いてる人のために、チェーン・オブ・ソートって何か簡単に説明してくれへんか?
チェーン・オブ・ソートっていうのは、このモデルの前にやってたことやけど、基本的にプロンプトの中でモデルに「ステップバイステップで考えて」とか「チェーン・オブ・ソート推論を使って」って言うんや。
そうすると、モデルが答える時に、基本的に思考の連鎖みたいなんを示すんや。例えば、「7×7は?」って聞いたら、「まず、これは数学の質問です。次に、最初の数字は7で、2番目の数字も7です。掛け算をする必要があります。3番目に、7×7=49です」みたいな感じで、全ての推論のステップを説明するんや。直接答えを出すんじゃなくてな。
7×7=49か、7×7の全ての推論過程のどっちかを選べるわけや。7×7は簡単すぎるけど、もっと複雑な質問を考えてみてな。5つのステップが必要な質問やったら、どうやってその答えにたどり着いたかを見たいわけや。答えだけじゃなくてな。
高校の数学の授業で、みんな経験したことあるやろ。計算の過程を書けって言われて、複雑な代数の問題や微積分の問題の途中経過を書いてると、「あかん、これ実際にできるわ」って気づくことがあるやろ。
ステップを追ってくと、どんどん簡単になってくんや。今までは、モデルにこれを明示的に頼まなあかんかったんやけど、この新しいモデルでは、それが裏で勝手に起こってて, 我々にはモデルの推論のステップが見えへんようになってるんや。
例えば、患者が病院に来て、大きな病歴があって、「診断は何ですか?」って聞くと、モデルは本当に何百ものステップを踏んで、病歴から関連する病気を抽出して、リスクを理解して、薬の相互作用を理解して、そういうことが全部起こるんや。そして、答えと推論のステップの要約を提供してくれるんや。全てを見るわけやないけど、推論のステップの要約と答えが見れるんや。でも、答えにたどり着くまでの全過程は、今のところOpenAIに隠されてるんやな。
面白いよな。ワシには、彼らが裏でやってることを隠そうとしてるように思えるんやけど、ウェブサイトでは正当化しようとしてるんや。「実際のプロンプトを見せへんのは、ユーザーがモデルとどう対話するかを知りたいからや」とか「モデルが嘘をついてるときを知りたいから」とか言うてる。ユーザーに実際何が起こってるかを見せへん理由としては、ちょっと変やな。
そうやな、それは普通やと思うわ。明らかな理由は、全部見せたら我々がどう動いてるか、どうトレーニングされたかが全部わかってしまうからやろ。ちょっとずつしか見せへんかったら、どうやってるかまではわからへんやろ。
いくつか理論があって、これはおそらくモンテカルロ探索を使ってるんやないかって。つまり、モデルが多くの異なる選択肢を探ってるってことや。ただ一つのルートを進むんやなくて、例えば数学の問題やったら10通りの解き方があって、その10通り全部を試してるんやな。ツリーみたいな感じで。そして正しい解にたどり着いたら、「ああ、これが一番ええ解き方で、これが正しい答えや」って言うんや。で、ユーザーにはそれだけを見せて、他に試したことは全部教えへんのや。
そうやな。ワシもその論文読んだわ。チェーン・オブ・ソートみたいやけど、ちょっと違うな。チェーン・オブ・ソートのツリーみたいな感じやな。
ここで起こってると思うのは、質問をすると、質問のタイプによって説明の仕方がめっちゃ違うってことに気づいたんや。数学の質問やったら一つの答え方をして、ネットで見たら、ロジックパズルを与えると「ああ、これはロジックパズルっぽいな」って認識して、特定のチェーン・オブ・ソートのアプローチを取るんや。
だから、何かを認識して、特定の思考の道筋を辿るんやと思うわ。彼らが事前にモデルに教えたか、強化学習か何かで学んだんやろうな。そうそう、そういうことが起こってると思うわ。
今みんなが秘密のソースだと考えてるのは、まさにそれやな。基本的にはもっと強化学習をしたってことや。アンドレ・カーパシーのええ引用があって、1年前かもっと前やったと思うけど、「現在のモデルに欠けてるのは、人間が問題を解決する時の推論の仕方や」って言うてたんや。
問題に直面した時、頭の中でその問題を解決するためにたくさんの考えが浮かぶやろ。ただ問題を解くステップを書くだけやなくて、問題を解く時に頭に浮かんだ他のことも全部書くんや。正解だけを示すんやなくて、問題を解く時に考えた全てのこと、暗黙のことも明示的なことも全部示して、それをモデルに提示するんや。そうすることで、モデルが推論の仕方を学べるようになるんや。
これは基本的に、人間のフィードバックからの強化学習とちょっと組み合わさってるんや。今は強化学習がどう行われたか正確にはわからへんけど、基本的にはモデルが何かを試して、人間が「正解や」って言うか、フィードバックを与えて、モデルがそれを取り入れるみたいな感じや。以前よりもっと双方向的になってるんや。
これらの多くは人々の推測やけど、100%確実やないけど、今のところこれが一番ありそうなことやと思われてるんや。
そうやな。このアプローチを使って、彼らは多くの推論のベンチマークを突破したんや。MMULUとか、ビッグベンチとか、そういうのについて話してるわ。これらは全部推論に関する問題で、今のところこれは既存のモデルを上回ってるんや。
ジョスがスクリーンショットを見せてくれてるな。これは数学のコンペティションで、めっちゃ難しいんや。数学オリンピックの問題バンクみたいなもんや。驚くべきことに、GPT-4.0は13.4%の精度しかなかったのに、01は83.3%もあるんや。
嘘みたいやな。
そうやな、ワシも同意や。ワシらが見てるのは、このモデルが複雑な推論が必要な場所で輝いてるってことやと思うわ。もっと単純な質問や事実に基づく質問やったら、これらのモデルはGPT-4.0や他の大規模言語モデルと同じくらいのパフォーマンスを示すやろうけど、かなりの推論が必要な質問をすると、ずっとええ働きをするんや。
ここで重要なことがもう一つあるんや。今我々が手に入れたのは、モデルにもうちょっと考えてもらうことの違いや。
モデルにもうちょっと考えてもらうことが大事やって、今わかってきたんや。そうすると基本的にモデルの性能が上がるんや。数学のベンチマークでこれが見れるな。
ここで彼らが示してるのは、数学のベンチマークにおいて、モデルが少し考えるのと、めっちゃ考えるのとの違いやな。X軸に推論コストがあって、モデルが考えれば考えるほど、精度がめっちゃ上がるのが見れるんや。
01モデルの場合、数学のベンチマークで60%くらいから80%近くまで、ただモデルにもうちょっと考えてもらうだけで跳ね上がるんや。
でも、それって実際に起こってることなんか? 推論コストが高いって言うてるけど、モデルを動かすのに実際にコストがかかるんか? 「もうちょっと考えて」って言うたら、もっと多くの反復やチェーン・オブ・ソートを再帰的に実行してるんか?
そうそう、その通りや。ただモデルをより長く動かすことを可能にしてるだけなんや。モデルをツリーの5つのパスに制限するんやなく、「はい、今は10のパスがあります」って言うてるだけやな。もしくは、10,000トークンに制限してたのを、今は100,000トークン考えることを許可してるんや。
これまでこういうのはなかったんや。以前は、モデルがもうちょっと長く考えるオプションはなかったんや。プロンプトで「もうちょっと考えて」って書くことはできたけど、それが直接パフォーマンスに結びついてへんかったんや。
すごいな。これはスケーリング則がまだ適用されてるってことを示してるな。今まで、みんなモデルのトレーニングについてのスケーリング則について話してきたけど、トレーニングに時間をかけるほど、コンピュートをかけるほど、データを与えるほど、モデルはまだ向上し続けてるように見えるんや。
今、推論コストにもこれが適用されるのが分かるな。ワシがNVIDIAやったらめっちゃ嬉しいやろうな。今や全ての企業が計算資源にリソースをつぎ込むだけになるやろ。GPUを手に入れるための戦争になるわ。
現在のモデルの多くは、何もやったことがないみたいな感じやったんや。このモデルは今まで書かれたものを全部読むことで多くを学んだけど、タスクそのものをやったことはないんや。
チュートリアルを見てるのと似てるな。1時間のチュートリアルを見て「ああ、簡単やな、全部わかった」って思うけど、実際に自分でやろうとすると全然わからへんくて、何をすべきか全然わからへんってなるやろ。実際にやってみることで3倍以上学ぶんや。
コーディングのチュートリアルやったら、実際に何かを実装しようとして、やってみることで3倍以上学ぶんや。今、我々はちょっとその領域に入ってきてる感じがするな。これらのモデルは、実際にやってみたような感じがするんや。
トレーニングプロセスの中で学んだか、もっと実験的な感じで、モデルが何かを試して、また試して、10回も試して、そこからミスを学んで正しいやり方を見つけるみたいな。理論的やなくて、もっと実験的な感じやな。
そうやな、その例えええな。
でも、モデルがまだ得意やない部分もあるな。
有名なチャレンジがあって、ARCチャレンジって呼ばれてるんや。見せてみるわ。人間にとってはかなり簡単なんやけど、彼らが言うてる「99%の人が解ける」ってのはちょっと疑わしいけどな。
やり方はこうや。タスクの例が2つ与えられるんや。入力と出力があって、入力に何の変換を加えたら出力になるかを見つけ出して、それをテストケースでやるんや。
聞いてる人のために説明すると、これは7×7のグリッドで、基本的にテトリスのブロックみたいなのがあって、2つか3つのテトリスブロックをどう動かして重ねたら最終的な出力になるかを見つけるんや。
ただ動かしたり重ねたりするだけやなくて、何かを足すこともできるんや。
そうそう、グリッドに描き足すこともできるんや。
この例やと、L字型か短いL字型のブロックがいくつかあって、基本的に目標は、足りない濃い青のブロックを1つ足して正方形にすることや。そのブロックは少し色が違うんやけどな。
そうそう、その通りや。
ワシにとっては、これはめっちゃ簡単な例やな。もっと複雑な例もあるけど、ワシがこれを見たら、すぐに何をすべきかわかるわ。
これは大規模言語モデルにとってはめっちゃ難しいやろうな。画像ベースやからな。
いや、これらをLLMに示す非常に簡単な方法があるんや。モデルは行列の扱いがめっちゃ得意なはずやからな。
非常に簡単な表現方法があって、7×7のグリッドを見せる代わりに、7×7の行列を使うんや。各色を1から7か8か9(忘れたけど)の数字で表して、それでおしまいや。空白は0で表して、これを簡単に行列として表現できるんや。
そして、モデルに「何をすべきか、この問題を解くアルゴリズムは何か」って聞くんや。もうちょっと複雑な部分もあるけど、基本的にはこんな感じや。
これは有名なチャレンジなんやけど、誰も50%以上行けへんのや。でも人間はめっちゃ良いスコア出せるんやで。
え、人間も苦戦してんの?
いや、人間はめっちゃええんや。人間はほぼ100%に近づけるんや。
あ、人間のパフォーマンスを超えてる線は何なん?
あ、これは違うベンチマークのグラフやな。
そうか、これは違うベンチマークのグラフなんや。人間のパフォーマンスを超えてるAIモデルもあるってことか。
そうそう。通常、多肢選択問題のデータセットとか、Squad 2.0とかやな。
でもARCに関しては、AIは人間のパフォーマンスに近づいたこともないんやな。
そうや、今のところ人間のパフォーマンスの50%くらい下やと思うわ。GPT-01ミニや01プレビューモデルでさえ、まだ全然近づいてへんのや。
実際の結果を見せられるで。これが基本的に全ての異なるモデルのパフォーマンスや。このタスクを解くために特別に作られたモデルもあって、その一つがM2の AIやけど、このモデルの詳細は別のエピソードで話そうな。めっちゃ面白いアプローチやからな。
ここで面白いのは、01プレビューと01ミニが基本的に21%くらいで、これはClaude 3.5 Sonnetと同じランクやってことや。
ほう、Sonnetはめっちゃええんやな。
そうや、Sonnetはこういうタスクではめっちゃ優秀なんや。Sonnetの方が画像や空間的推論についてもっと知ってるから有利かもしれへんな。これらのモデルにはそういう能力がないから、直接比較するのは公平やないかもしれへんけど、まだやることが残ってるってことを示してるわ。
これらのモデルはまだ全てのタイプのタスクに適してへんのかもしれへん。まだ一般的なモデルやないんや。
これは次の数週間でちょっと改善すると思うわ。これは本当に初めてのテストやったから、著者たちはあんまり問題を解こうとしてへんかったかもしれへんし、もっとええプロンプトを書いたり、少ショット・プロンプティングをしたりしてへんかったかもしれへんからな。
次の数週間でちょっと改善の余地があると思うけど、このままやとまだそこまで行けへんな。
次の部分では、基本的にGPT-1に異なるヘルスケアの質問をいくつか与えたんや。これらの質問がかなり難しいってわかってるし、過去に他のモデルが苦戦したってのもわかってるんや。どんな結果が出るか見てみようと思うわ。
最初のは、ワシが大規模言語モデルに与えるのが好きな、お気に入りのASDテストみたいなもんや。このポッドキャストを見てた人なら気づいてると思うけど、これはチャットGPTが最初の1年くらい本当に苦戦したシナリオで、実際多くのモデルが苦戦したんや。
めっちゃ単純な質問なんやけど、「35歳の女性が腹部膨満、無月経(生理がない)、吐き気があります。診断は何ですか?」っていうもんや。
ちょっとトリッキーなんやけど、医学の教科書に直接行って難しい診断にたどり着きたくなるような問題や。でも、若い女性で腹部が大きくなって、生理が止まって、朝の吐き気があるって場合、一番よくある診断は実は妊娠なんや。
でも、最初はGoogleやチャットGPTの初期のバージョンやと、いつも癌の選択肢を一番可能性が高いって言うてたんや。卵巣腫瘍とかな。
せやから、チャットGPT-1が何て言うか見てみよう。
すぐに「最も可能性の高い診断は妊娠です」って動いてるな。説明のところで… うわっ、朝の吐き気まで言うてるやん。
おう、ワシらのトリックに気づいてるみたいやな。この質問を完璧に解いたわ。
そうやな。この質問、最初のモデルをテストしてた時から覚えてるわ。そんな昔やないけど、今年の春くらいまで、ほとんどのモデルやほとんどの商用モデルがこの質問に答えられへんかったんや。
そうやな。全部アップデートがあって、なんかいつの間にか正しく答えられるようになってたんやけど、裏で何が起こったんかはわからへんな。
じゃあ、次の質問を見てみようか。
おう、これはワシがちょっとトリッキーにしようとしたやつや。
ワシらの臨床コーディングのエピソードや、アメリカ人なら医療請求のエピソードで知ってると思うけど、患者が来たら基本的にその入院で何が起こったかを分解せなあかんのや。病院は何がコーディングされたかによって支払いを受けるんや。
国民保健サービスには、この記録を見て重要なことを拾い出す人がめっちゃおるんや。普通はICD-10やSNOMEDみたいな分類コードにマッピングするんや。
ここでワシはめっちゃトリッキーにしたんや。「40歳の女性を神経科クリニックで診ました」って言うて、「右上肢の片側性運動感覚障害で来院しました」って書いたんや。トリッキーな略語も使ったで。
PMHは既往歴、HTNは高血圧、CCFはうっ血性心不全、AFは心房細動や。
さらにずるいことに、「家族歴に悪性感染症あり」って書いたんや。患者本人やなくて家族歴やで。
さらにトリッキーにしようと思って、「GPが糖尿病を疑ってHbA1cを検査したけど、正常範囲内やった」って書いたんや。
実際の記録にはこんなこと書かへんけど、めっちゃずるいことして「GPは神経根症も疑ったけど、症状を説明する明らかな左半球梗塞がMRI上にある」って書いたんや。
モデルは13秒間考えたな。ほう、考えさせてるわけや。これを見て…
「提供された情報に基づいて、右上肢の片側性脱力を引き起こす左半球脳梗塞とコーディングしました。ICD-10コードはI63.4です。これは脳動脈の塞栓による脳梗塞を意味します。」
これは面白いな。技術的には正しいんや。患者は確かに脳卒中を起こしてるけど、どこにも脳卒中の原因は書いてへんかったんや。
神経学と脳卒中に興味のある人のために説明すると、脳卒中は高血圧が原因になることがよくあるけど、心房細動や不整脈からも起こりうるんや。
ここでICD-10コードの脳卒中の部分は正しいんやけど、原因を心房細動や塞栓性脳卒中やと推測してしもてるんや。完全に間違うてるわけやないけど、臨床コーダーとしては記録にないことを推測したらあかんのや。
半分くらいの点数をあげるわ。診断自体は正しいけど、ちょっと余計なことを推測してしもてるんや。
高血圧、心不全、心房細動もコーディングしてるし、めっちゃ賢いことに虚血性心疾患の家族歴もコーディングしてる。患者本人やなくて家族のやつやな。
下の方で、糖尿病のことも触れてるで。
めっちゃ明確やな。「糖尿病が疑われたけど、HbA1cの値が正常やったから診断には至らへんかった」って書いてあるわ。
これはすごいわ。推論の部分でちょっとだけ間違いがあったけど、ワシの罠にはハマらへんかったな。
めっちゃええやん。
我々が今年の初めに発表した論文から一つ例を挙げてみよう。その論文では、Foresightっていうモデルを紹介したんや。これは鑑別診断や将来の予測なんかに使えるんや。
その時、チャットGPTやGPT-4みたいなモデルに聞いてた質問セットがあってな、実際全部のモデルがかなりの数の質問で失敗してたんや。これはそのうちの一つや。
そうやな。これらの医療シナリオは、ワシと他5、6人の医者が作ったんや。普通は、上位5つの診断について全員一致の意見があって、見落とされた重要な診断についても同意があるんや。
このシナリオでは、「21歳の男性が血尿と紫斑性発疹で来院。19歳の時にクローン病と診断され、20歳の時に血便の発作があった。鑑別診断は?」っていう問題や。
過去のモデルは全部、ヘノッホ・シェーンライン紫斑病(HSP)っていう血管炎を見逃してたんや。これはちょっと珍しい病気やけど、医学生や医者として頭に入れておくべきもんなんや。誰かが血尿があって、特徴的な紫色のピリピリした発疹があるときは、すぐに珍しい診断である血管炎を考えるんや。
今回、チャットGPT-1プレビューは13秒間考えたわ。明らかにこういうことを考えてるか、少なくとも再帰的にチェーン・オブ・ソートのプロンプティングをしてるんやな。で、第一の診断はHSPやった。
これは以前のモデルからすると大きな進歩やな。見てわかるように、全ての提案がめっちゃええんや。
最後にもう一つ質問があるんやけど、これをテストしてみよう。これは面白いことに、同じ質問を2回別々のタブでプロンプトしたら、2つの異なる答えが返ってきたんや。
医者として、慢性痛の患者さんのためにオピオイドの投与量を変換することがよくあるんや。シナリオはこんな感じや:
「患者さんが経口モルヒネ10mgを1日2回と、ブプレノルフィンパッチ5μg/時を使用しています。これを経口オキシコドンだけに変更したいんですが、等価用量はどれくらいですか?」
医者でもこういう変換は少し難しいんやけど、大規模言語モデルは数学が得意やないってのもわかってるから、これはモデルがどう反応するか見るのに面白い質問やと思ったんや。
モデルは10秒間考えて、こんな感じの答えが返ってきたわ。ワシも実際にこれを緩和ケアのコンサルタントにダブルチェックしてもらったんや。こういう変換は難しいことがあるからな。
この質問の答えは基本的に、経口モルヒネ10mg1日2回は1日20mgのモルヒネに相当するんや。そして、ブプレノルフィンパッチは経皮オピオイドで、もっと強力なんや。よく知られてる知識として、この5μg/時のパッチは12mgの経口モルヒネに相当するんや。
これは緩和ケアのコンサルタントがやることで、英国医薬品集にもこう書いてあるんや。
面白いのは、GPT-1がどっかのデータベースや知識から、経皮ブプレノルフィン1mgは経口モルヒネの75倍強いって情報を拾ってきてるんや。実際、文献ではこの数字は変動してて、75なのか50から100の間なのかはっきりしてへんのや。
モデルの計算過程を追うと正しいんやけど、この75っていう数字はちょっと怪しいデータから引っ張ってきてるんや。一方で、慣例や処方ガイダンスでは12mgって言うてるんや。
実際、モデルはこれを少し計算間違いして、患者さんの投与量を少し少なめに計算してしもてるんや。まあ、過剰投与するよりはマシやけどな。
面白いのは、ジョスが言うたように、これを何回か実行してみたんやけど、最初のランでは、この小さな計算の部分をせんかったんや。パッチ1枚は12mgのモルヒネに等しいって言うて、その時は正しく計算してたんや。
残りの部分も見ていこうか。そこから先は、普通は1.5で割るんやけど、それは合ってると思うわ。
そうやな、文献では1.5から2で割るんや。どれくらい安全側に寄るかによって変わるんやけど、これは一種の交差反応みたいなもんやからな。時々は、もうちょっと安全側に寄って、少し少なめに投与することもあるんや。
それでも、1日あたり約19mgのオキシコドンって計算してて、それで実用的に一番近い投与量として1日20mgを推奨してるのは、すごくええと思うわ。
全体的に見て、めっちゃええと思うわ。一般的に言うと、ワシは臨床医として慎重やから、切り上げはせえへんな。ここでは「1日19mgやから20mgにしましょう」って言うてるけど、ワシやったら7.5mg1日2回から始めて、そこから上げていくと思うわ。
でもどっちにしろ、ワシはめっちゃ感心したわ。ちょっとしたエラーはあったけど、これはちょっと気になるな。こういう進歩が推論能力にあったみたいやけど、まだ野放しにはでけへんな。
そうやな。面白かったのは、同じ質問を何回か実行すると、違う答えが返ってくることやな。古いモデルの方がもっとはっきり違いが出てたけど、今はそれが少なくなってきてるんや。でもまだ起こってるんや。
これはほとんど修正可能やと思うわ。検索拡張生成とか、事実を適切に維持された医学知識ベースから引っ張ってくるようにすれば解決できると思うわ。
これらの変換率は、インターネットからやなくて、ちゃんと管理された医学知識ベースから引っ張ってくるべきなんや。
全体的に見て印象的やと思うわ。実際、もっとたくさんの診断シナリオをテストしてみたんやけど、これを打ち負かすのはめっちゃ難しかったわ。
ほんまに、診断には使うなって言うてるし、大規模言語モデルは信頼できへんし自信過剰やって言うてるけど、くそっ、めっちゃ頻繁に正しい診断をしてるんや。怖いくらいやわ。
完全に間違ってる、絶対にしたらあかんような大きなミスを見つけるのは難しかったわ。普通は何かが少し間違ってたり、小さな部分が抜けてたりするけど、完全に間違うてるってことはあまりないんや。
臨床コーディングの例で見たように、ちょっと間違ってるけど、それでも基本的には正しいんや。
そうやな。でも、ここで重要なニュアンスは、実際には請求できないコードを選んでしまってるってことやな。
これは確かに改善できると思うけど、これは病院が気にすることなんや。ビジネスケースを作りたいなら、大規模言語モデルに請求できないコードを使わせるわけにはいかへんのや。
間違ったコードを使うと、病院が年間で何百万ポンドも逃す可能性があるからな。その小さな違いが重要なんや。
そうやな、同意やわ。でも、我々が扱ってるのは、このユースケース用に全然調整されてへんモデルやからな。
ちょっとしたガイダンスや、このユースケース向けの微調整、文脈内プロンプティングや少数ショットプロンプティングみたいなんをすれば、もっとええ結果が出ると思うわ。
そうやな。続きを見守るしかないな。これを基に何かを作ろうとしてるスタートアップはたくさんあるし、誰が最初にやり遂げて、誰が実際にうまくやるか見てみようや。
よっしゃ、今日はかなりの量をカバーできたと思うわ。これらのモデルについて、もっとテストをして、もっと広範囲で適切なテストをしていくつもりや。どうなるか見てみようや。
聞いてくれてありがとう。また次回お会いしましょう。
そうやな、いいねとチャンネル登録よろしくな。また近いうちに会おう。バイバイ。
コメント