OpenAI DevDay 2024 | コミュニティスポットライト | Genmab

3,293 文字

OpenAI DevDay 2024 | Community Spotlight | Genmab

Accelerating cancer R&D with document generation

私たちは今日、AIエージェントを使って臨床試験プロセスをどのように迅速化したかについてお話しできることをとても嬉しく思います。私はスコットです。GenmabでAIイノベーションチームを率いています。私が今日ここに来られたのは、5歳の息子がChatGPTに会えることをすごく喜んでくれたからです。なぜなら、ChatGPTはパパよりずっと上手にお話を語ってくれるからです。
サム？
私はサム・ワグナーです。スコット、トークの後でミスターChatGPTに会えるといいですね。
そうですね。
Genmabは、バイオテック企業です。私たちはイノベーション企業ですが、生物学に焦点を当てています。その文化は浸透しており、現在Genmabは生物学と抗体の分野で最高になることだけでなく、AIを単に採用するのではなく、前進させることにも取り組んでいます。
これが私たちのフレームワークが活きてくる場面です。臨床試験プロセスは、ご存じない方のために説明すると、非常に長く、非常に高額です。1つの薬剤を1つの疾患に対して開発するのに8年以上、数十億ドルかかります。
これを拡大するには何かが必要です。そして私たちは、AIがここで役立つ立場にあると考えています。規制当局に提出しなければならない規制文書の文書生成という、非常に具体的なユースケースについて、どのように取り組んだかをお話ししたいと思います。これらの文書の1つは、患者のストーリーと考えることができます。
すべての試験のすべての患者について、試験に参加している毎日について、非常に特殊な臨床文書を生成しなければなりません。これには熟練した人材が相当な時間をかけて照合する必要があります。数百の異なる文書、あるいは数百ページの文書、数千のデータポイントにアクセスしなければなりません。
それらすべてを臨床医としてのスキルで集約し、要約を生成するのです。これは数多くある文書の1つに過ぎません。詳しくお話しすることもできます。何千人もの患者についてです。これには相当な時間がかかります。そして多くの場合、社内の利害関係者や会社、データだけでなく、協力しなければならない外部パートナーもいます。
GPT-4oを単にプロンプトするだけでは、規制文書に必要な100%の正確性は得られません。99%では十分ではありません。私たちのCELIと呼ぶフレームワークがどのようにしてその最後の1マイルを到達できるのか、お話ししたいと思います。サムがすぐにお見せしますが、私たちの高レベルのアーキテクチャはこのように説明できます。
私たちの言語モデルは、実世界の自然言語、タスクのユーザーストーリーを取り込み、文脈の中で将来を計画します。ステップ1を実行している時点でステップ10が何になるかを知っています。自己修正ができ、ガイドラインがあります。各ステップの実行とパフォーマンスを評価する方法があり、計画を前に進めながら調整とカスタマイズができます。
そして、それを受け取り、ステップ1で呼び出すすべてのツール、すべての作業が、次のステップのステップゼロのインプットとなります。これを何度も繰り返すことができ、私たちが目指す100%の正確性に収束できることを示しています。また、解決策を評価する方法を知っているジェネリックな問題も解決できることを示しており、これはまもなく発表される予定です。
しかし、それについては後で詳しく話すことにして、今はサムにCELIの実際の動作を見せてもらうことにワクワクしています。サム？
ありがとう、スコット。では、CELIを起動してみましょう。読み込み中ですが、スコットが話していたポイントをお見せします。
それは私たちが患者について学んでいく過程で、一歩一歩、セクションごとに草案を作成していくということです。そしてその過程で、必要な情報を取得するための検索プロセスがあります。最初に行うのはシステムメッセージの表示です。これを初期化する方法は、あらかじめ作業の説明を指定する一連のプロンプトを用意することです。
最初に行うのは、この特定の文書を作成するという役割と目的を設定することです。タスクの基準を設定します。これは順番に実行する必要のあるタスクのリストです。チェックリストのようなものと考えてください。最初のタスクを完了し、次に2番目、3番目と進んでいきます。
そしてその過程で、タスクを実行できない場合は、それを解決することができます。医療ライターや臨床医は、これらの文書をどのように作成すべきかについてのガイドラインを提供してくれます。それが指示やプロンプトに含まれています。また、CELIの重要な部分であるプロンプト完了のメカニズムもあります。
これは本当に秘伝のソースの一部です。進行に伴って、何が完了したか、何に取り組んでいるか、次に何をするかを教えてくれる必要があると指示します。ここで最初に行われるのは、このシステムメッセージをGPTに送信することです。GPTは応答し、最初に行う必要があるのは臨床試験の特定の識別子に対する関数呼び出しだと認識します。
興味深いのは、検索するIDやキーは文脈に残り続けることです。そのため、関数呼び出しでは任意のキーと値のペアの検索がいつでも可能です。それをGPTに送信すると、応答が返ってきます。最初のタスクが完了したことを伝え、タスク2に取り組んでいることを示し、タスク2に進みます。
次の呼び出し時に自身に指示を出すので、続行することを知っています。関数呼び出しを実行し、テーブルを取得します。その結果が文脈に追加されます。文脈は積み重なっていきます。これで2つのタスクが完了しました。興味深いのは、進行中の物語があるということです。
特定の検索から得られる情報の種類を教えてくれます。また、この情報が後でどのように使用されるかも知っています。これは現在タスク2ですが、後で草案作成に必要な情報だと伝えています。システムプロンプトの中にすべての情報が含まれているため、タスク10まで先を見通すことができます。
念のため言いますが、これが完了してGPTに送信されるたびに、システムメッセージも一緒に送られます。そのため、すべての過程でその設計図を持っています。では、草案作成を始める部分まで飛ばしましょう。この時点で、必要なすべてのテーブルを持っています。書き始めます。これが背景のセクションです。ここでは1日目について書いています。
これを続け、すべてのセクションを書き続け、完了したらコンパイルする時間です。すべてをコンパイルしました。このように分割する理由の1つは、小さなセクションに分けて書くことで非常に正確になるからです。そして文脈から必要なすべての情報を収集することができます。これを保存します。
プロセスの最後には監視エージェントがあり、予定通りの順序ですべてが保存され、完了したことを確認します。そして完全な草案ができあがり、このようになります。スコット、お返しします。
ありがとう。
これを表示していますが、サムが示したプロセスは何時間もかかる可能性があるものです。しかし彼のプロセスは数分で済みます。私たちは多くの異なる試験で何千人もの患者について、多くの異なる日について話しています。他にもたくさんの文書があります。考えてみてください。最終的な目標は、試験期間を1ヶ月短縮することです。たった1ヶ月でも、重篤な疾患を持つ何百人、何千人もの人々が、疾患の深刻さのために利用できなかったであろう私たちの薬にアクセスできるようになるのです。
これが私たちが朝起きて仕事に来る理由です。この問題に興味がある方は、QRコードを見てください。オープンソースです。私たちは、CELIは問題解決者として、文書生成者として汎用的だと考えています。また、重篤な疾患を持つ人々を助けることに興味がある方は、右側をご覧ください。
本日はどうもありがとうございました。ここに来られて本当に嬉しく思います。ありがとうございました。