
知性と知能: 第2回|AIに仕事を奪われたい
17,032 文字
みなさん、今日の知性(Intellect)と知能(Intelligence)ウェビナーへようこそ。これはこのシリーズの第一回目のウェビナーです。このシリーズの目的は、AIに関する高度な視点、実践的な応用、そして特に法律業務、さらに知的財産業務におけるAIの未来についてお話することです。
今日は特別なゲストをお迎えしています。まずDrメニー・レグ氏です。彼はビッグデータ、機械学習、人工知能の分野で高く評価された著者、メンター、思想的リーダーです。セントトーマス大学の大学院ソフトウェア・データサイエンスプログラムの教授であり、応用人工知能センターのディレクターを務めています。彼の専門性は広く認められており、ラジオやテレビのインタビューにも頻繁に出演されています。
また、Eve Legalのジェイムズ・ウォレンCEOもお迎えしています。ジェイは10年以上にわたる人工知能の実用化の経験を持っています。FacebookやRubricでの初期の貢献から始まり、Lightspeedでの投資や仕事を通じてAI分野の原動力となり続けています。彼の最大の功績は、法的プロセス全体の効率性と品質を革新的に向上させる事例アシスタント、Eveの開発です。
また、当社のウェビナーでもおなじみのトム・マーロも登壇します。彼は最高技術責任者であり、Black Hills IP Renewalsの社長です。トムはIP法の実務と関連分野で豊富な経験を持っています。フェアチャイルド・セミコンダクターの最高特許顧問を務め、以前はSchwegler&Nelsonで民間実務に従事していました。
今日は、AIの理論的基礎から実践的応用まで、幅広い分野を探求していきます。まずDrレグから始めて、ジェイ、そしてトムへと進めていきます。AIが産業をどのように変革しているか、そしてこのダイナミックな分野、特に法律実務における未来の展望について探っていきます。
では、Drレグ、お願いします。
ありがとうございます、ジム。そして皆様、本日はご参加いただきありがとうございます。まず、AIに関する基本的な全体像からお話ししたいと思います。
画面に表示されている異なる円は、存在するAIの異なるタイプを示しています。もちろん、この2年間で生成AIについて多く耳にしてきました。長年にわたって業界で行われてきた多くの仕事は、教師あり学習と呼ばれる領域に含まれます。市場セグメンテーションや顧客セグメンテーションについて聞くとき、それは教師なし学習に含まれます。そして強化学習の応用は、ビデオゲームや自動運転車など多くの分野で見られます。
生成AIは、教師あり学習の一種のアプリケーションまたはサブ問題と言えます。教師あり学習を理解することが不可欠です。最も基本的なレベルでは、教師あり学習は入力があり、その入力から出力へのマッピングを学習しようとするものです。
ここにいくつかの入力から出力へのマッピングの例があります。考え方としては、左側のデータが与えられたとき、AIモデルは右側に示される出力を予測することを学習できるかということです。すべての例を詳しく説明はしませんが、これらのアプリケーションは日常的に使用されています。
例えば、メールが届いたときにスパム分類器がそれをスパムかどうか検出しようとします。AIは2種類の結果を検出するための学習プロセスを経ます。2つ以上の結果を持つこともできますが、出力は基本的に既存のカテゴリのいずれかに分類される必要があります。
この学習が行われるためには、データにラベル付けが必要です。多くの場合、人間がこのメールはスパム、このメールはスパムではないという例を提供する必要があります。この学習プロセスを経て、AIモデルはいつスパムと予測し、いつスパムではないと予測するかを理解するようになります。
2010年頃から、多くのアプリケーションで大量のデータを持っていても、より多くのデータを与えても小さなAIモデルではパフォーマンスがそれほど向上しないことがわかってきました。メモリ、計算能力、モデルの複雑さの観点から小さなモデルを考えてみてください。
例えば、音声認識システムを構築する場合、AIが数万時間ものデータを聞いたとしても、それは大量のデータですが、より少量の音声データだけを聞いたシステムと比べてそれほど正確になりませんでした。それが画面に表示されている赤い線、小さなAIモデルです。
しかし、より多くの研究者がこの期間を通じて気付き始めたのは、非常に大きなAIモデル、つまり強力なコンピュータ上で高速で、より多くのメモリを持つAIモデルを訓練し、より多くのデータを与えると、パフォーマンスはどんどん向上するということでした。
大規模な教師あり学習は今日でも重要ですが、この非常に大きなモデルという考え方が、今日見られる生成AIにつながりました。すべてのAIジェネレーターの中核には基盤モデルがあります。基盤モデルは、広範なダウンストリームタスクを実行するために、膨大な量のデータで事前訓練できる能力によって区別される強力な機械学習モデルのクラスです。
これらのタスクには、テキスト生成、データ要約、情報抽出、質問応答、チャットボットとのやり取りなどが含まれます。対照的に、従来の機械学習モデルはデータセットから特定のタスクを実行するように訓練されます。
従来の機械学習モデルと基盤モデルの主な違いをいくつか見てみましょう。従来の機械学習モデルは通常、テキストのセンチメント分析、画像の分類、トレンドの予測など、特定のタスクを実行するためにサイロ化されています。各タスクを達成するために、顧客はラベル付きデータを収集し、モデルを訓練し、そのモデルをデプロイする必要があります。
基盤モデルのサイズと汎用的な性質は、従来の機械学習モデルとは大きく異なります。基盤モデルでは、ラベル付きデータを収集して複数のモデルを訓練する代わりに、同じ事前訓練された基盤モデルを使用して複数のタスクに適応させます。基盤モデルは、例えば法務分野など、ドメイン固有の機能を実行するようにカスタマイズすることもできます。
多くのユースケースについて耳にしますので、法的な観点からいくつかのユースケースについてお話ししたいと思います。
生成AIは顧客体験を向上させるために使用できます。例えば、特許の自動作成において、生成AIは特許弁護士が特許出願をより効率的に作成するのを支援できます。既存の特許、法的文書、関連する技術文献を分析することで、AIは特許出願の初期ドラフトを生成できます。
法的文書の要約と分析において、生成AIは大量の法的文書を要約・分析するために活用できます。
従業員の生産性を向上させる点では、特許弁護士は特許出願の作成に多くの時間を費やしており、これは法的・技術的な基準に細心の注意を払う必要があります。このプロセスは時間がかかるため、初期ドラフトの作成を自動化するために生成AIを採用することで、大幅に効率化できます。
また、膨大な特許データベースで訓練された自然言語処理モデルを利用することで、AIは弁護士のプロンプトに基づいてカスタマイズされたドラフトを生成できます。
機械学習モデルは、過去の特許データと特許庁の決定に基づいて訓練され、特許が付与または拒絶される可能性を予測できます。特許出願で使用される言語、既存の特許との類似性、過去の特許庁の決定などの要因を分析することで、AIは特許出願の潜在的な成功率に関する洞察を提供できます。
生成AIの進化により、特定のユースケースを非常に迅速にデプロイすることが可能になりました。過去には、例えば顧客メールのセンチメントを検出するアプリケーションを開発する必要がある場合、先ほど言及したAからBへのマッピングのように、実際のテキストとラベルを収集する必要がありました。
この全体のラベル付きデータを事前に収集し、次にモデルを訓練し、デプロイするという全プロセスは、過去には数ヶ月かかっていました。適切なレベルのデータを収集し、適切なラベルを付け、それらのラベルが適切であることを確認し、モデルを訓練してデプロイするのは、時間のかかるプロセスでした。
しかし今や生成AIにより、教師あり学習のシナリオからプロンプトベースの開発シナリオに移行し、数時間から数日で同じユースケース、つまりセンチメントの検出を実現できるようになりました。数ヶ月の苦労を経ることなく実現できます。
教師あり学習に基づいて書くコードの量がこれだけあるのに対し、プロンプトベースの開発に基づいて書くコードの量はこれだけです。この特定の関数は、OpenAIのアプリケーションプログラミングインターフェースを呼び出しています。これは「以下をポジティブまたはネガティブに分類してください」というプロンプトで、このテキストが渡され、すぐに応答が返ってきます。
簡単な例を示しましょう。先ほどお見せしたのと同じコードがあります。これを実行すると、ポジティブなセンチメントという応答が返ってきます。このモデルを訓練したことはありませんが、これを「製品の品質が嫌いです。価格に見合いません」に変更して実行すると、今度はネガティブなセンチメントが返ってきます。
このモデルを訓練したことは一度もなく、この関数でOpenAIのGPT-3.5 turboを呼び出しているだけです。これが生成AIの力です。
過去には、プロンプトから新しいテキストを生成したり、プロンプトから新しい画像を生成したりする例を見てきましたが、今や動画で見たいものを説明し、プロンプトから動画を生成する時代に入っています。テキストプロンプトから動画への例をいくつかお見せしましょう。
これらの動画がいかにリアルに見えるかは信じがたいことです。これらの動画は本当に素晴らしいものです。すべてを見ることもできますが、さらに素晴らしい次の2人の講演者、特に次の講演者がいます。ジェイに引き継ぎたいと思います。どうぞ。
ありがとうございます、Drレグ。皆さん、こんにちは。ジェイです。Drレグが説明したAIの素晴らしい進歩と、今日の法律分野でどのように使用できるか、そして直面する課題について、つながりを説明したいと思います。また、いくつか楽しいものもお見せしたいと思います。ダンスするOTには及ばないかもしれませんが、最善を尽くします。少々お待ちください。
皆さん画面が見えていると思いますが、生成AIは実際に多くの形態があります。法律業務にとって最も有用な形態の1つは、Drレグが言及したテキストです。最も有用なのは、テキストの要約、テキストの抽出、テキスト生成、理解に関するものです。
過去のAIからテクノロジーがどのように変化したかというと、以前は文書の自動化や文書生成を行うために、大量のデータで高精度なモデルを訓練する必要があり、その文書タイプに存在するすべてのバリエーションとレイアウトに対処する必要がありました。これが、法律業務における精度とデプロイメント速度の低さにつながっていました。
生成AIでは、デモでご覧いただいたように、分類や抽出などが瞬時にできるようになりました。法律業務にゆっくりと浸透し始めている他の分野には、画像生成があります。これには、まったく新しい画像をゼロから生成することと、画像の内容を理解することの両方が含まれます。さらに興味深いことに、画像生成は文書抽出にも使用されています。例えば、特許を読み込んで、その中の図を実際に抽出することができます。
過去3〜6ヶ月で大きな進展を遂げている他の2つの分野は、音声とビデオです。音声面で特に印象的なのは、音声からテキストへの変換とテキストから音声への変換が、人間レベルの理解力と能力に近づいているということです。ビデオ面では、Drレグのデモでご覧いただいたように、本当に堅牢で高品質な動画を生成できます。
このテクノロジーを今日実際にどのように使用できるか、何が得意で何が不得意かをいくつか紹介したいと思います。まず、テキスト生成についてお見せしましょう。これは私たちのプラットフォーム、Eveです。その下では、あらゆる生成AIテクノロジーを使用していますが、これはサンプルのクライアント通話記録です。
基本的なところから始めましょう。テキスト抽出は今どのように行われているでしょうか。30分の通話の完全な記録をアップロードし、自動生成された記録から質問をすることができます。例えば、原告の名前を抽出したい場合、ここにいる2人の話者を知的に識別し、利用可能なテキストに基づいて原告の名前を理解することができます。
以前は、これを外部チームに委託したり、自分で行ったり、非常に複雑なAIモデルを訓練したりする必要があり、かなり困難でした。しかしこれは始まりに過ぎません。
さらに興味深く魅力的なのは、文書の理解、文書の抽出、テキスト生成をすべて一度に統合して、より複雑なことができるようになったことです。例えば、クライアントの受付面談後、通常はケースファイルやケース概要のようなものを作成し始めます。
それがどのように見えるか見てみましょう。私たちの製品ではPlaybookと呼んでいますが、実際に抽出したいものと、最終的に生成したい文書をEveに指示することができます。Eveは概要で何を探しているのかを知的に理解し、ケースのタイムラインを生成し、文書全体を読んで順序付けることができます。
また、法的分野を理解し、証人が何であるかを知っており、それが言及されているかどうかを伝え、クライアントに関連する他の証拠を指摘することもできます。ここでは同時に複数のことが起こっています。この記録と、このケースに関連してアップロードする他のファイルの両方を理解し、必要な文書を生成できます。
そして素晴らしいのは、ここで終わらないということです。すでに行った作業に基づいてワークフローを続けることができ、何をしようとしているのかを正確に理解します。次のステップとして、例えば訴状を作成する場合、Eveに手伝ってもらうことができます。
これまで潜在的に何時間もかかっていた作業が、2分ほどで完了するようになりました。これが、このテクノロジーが今日使用される基本的な部分です。文書が何らかの形で関与するあらゆる法的プロセスで使用されているのを目にしています。
今日最も明白な使用場所です。特許出願から、ケースとクライアントの受付、詳細な訴因分析、訴状や要求書の作成、その他の法的プロセス、さらには裁判の準備まで、ケースのライフサイクル全体を通じて、人々は大きな恩恵を受けています。
ご覧のように、完全な訴状を生成し、さらに深く掘り下げることもできます。たとえば、不当解雇についてより深く掘り下げることもできます。
これがテキスト生成の基本です。これは法律業務で急速に使用されることが予想される第一の場所ですが、ここで終わりではありません。その後、ビデオと画像の理解も向上しています。
法律業務でそれはどのように見えるでしょうか。まず、画像が実際に関連する場合が多くあります。人身傷害や雇用法の案件で作業する場合、理解して損害を見積もる必要のある画像をよく受け取ります。
また、特許の分野では、サンプル画像をアップロードすることができます。これはChat GPTの例で、特許から見つけたサンプルをアップロードしました。これが何の特許からのもので、何に関するものかメッセージを送ってくれる人にボーナスポイントを差し上げます。
実際にできることは、より高度なオブジェクト検出です。この画像を読み取り、これらのコンポーネントすべてを理解・分割し、テキストの理解を活用して両者を結びつけ、画像が何に関するものかを正確に説明することができます。
これは昨年半ばに進歩した技術で、より多くの文書レビューや損害見積もり、クライアントの受付、ファイルの生成などの法的ユースケースに浸透し始めています。
しかし、まったく新しい画像を作成しようとする画像生成の面では、まだかなりの課題が残されています。ここで私が行ったことをお見せしましょう。実際に、この特定の発明からガスシリンダーを取り除いたサンプル画像を作成するように依頼しましたが、まったくランダムなものを作成しました。これらが画像面の限界の一部です。
最後にお見せしたいのは、テキスト面でも革新があったということです。これは完全なサンプルですが、どのように見えるかをお見せしたいと思います。これは私たちの製品ではなく、私たちが行ったハッカソンでのものですが、お見せするのが楽しいと思いました。
ここで起こっているのは、実際にEveとクライアントの受付を行っており、Eveに声を与えました。テキストを理解して応答する能力と、音声で応答することを結びつけています。Eveが実際に話しかけ、デイビッドは人間で話し返します。
短いクリップを再生しますので、このテクノロジーがどこにあり、なぜ今年法律業務でその兆しが見え始めると考えているのかがわかると思います。誰か音が聞こえないようでしたらメッセージをください。
(音声再生: クライアントとEveの会話)
全部は再生しませんが、これができることのサンプルです。そこで何が起こっているのかを考えると、エンジニアリングによってこれまでの生成AIのすべてのコンポーネント、つまりテキストから音声へ、音声からテキストへの変換を超高速で行う能力を結びつけることができ、実際に会話を持つことができます。
さらにテキストを理解して、本当に質の高いクライアントの受付を確実に行うために、より深い質問で知的に応答することもできます。そしてそれがどこに向かうのかを想像できます。
特定の発明についての追加の詳細や、訴訟で証拠開示プロセスを進める際の追加の詳細をクライアントに尋ねる必要がある場合、それらの通話は時に何時間もかかることがあります。そして時には、ただ座って聞いているだけということもあります。テクノロジーとサービスをどのように活用するかによって、大幅な時間の節約につながる可能性があります。
さて、これらすべてが良さそうに見え、印象的に見えますが、法律業務で何が起こるのでしょうか。戻って考えてみましょう。多くの課題が残されています。画像で見たように、Drレグが言及したプロンプトエンジニアリングに非常に依存しています。
プロンプトエンジニアリングは、必要なものを正確に得るために、求めているものを超正確に指定する必要があるという側面です。さらに課題となるのは、テクノロジーにできることに制限があるということです。特に画像面では、テキストは昨年大きく改善されましたが。
これらの制限に対処するには、プロンプトの方法でさらに創造的になる必要があります。テキストでも同じことが当てはまります。かなり文字通りで、子供に何をするように言うようなものだと考えることができます。彼らはあなたが言ったことを正確に従いますが、結果があなたの期待したものではないかもしれません。
これは、幻覚と呼ばれる行動につながります。つまり、あまりにも熱心に応答しようとするため、対応できない場合に物事を作り出し始める可能性があります。これについて聞いたことがあるかもしれない単純な例は、実際に判例法を作り出すケースです。
これは修正できます。後で説明しますが、例えば「この事例における不当解雇の訴因を支持する要素は何か、もしあれば」と尋ねるとき、「もしあれば」という部分を含めないと、実際に物事を作り出す可能性があります。
また、エンジニアリングが不十分で、他の部分でも苦労している点として、人間が持つ推論能力が欠けているということです。正確にそこにあるものを見て、訓練された膨大な情報を活用して要約やテキスト生成を行うのは非常に得意ですが、あなたの指示を受け取って、頭の中でそれを小さなステップに分解して応答を生成するような能力はありません。
つまり、クライアントの受付から要求書の生成、相手方との交渉、そして解決までといった複雑さのものは扱えないということです。それには多すぎる計画立てとタスクの分解が必要で、まだそこまでの能力はありません。
最後に、この課題は改善されていますが、想像できるように、多くの言葉やテキストで訓練されているため、数字の扱いに課題があります。
音声面とビデオ面では、これらはまだ新しく、どれほど優れているのかについて多くの未知の部分があります。予想される主な課題は、ベンダーソリューションに組み込まれた場合、カスタマイズが不足するということです。
まとめると、皆さんの反応は懐疑的かもしれませんし、恐れや興奮かもしれません。わかりませんが、現実は、使用しないには良すぎるものになってきているということです。今日でさえそうですが、確実に1〜2年後には、使用していない場合、はるかに多くのことをはるかに少ない時間で達成している他の人々が必ずいるでしょう。
それは、より多くのお金を稼ぐことを意味するかもしれませんし、休暇に行く時間を節約することを意味するかもしれませんし、業務を拡大することを意味するかもしれません。基本的に、好むと好まざるとにかかわらず、あなたが使用するすべてのものに組み込まれていくテクノロジーになりつつあります。
そのため、早めに使い始めた方が良いでしょう。そこで、これから見ることになるソリューションについて何を期待すべきかをお伝えしたいと思います。
このマーケットがどのように分類され始めているかについて、最終的に好むと好まざるとにかかわらず対処することになるいくつかの異なるプレーヤーがいます。
1つは基盤モデルと関連プレーヤーです。Chat GPT、Gemini、そして今や多くの他のプレーヤーがいます。Microsoftは独自のものを持っており、Anthropicも持っており、Perplexityという別の会社もあり、これらの基盤モデルを基に、より高度な検索やChat GPTのような一般的な質問ができる機能を構築している会社が多くあります。
これらのプロバイダーで予想される主な課題は、法律業務向けにカスタマイズされていないということです。つまり、1つには、中央のモデルを訓練するためにあなたのデータを使用しないことにすべてが対応しているわけではないかもしれません。
法律分野では、これはかなり重要です。なぜなら、これらのすべてのデータポイントが実際には中央モデルの訓練に戻り、予測AIなので、誰かの次の言葉を完成させようとします。そのため、クライアント・弁護士の秘匿特権で保護されるはずの情報が漏洩する可能性があります。
第二に、先ほど言及したすべての課題に関して、幻覚を起こす可能性があり、プロンプトで非常に文字通りになる必要があります。これらすべてが、ユースケースと実務分野、この場合は法律業務に焦点を当てて、大幅に改善する必要があります。
そうしないと、エンジニアリング層で妥協して、多くのユースケースに対応しつつも使いやすさを維持する必要があります。
非常に単純な例を挙げると、クリエイティブで芸術的なブログを書く場合、実際に幻覚は望ましいものです。データセットにない多くの新しいアイデアを思いつきたいわけです。一方で、非常に明確な財務文書を準備する場合、データの超正確な抽出が必要です。
これら両方には、達成するために基盤モデルの非常に異なるチューニングが必要で、中央のプレーヤーはおそらくそこまで到達することはなく、それは彼らの焦点領域ではないと述べるでしょう。
しかし、法律以外の一般的な質問や、家に関する一般的な質問、あるいは子供の先生への返信など、生成AIを全く使用した経験がない場合、リスクを取ることなく生成AIの限界と利点に慣れ親しむのに最適な場所です。
2番目に期待される場所は、すでに目にしているかもしれませんが、既存のベンダーが既存の製品に生成AI機能を実装することです。最も急速に起こると予想されるのは、法的調査の分野です。WestLawやLexisNexisなどのプレーヤーはすでに、ブール論理検索で苦労する必要性など、彼らの製品の短所を修正するために生成AIの使用を開始しています。
その代わりに、入力したものから結果のリストを得ることができます。契約書レビューも、すべての既存のベンダーが製品を改良していく分野の1つです。
そして私たちやその他のように、生成AIスタックから一から構築された新しいベンダーがいます。ここで予想されるのは、このテクノロジーの存在を当然のものとして受け入れ、プロセスを再考して、ワークフローの10%の改善ではなく、潜在的に10倍の改善を生み出すベンダーたちです。
ここでの戦いと競争はまだ初期段階で、デモの段階に到達するのは非常に簡単ですが、使用可能な段階に到達するにはかなりの時間が必要なため、時間とともに激化すると予想されます。
これらのベンダーを評価し、実際に購入する際にいくつかの課題があると予想されます。最も簡単な方法は、私の推奨としては、ROIストーリーを持つことです。ツールを使用した後と使用前の生活がどのように見えるかを見て、可能であれば体系的に追跡することです。これが最終的に、あなたと your firm にとって正しい決断を下す安全な方法です。
以上が私の発表のすべてです。質問がなければ、トムに引き継ぎたいと思います。
2つ質問がありましたね。まず、それはペイントボールのトリガーかという質問がありました。違います。それはワインに…コレクトですね。ワインボトルに中にガスを注入して保存するためのものです。
もう1つの質問を手短に取り上げて、トムに進みましょう。匿名の参加者からの質問です。「Eveの出力に関する最初の直感として、Eveがすべての詳細を捉えているかを確認するため、元の文書を個人的にレビューする必要があるという不確実性を感じます。プラットフォームはこの不確実性をどのように克服していますか?」
これにはいくつかの要素があります。これは、幻覚のリスクを可能な限り低く抑え、結果の精度を高めるために、私たちが重要なエンジニアリングを行っている部分です。ここで起こっているのは、単なる重要なエンジニアリング作業です。
フードの下では、プロンプトのチューニング、モデルの微調整、適切なモデルの選択とキュレーションなど、これらすべてが起こっており、そのような問題が発生する可能性を減らすためです。
第二に、私たちが実際に推奨しているのは、これは新しいアソシエイトやパラリーガルを雇うのとやや似ています。始めは、システムへの信頼を構築し、その能力を理解するために作業をダブルチェックします。時間とともに、何が得意で何が不得意かを理解するようになります。
多くの場合、実際には作業をダブルチェックする必要がないことに気付くでしょう。ジム、これについて異なるまたはより良い答えがありますか?あなたの経験から見て。
はい、基本的に同じ答えだと思います。異なるチームメンバーと時間とともに働く中で、彼らが何が得意で、どこでより多くの監督が必要かを理解していきます。通常、あなたのために働く従業員やチームメンバーは、何が得意で何がそうでないかについてかなり一貫しています。
AIモデルもその点ではかなり優れており、どのようにプロンプトを出し、プロンプトが最適な応答以外のものを返す懸念がある場合、確信が持てない点を明確にするために追加のプロンプトを提出するのは非常に簡単です。
例えば、要約について「このドキュメントのどれだけを考慮しましたか?」といった質問をすることができます。通常、私が使用してきたツール(私たち自身のものを含む)からの応答は、考慮した内容について非常に正確です。
考慮されていないものを見つけた場合は、それを考慮するように指示し、通常はそうしてくれます。警戒は続けますが、ダブルチェックで考慮されていない何かを見つけたからといって、ツールの使用を終える必要はありません。
その部分のドキュメントも考慮するように指示し、必要に応じて回答を更新してもらえばいいのです。これには様々なアプローチがあります。ジェイが1つ提示し、私がそれを基に別のアプローチを示しました。
ツール自体を使用して作業をダブルチェックするための他のまたは異なる方法を見つけた場合は、ぜひ共有してください。喜んでお聞きしたいと思います。
はい、ここでもう1つ覚えておくべき良いポイントは、特に公式の提出物として提出するコンテンツを作成する場合、弁護士として署名を入れるものについては、レビューを行いたいと思うでしょう。
例えば、ジュニアアソシエイトが作成した場合、どのレベルのレビューを行いたいかを考えると、ゼロ以上のものが必要です。多くの場合、目的は弁護士が仕事をすることをなくすことではなく、弁護士が仕事をより効率的に行えるようにすることです。
特に始めのうちは、しかし応答の仕方を理解していく中でも、レビューの要素は望ましく、必要なものです。
それでは、オンラインで私が提供した回答を皆さんが見たことを確認しましょう。先ほどと同様の質問が来ていました。「見逃したかもしれませんが、LLMを使用する際にIPを保護し、インサイダー取引の問題を避けるにはどうすればよいでしょうか?」
Eveや私たちのツールを使用する場合、アップロードするドキュメント、提供するプロンプト、そしてそれに対する応答など、システムに上がる方向または戻ってくる方向のすべての情報は、あなたにとって機密情報です。共有されることはなく、モデルの訓練に使用されることもなく、他の誰もそのデータにアクセスすることはできません。両方向で完全に安全で暗号化されています。
そして、これらのツール、特にEveとBlack HillsのAutoでは、1つのプロジェクト内のデータは他のプロジェクトと共有されることはなく、プロジェクトが完了したら、そのプロジェクトを削除でき、すべてのデータは完全に消去されます。
これらの異なるプロジェクトで作業する際、1つのプロジェクト内のデータはそのプロジェクトだけに分離されており、これは弁護士の心よりも安全です。特許弁護士は複数のクライアントから情報を学び、時間とともにその情報がどのクライアントから、どのケースから来たのかを忘れ始め、すべてが混ざり合ってしまいます。
この問題は、ここで話しているAIツール、EveやBlack HillsのAutoには存在しません。データや情報の種類を問わず、漏れはなく、応答の漏れもありません。
チームメンバー間でプロンプトを共有することはできますが、それらのプロンプトではクライアント情報は共有されず、プロンプトのみが共有されます。保存されたプロンプトを設定できます。私たちはそれをスキルと呼び、スキルの下に2つの異なるタイプ、PlaybookとTasksがあります。
これらは共有できますが、それらを適用する情報は共有されません。したがって、すべてが安全で、情報の共有はありません。これについてさらに説明が必要な方は、喜んで会話させていただきます。
では、トム、お願いします。
ありがとうございます。これはすべて素晴らしい技術的な議論に続くものです。Black Hills AIで私たちが適用している応用についていくつか触れたいと思います。
計算知能は一般的に、私たちの運営にとって重要なコンポーネントです。スピードと効率性を向上させるだけでなく、非常に重要なこととして、IPで一般的に見られる高密度のデータ処理に関連する人的エラーを避けるのに役立ちます。
私たちは、ドケッティングのために多くのドキュメントとデータの裏側での処理を行い、ドキュメントを識別してデータを抽出します。まず、エキスパートシステムと呼ばれる、複雑なルールと計算ロジックのセットを活用して、主要なデータ抽出とドキュメント識別を行います。
エキスパートシステムを活用する理由は、精度への絶対的な必要性があるためです。速度を持った自動化を推進したい場合、変動性は良いオプションではありません。この点について、私たちは完璧への漸近線を追求していると言えます。
機械学習は素晴らしいですが、主要なIPデータの分類には推測や提案では不十分です。ただし、教師あり機械学習は、いわば次の防衛線として使用されています。
過去10年以上にわたるドケッティングから、私たちには信じられないほどの量のデータがあります。このラベル付けと分類、エキスパートのドキュメント識明は、日々処理するデータに対して実行する独自のMLモデルの作成を推進するために使用されます。
これは主要な識明には使用されませんが、実行したルールのダブルチェック、異常の検出、ロジックの問題の発見などに使用される可能性があります。利用可能なあらゆるオプションを活用しようとしています。
このプロセスの一部に、より教師なしの生成AIも試してみましたが、結果は様々でした。先ほどのジェイのプレゼンテーションで見たように、人間が結果と作業する場合や、プロセスの進め方についてより柔軟性がある場合には、より価値があります。
これが、生成コンポーネントがより価値を発揮する場所です。提案やドラフトを考えた場合、特異性が重要な主要なコンテンツを駆動する自動化とは対照的です。
しかし、この領域で私たちが活動している部分は、モデル構築側ではそれほどありません。プロセスへの私たちの貢献は、データの扱い方、その扱い方、そしてワークフローを効率化する能力から来ています。
Black Hillsでは、エンドユーザーにとってできるだけ便利になるように、適切なコンテキストをエンジンに提供する方法を多く考えています。どのような事前パッケージされたデータとプロンプト、またはプロンプトのキューを提供できるか、他のツールと統合するためにカスタマーデータを持つAPIをどのように提供できるか、ここに私たちの時間と努力を集中させています。
私たちにとって重要なのは、使いやすくすることです。常に進化し、印象的な進化を続けているバックエンドテクノロジーを活用することができます。これはかなり素晴らしいことです。
この議論のために皆さんがここにいるということは、間違いなく最前線にいるということです。このテクノロジーを最も効果的に使用する方法を学ぶには素晴らしい時期です。
今日議論し、見ているアプリケーションは、明日、明後日には変化するでしょう。これを把握し続けることは、間違いなく皆さんの利益になります。
ここまでいくつかの質問に答えてきましたが、専門家の方々がここにいるうちに、質問を受け付けたいと思います。いくつか質問が来ているようですので、見てみましょう。
1つの質問は、メニーとジェイの両方が言及したAIの継続的な進歩に関するものです。AIがAIの応答から学習するということについて、つまりそれらがインターネット上でより一般的になるにつれて、写真のコピー効果のような形で希釈化されることについて、懸念はありますか?
はい、生成AIに関して、特に最近のアプローチや活発な研究分野として、以前のモデルの出力から次のモデルが学習できるかということがあります。学術的な演習としては機能し、有望な結果を示していますが、法的なIP問題にもつながる可能性があります。
いくつかの企業もそれについて話していますが、これはモデル学習の観点から検討されているものです。
それに関連して、著作権の分野で特に制限に関する話がありましたが、裁判所で見られ始めているコンテンツへの潜在的な制限により、これらのモデルが今までのように急速に改善できなくなることについて、何か懸念や考えはありますか?
はい、今日まで、生成AIで見てきた進歩の妨げになるようなことは見ていません。しかし、EUがAI法を可決したばかりで、もし米国で同様のものが出てきて、内部で独自の目的のために基盤モデルを微調整することや、使用するデータについてより多くの制限が課された場合、それが進歩を遅らせる可能性があると思います。しかし、現時点ではまだその段階には達していないと思います。
そうですね、それは理にかなっています。ジムどうぞ。
はい、ジェイに質問があります。先ほど、エンドユーザーとBlack HillsまたはEveとの間で交換される情報は機密であると言及しましたが、基盤モデルを活用する場合、基盤モデルの所有者も機密性を保持することをどのように保証できますか?特にOpenAIについては?
良い質問です。簡単に言えば、すべてのプロバイダーは、より高額な契約で、契約上の保証を提供しており、一部は技術的な保証も提供しています。機密性を保持することを保証します。Eveは、これを確実にするために、すべての言語モデルプロバイダーと非常に高額なライセンス契約を結んでいます。そしてAOもそれから恩恵を受けています。
ありがとう、ジェイ。同じような質問がもう1つありますね。ジム、これは本当に良い質問の流れです。弁護士や機密・専有情報を扱う人なら誰でも尋ねるべき質問です。
答えは、異なるシステム、異なるサービス、異なる最終製品の間で常に同じというわけではありません。明らかに、この通話の参加者は法律分野に焦点を当てているので、これらは非常に重要な項目であり、事前に対処する必要があります。
しかし、多くのツールが存在し、他のツールを評価する場合、これらは公開すべきではない資料を誤って公開することがないよう、確実に尋ねる必要がある正確な質問です。
これに関連してもう1つの質問です。EveとBlack Hillsの文脈で、顧客情報に基づいてモデルを訓練していない場合、機械学習による改善はどのように行われるのでしょうか?ジェイ、これも答えられますか?
はい、答えられます。機械学習の側面について、私たちはいくつかのことを行っています。1つは、機械学習に焦点を当てていないが、まだエンジニアリングの努力を必要とする重要な部分があります。
その1つは、先ほど誰かが質問したように、法律業務では情報を正確に取得することが重要で、作業のダブルチェックに多くの時間を費やさないようにする必要があるという課題です。
この作業がどのように行われるかは、機械学習以外のものの組み合わせです。例えば、私たちは検証済みの事実に基づく判例法の独自のデータセットを使用し、それと比較して、ほぼ確実に正確になるような方法で応答を構造化します。
2番目の層は、プロンプトエンジニアリングと呼ばれるもので、この層では、ユーザー入力を取り、外部データを一切使用せず、私たちの弁護士が作成した法的知識のみを使用して、あなたの環境からのデータを一切使用せずに、パフォーマンスを大幅に向上させる洗練されたデータパイプラインを作成します。
ここでの改善がどのように見えるかというと、実際に悪い応答があった場合、あなたのデータを使用せずに中央モデルに改善が加えられ、悪い応答の可能性を減らそうとしていることを理解し、それで十分です。
あなたのデータを使用する必要はありませんが、時間とともに悪い応答の割合が減少していることを確認することはできます。これが今日の方法です。
時間とともに、この答えは少し複雑なのですが、さまざまな種類の訓練があるため、技術的な側面に踏み込むと、微調整、モデル訓練、プロンプト調整、他の種類の機械学習モデル、Drレグが言及したように、誰のデータも使用せずにモデルを調整するための偽のデータを生成できるものなど、利用可能な他の技術もあります。
まさにジェイが最後に言及した点を付け加えたいと思います。生成AIを使用して合成データを生成し、その合成データをモデルの改善に使用することができます。
素晴らしいですね。今日はもう十分長く続けてきたと思います。今のところ他に質問は見当たりませんので、ここで終了したいと思います。
本日の発表者の皆様、Drレグ、ジェイ、トム、ありがとうございました。3人の方々をお迎えできたことを嬉しく思います。また、ウェビナーに参加して、スライドなどを見ていただいた皆様にも感謝申し上げます。
このシリーズを継続することを楽しみにしています。基本的に四半期ごとに行う予定で、スケジュールはまもなく公開します。日程は設定済みで、他の講演者も参加する予定です。
このウェビナーが、AIとは何か、法律実務やその他の分野でAIが何をできるかについての知識、理解、認識を深めるのに役立ったことを願っています。
また、このようなテクノロジーへの有料サブスクリプションを持っている場合、子供たちの宿題に関する質問などに対して、かなり良い回答ができるということも覚えておいてください。AIを使っていることは内緒にしておけば、子供たちはあなたの洞察力ある回答に感心することでしょう。
いずれにせよ、ご参加いただきありがとうございます。有益で、場合によっては業務を少し修正するような刺激になったことを願っています。
また次回もご参加ください。AIについて質問がありましたら、お気軽にご連絡ください。info@blackhills.aiまでメールを送っていただければ、私に届き、ご質問への回答や必要な対応をさせていただきます。
改めて感謝申し上げます。また近いうちにお会いできることを楽しみにしています。ありがとうございました。良い1日をお過ごしください。皆様ありがとうございました。
コメント