OpenAI DevDay 2024 | コミュニティスポットライト | Swyx

4,375 文字

OpenAI DevDay 2024 | Community Spotlight | Swyx

皆さん、こんにちは。料理番組のような感じでこれを進めていくことになっているのですが、既に準備は整っています。私はSまたはShawnと申します。シンガポール出身ですが、過去15年間アメリカで働き、生活しています。
実は、私にはいくつか隠された目的があります。まず、最初に25分の持ち時間をいただいていたのですが、それが15分になり、そして10分に、今日になって9分だと言われました。そこで、たくさんの宿題を出すことにしましたが、心配はいりません。写真を撮っていただいて構いません。すべての内容は既に私のウェブサイト「6i engineering agents」にアップロードされています。ですので、タイトルだけお伝えしておきます。皆さんのために内容を簡略化するつもりはありません。
二つ目の目的は、30年という長期的な視点で、シンガポールをAIエンジニアリング国家に変えていきたいということです。今日私たちが利用できる基盤モデルがどれほどの力を持っているのか、皆さん一人一人に理解していただきたいと思います。他のエンジニアリング組織によって、これほど多くの知識が公開されていることを認識してください。
では本題に入りましょう。このトークのタイトルが少し不自然なのは、AIエンジニアリングという要素を何とか盛り込もうとしたからです。私は「AIエンジニアの台頭」というエッセイで、AIを使用するソフトウェアエンジニアの専門的な役割について詳しく説明したことで知られています。特に、アレッシオと一緒に運営しているポッドキャスト – アレッシオ、どこにいますか？ヘイ – では、私たち二人でAIエンジニアリングに焦点を当て、この分野のビルダーや研究者たちを取り上げています。その中には、シンガポールをAIエンジニアリング国家に変えることについてのジョセフィン・テオ大臣とのエピソードも含まれています。興味のある方はぜひチェックしてみてください。
個人的にも、小規模なAIエージェントの開発を行っています。私は主要なAIに関するDiscord、Reddit、Twitterの情報を毎日報告するニュースレターを運営しています。これは記者を一人も雇わない最大のAI新聞社です。皆さんも同じようなものを作ることができます。基本的に、私は人々との対話や自身の開発経験から学んだAIエージェントの構築に関するすべての知識を凝縮してお伝えしようとしています。
私がお勧めする出発点は、リリアン・ワンからです。彼女は著名な作家であり、以前はOpenAIのセーフティシステム部門の責任者でした。彼女は「エージェントはLLMにメモリ、プランニング、ツールの使用を加えたもの」と述べています。私は個人的にこれを少し修正して使っています。これから詳しく説明しますが、各スライドの下部には宿題が記載されています。もちろん、このトークの最後にスライドのプレゼンテーションをご覧いただけます。
私の開発者ツールに関する考え方の多くは、このようなベン図のような不可能な三角形で表現されます。ここから始めて、競合ツールの機能を徐々に追加していき、どこを選ぶべきかを考えます。LLMインフラを構築する際には、やるべき仕事の明確な地図を持つことが重要だと考えています。私は通常、何らかのゲートウェイ、オペレーションツール、RAGフレームワークを持つことをお勧めします。上部に挙げたものはすべて、私が使用しているオープンソースツールです。
特に、Eugene Shia – ユージーン、どこにいますか？- Feedist AIを運営している彼に注目してほしいと思います。実際に多くの著名なシンガポール人がこのAI分野で働いています。ユージーンの仕事とFeedist AIをぜひチェックしてみてください。
エージェントのスタックの第二の部分として、メモリと知識が重要になってきています。今年2月にChat GPTがメモリを組み込んだことは、まだ十分に認識されていません。永遠の昔のように感じられますが、これは依然として非常に優れたエージェントメモリの実装です。興味のある方は、M-GPTの論文を読むことを強くお勧めします。知識の面では、ベクトルDBがよく知られていますが、ナレッジグラフへの関心が急速に高まっています。私が運営するAIエンジニアカンファレンスで最も意外な人気を集めたのは、グラフRAGに関する講演でした。これについても宿題として確認することをお勧めします。
スタックの第三の部分は、最も曖昧で活発な研究分野である、プランニングとマルチエージェントです。ここでは、OpenAIからいくつかの資料をお勧めします。一つは「Let’s verify step-by-step」という論文で、モデルの潜在的なプロセスを示しています。二つ目は、イーランとシャマル（会場にいらっしゃると思います）が取り組んだフレームワークではないプロジェクト、SWFです。マルチエージェントは、パフォーマンスを向上させる最もシンプルな方法として強くお勧めします。Grabもそれを次の目標として言及していました。このトークの最後に、マルチエージェントが実際にどのように体験を大幅に向上させるかのデモをお見せします。
スタックの最後の部分は、ツールとオーケストレーションです。私はこれらを同じカテゴリーにまとめています。Langchainが最初に発表した3つの機能がこれらだったのは偶然ではありません。これらは最終的にすべてのエージェントが必要とする機能です。
まず一つ目は、E2Bのようなサンドボックス環境のコードインタープリターで、LLMが実行できない決定論的なものを実行します。二つ目は、インターネットを閲覧して結果を検索し、コンピュータを使用して読み取るブラウザコントロールです。最後に、外部環境を観察して反応するサイクルを行うself-askまたはreactループがあります。
これらは、MicrosoftのMagentic（チェックすることを強くお勧めします）や、OpenAIが密接に協力しているCognition（私のカンファレンスでその仕様について講演がありました）など、すべてのエージェントシステムの基本的な構成要素となっています。興味のある方は、これらの講演をすべてチェックすることをお勧めします。
最後に、これは私のブレークダウンスライドです。ここで私が説明したのは、エージェントを構築する際に必要となることが知られているスタックの部分です。AIエンジニアにとってのメタな教訓は、能力の精神的な地図を持つことです。モデルの能力が向上するたびに、それらの機能を活用して最先端のエージェントを構築する機会が生まれるからです。今日のデモでそれをお見せしたいと思います。
私はアイアンマンのシーン、彼がコンピュータと会話しながら直接作業対象を操作しているシーンにとても感銘を受けています。コーディングの多くは直接操作に近づくべきだと考えています。それをお見せしたいと思います。
私は空き時間にこれを少しハックしてみました。bolt.newというオープンソースのテキストプロンプトからアプリを作成するツールのフォークを使って、スペースインベーダーゲームを作ってみましょう。これは標準的なbolt.newの機能です。「ファストペースのスペースインベーダーゲームを作成」という非常に短いプロンプトに基づいています。ちなみに、今日はGPT-4oのバージョンを使用しています。GPT-4oの日次バージョンがあれば良いのですが。
そうですね、かなり decent なアプリを作成しますが、実際のスペースインベーダーとはあまり似ていません。そこで二つ目として、最初のエージェントと対話する第二のエージェントを追加します。私は音声にとても関心があるので、音声を使用します。
「スペースインベーダーゲームがありますが、エイリアンが波状に来ていません。波状に来て、段階的に降下してほしいのですが、それは可能ですか？」
コード生成AIに頼んでみましたが、私が望むコーディング方法は、ゲームをプレイして、気に入らない点を指摘し、それをバックグラウンドで処理させることです。はい、修正されました。かなりクールですね。
でも、まだ十分に魅力的ではありません。私はドーパミンが欲しいので、エイリアンが倒されるたびに特別なボーナス、何かパワーアップ機能を落としてほしいです。また、宇宙らしい雰囲気を出すために、背景にきらめく星を追加してはどうでしょうか。最後に、エイリアンをもっとエイリアンらしく見せるためにエイリアン絵文字を使用し、宇宙船をもっと宇宙船らしく見せることはできますか？
素晴らしい。3つのプロンプトを一度に出しましたが、プランニング段階を持つエージェントを使用すれば、それらを分割して段階的に管理することができます。これが私たちがここでやっていることです。ソースコードを公開する許可は得ていませんが、視覚的なアップグレードだと考えてください。パワーアップは気に入りました。とてもクールですね。
この人間とAIのコラボレーションは本当に強力だと思います。ちなみに、会場からの提案はありますか？これはライブデモなので、参加していただけます。
「エイリアンに反撃させて、私が負ける可能性を作ることはできますか？」
機能を声で呼び出せるのが大好きです。私がやっているのは、ただゲームのQAをして – レーザーを避けてください。準備はいいですか？ああ、負けてしまいました。
はい、以上です。とても楽しかったです。ありがとうございます。ちなみに、このデモはオープンです。また、Laten spaceニュースレターでは、リアルタイムAPIの構築から得た知見もすべて公開する予定です。私たちはそれをOpenAIリアルタイムAPIの「失われたマニュアル」と呼んでいます。これが私が取り組んでいたものです。
全体的な教訓は、エージェントスタックの基本的な理解があれば、これほど多くのものを構築できるということです。ソフトウェアエンジニアの皆さんは、PhD レベルの研究者である必要はありません。シンガポールには、これらの基盤モデルを使って開発する皆さんの中に、どれほどの可能性があるか、そしてOpenAIが皆さんをどれほど重視しているか – サンフランシスコチームを飛行機でここまで派遣して皆さんと話をするほど – ということが、まだ十分に認識されていないと思います。この機会を活かしていただき、私たち全員でシンガポールをAIエンジニアリング国家に変えていきましょう。ありがとうございました。