「o1があれば、どんなアプリでもコーディングできる – ただ見ているだけだ」 – ピエトロ・スキラーノ

15,253 文字

“With o1 you can code any app, just watch” - Pietro Schirano

Get a personalized AI analysis of your job and career: twitter: engineer:

実はな、ワイはGPT-4でポンゲームを作った最初の人間やったんよ。そんでo1が出てきてん。これはめっちゃ凄いやん思うたけど、何ができるかを見せるんが難しくなってきたんや。でも今では、o1の能力を示すためにアプリを作ってるんよ。
これはピエトロや。AIを使って何でも作れる人なんや。ゲームからアプリ、スタートアップまでな。このポッドキャストでは、OpenAIの新しいo1モデルについて話すで。後半ではピエトロがo1をプログラミングエージェントとしてどう使ってるか見せてくれるわ。
これはデイビッド・アンドレのポッドキャストや。楽しんでや。
先週、OpenAIがo1をリリースしたんや。GPT-4以来の大型モデルやな。o1についてどう思う?
実はめっちゃワクワクしとんねん。GPT-3の時代に戻った感じやわ。誰もこれが何なのか分からへんかってんけど、o1はほかのモデルとは違うんや。「推論LLM」って呼ばれるもんの一つなんよ。基本的に内部で思考連鎖を持つLLMってことや。
例えばClaudeはこれめっちゃ得意やけど、o1との違いは、思考連鎖で学習してるってことなんや。モデルが内部で思考連鎖を理解しとるんよ。単に指示されたことをするんとは違うんや。
もう一つの違いは、思考連鎖を理解してるから、自分の間違いに気付いて修正できるってことや。時々こんなこと言うんよ。「これをしてる」「次にこれをしてる」って。そんで「あ、やっぱりこっちの方がええアプローチかもしれん」って。今までの「普通の」LLMじゃできへんかったことやな。だからめっちゃワクワクするんよ。
おっしゃる通り、OpenAIをディスるのは簡単やけど、これは本当にええモデルやわ。使うんは少し難しいかもしれんけど、今のところめっちゃええモデルや。
そやな。これは「LLMが考える時代」の始まりやと思うわ。今は数秒か数分やけど、タスクの複雑さによっては数時間、数週間、数ヶ月になるかもしれへん。例えば、Perplexityを使ったo1が1週間研究するとか、そんなんできたらめっちゃすごいやろ?
そうやな。実はこのことめっちゃ考えとってん。これからまた新しい1兆ドル企業が生まれるんちゃうかな。
面白いのは、しばらくの間LLMは停滞してたんよ。NVIDIAとかGPUプロバイダーの株価が下がると思われとった。トレーニングが安くなるからな。でも今や、トレーニングはめっちゃ安くなってきてて、実際の計算にお金がかかるようになってきとるんや。
例えば、がん研究施設とか製薬会社が、6ヶ月か8ヶ月かけて1000万ドル使って質問を走らせるかもしれへん。これめっちゃワクワクするわ。
面白いのは、スタートアップのコンピューターを思い出すんよ。50年60年前に戻ると、あの巨大な機械があって、部屋全体を占領してたやろ?質問をして、何時間も待って答えを得るみたいな。それは、モデルがアルゴリズムに従って、カードをパンチしてビットを計算して、あれこれしてたからや。
今また似たような時代に戻ってきとるんやけど、今度は知能を伴ってな。めっちゃワクワクするわ。良いことがたくさん出てくると思うで。もちろんめっちゃ高いけど、それも解決していくと思うわ。
それは面白い思考実験になるな。今すぐに解決する価値がない問題ってどんなんやろ?リソースをAIに注ぎ込んで、がんやアルツハイマーをAIに解決させるみたいな。
そうそう。面白いのは、この前ツイートしたんやけど、モデルが賢くなればなるほど、何ができるかを示すのが難しくなるってことや。スネークゲームとかポンゲームを作れる数には限りがあるからな。
みんなに言いたいのは、とりあえず全部にClaudeを使えってことや。でも、本当に集中的な研究とか、数学の問題とか医学の問題に取り組んでるなら、計画にはo1プレビューを使って、メインのタスクにはClaudeを使うってのがええと思うわ。
基本的に、モデルが何ができるか示すのがどんどん難しくなってきとるんや。
ところで、9月限定の特別オファーをやっとるんよ。今月中に参加したら、あんたのキャリアや仕事の個人分析をしたるわ。AIに取って代わられるリスクがあるかとか、どうやってスキルアップできるかとかな。
AIの最先端におる賢い人らと繋がりたいんなら、ニューソサエティに参加してな。AIに関する独占トレーニングやワークショップもあるで。AIで稼ぐ方法とかエージェントの作り方も教えたるわ。AIは誰も待ってくれへんからな。下のリンクをクリックして今すぐ参加してや。
ワイも同感やわ。90%か95%くらいの質問は普通のLLMに投げたらええと思う。ほとんどの質問は高度な推論プロセスは必要ないからな。でも、もっと複雑なタスクで、もっと多くのコンテキストや指示が必要な場合は、o1かo1ミニの方がずっと性能ええわ。
ええ質問やな。ワイが気づいたんは、コーディングにこれら全部使っとるってことや。コーディングは常にワイのメインやからな。o1は計画に使って、それからClaudeかo1でコーディングするんや。実際にいくつか例を見せられるわ。
o1に何かをコーディングしてくれって頼んでも、o1はClaudeほどクリエイティブじゃないんよ。例えば、ワイがよくやるデモの一つに、全てのLLMに神シミュレーションを作ってもらうってのがあるんや。基本的に、全ての絵文字を引っ張ってきて、地震やハリケーン、水とかの制御ができるゲームを作るんや。天気をコントロールできるわけや。
ちっちゃなシミュレーションで、絵文字が動いて、選んだものに基づいて人口が増えたり減ったりするんよ。Claudeにウェブアプリとして作ってくれって頼むと、すぐに絵文字を使うし、色も使うんや。頼んでなくてもな。例えば、メタライトでも実際に使うわ。Claudeはその知識を使って何かを作る「創造性」みたいなんを持っとるんや。
o1はめっちゃ厳密なんよ。アプリの骨組みは作るけど、あんまりクリエイティブにはならへんのや。コーディングで気づいたもう一つのことは、例えばワイがよくやるのは、APIを取ってきて、「これはOpenAIのAPI関数呼び出しの使い方や」ってClaudeに言うんや。Claudeは99.9%の確率でそれをやってくれる。
でも気づいたのは、o1系のモデルはめっちゃ意見がはっきりしとるんや。OpenAIのやり方を教えても、「いや違う、OpenAIの呼び出し方はこうや」って言うんよ。知識が2021年9月20日で止まっとるからな。古いやり方を出してくるんや。でもそれはもう動かへん。APIが更新されとるからな。
だからそういうのはClaudeの方がまだ上手くできるんやけど、計画立てとコーディングの組み合わせはo1の方がええと思う。
それと、もう一つ大事なことがあるんやけど、OpenAIがなんでもっとはっきり言わへんかったんか分からんのやけど、o1はo1プレビューより優れとるんや。o1プレビューは今後出る大型モデルのチェックポイントやけど、o1ミニは大型モデルをコーディングとSTEM関連のタスクに特化させて刈り込んだバージョンなんや。
名前がo1ミニやから小さいモデルやと思われがちやけど、実際はもっとええモデルなんや。いくつかのベンチマークではo1プレビューよりもプログラミングと数学で性能がええんよ。
将来的には、例えばCursorの中でo1ミニの方がo1よりも使われるようになるかもしれんな。o1は高くて制限も厳しいやろうし。GPT-4ミニがAIエージェントに多く使われるようになるかもしれんし。安くて効果的で、性能は85%くらい出るからな。OpenAIはそういう将来を見据えとるんかもしれんな。
そうやな。面白いパターンが出てきとると思うわ。これらのモデルを人間みたいに使い始めるんちゃうかな。例えば、Google Geminiがクリエイティブな文章を書くのがめっちゃ上手くなったとするやろ。そしたら「創造的な文章を書くんやったらGeminiを使う」「化学はClaudeや」「コーディングはo1や」みたいな感じになるかもしれんな。
モデルが進化するにつれて、こういうLLMの専門化みたいなんがどんどん強くなっていくと思うわ。全てのことを上手くこなすモデルを訓練するのはめっちゃ難しいからな。o1を見ても分かるやろ。コーディングはめっちゃ上手いけど、他のことはそうでもないやん。
その通りや。いろんなモデルがあって、それぞれ得意分野が違うようになると思うわ。だからこそ、みんなもっと自分で試してみるべきやと思うんや。全部のモデルを自分のユースケースで試してみんとあかん。ビデオを見てるだけじゃあかんで。
今でさえ混乱してるのに、2年後にはもっとたくさんのプレイヤーが出てきて、会社ごとに違うモデルがあって、同じモデルでも違うチェックポイントがあって、それぞれ得意なことが違うかもしれんのやで。以前にもそういうことがあったし、また起こると思うわ。だから自分で全部試してみるのが大事なんや。
ワイはCGPTだけを使うんじゃなくて、いろんなモデルを使うべきやと強く思うわ。Claudeはめっちゃすごいプレイヤーやし、Mistralもすごいし、Geminiもコンテキストウィンドウがでかくてすごいやろ。それぞれの会社に違う利点があるんや。
o1について具体的に聞きたいんやけど、プロンプトエンジニアリングが違うって投稿してたよな。標準的なモデルと推論モデルでどう違うんや?
そうやな、気づいたんが、o1には認知プロセスみたいなんがあるんや。物事について考えるんやけど、時々その考えを見てると「ワイやったらこうはせえへんな」って思うことがあるんよ。
「なんでこっちの方向に行くんや?」とか「なんでこんなに大規模にするんや? もっと焦点を絞ればええやん」とか「なんでこんなに焦点絞るんや? もうちょい広げたらええやん」とかな。
ワイが要約できるのは、昔は結果を操作することやったんや。確率的な特徴があって、ランダム性みたいなもんがあったからな。でも今は思考を操作することになったんや。
だからこそ、みんなに「思考をもっとうまくコントロールできるようになった」って伝えようとしたんや。昔はGPT-4やClaudeに「ステップバイステップで考えてや」「これをして、次にこれをして」って言うてたけど、見た目はそうしてるように見えても、実際にはそうしてへんかったんや。
でも今回初めて、機械の思考を実際にコントロールできるようになったんや。機械がどう考えるかを形作ることができるんや。
もう一つ気づいたのは、反論も求めた方がええってことや。例えば「ゼロカロリーゲータレードを飲むメリットは何や?」って聞くだけやなくて、「普通のゲータレードの方がええ点は何や?」って聞くんや。そうすると、もっとええ回答が得られるんや。
面白いことに、人間みたいなもんなんや。例えば、道で誰かに「なんでプレイステーション5を買うべきなん?」って聞いたら、「知らんわ、何やそんな質問」って言われるやろ。でも「プレイステーション5とニンテンドースイッチ、どっち買うべきや?」って聞いたら、「ニンテンドースイッチはええけど、古いコンソールやからグラフィックがそんなにええわけやない」みたいな回答が返ってくるかもしれんな。
つまり、機械の思考を形作ることが大事なんや。
もう一つ気づいたのは、仮説的なシナリオを与えるとめっちゃうまくいくってことや。「会社用のビジネスダッシュボードを作りたい」って言うんじゃなくて、「5人のユーザーがこんな風にアプリを使うんや。デザインはどんな感じになる? どんなもんが必要や?」みたいな感じで聞くんや。そうすると、モデルの論理的な部分をもっと活性化させることができるんや。
プロンプトを作るのはめっちゃ難しいで。モデルが良くなればなるほど、プロンプトは簡単になると思うかもしれんけど、実際はもっと難しくなってるんや。今やこれらの力を本当に引き出せるようになったからな。だからこそ、今のうちに勉強して吸収しておかないとあかんのや。そうすれば、モデルがもっと良くなった時に、もっと活用できるようになるんや。
そうやな。この分野に6ヶ月、12ヶ月、18ヶ月、あるいはもっと長くいる人らは、ゼロからプロンプトエンジニアリングの基本を学ぶ苦労を忘れがちやな。言うた通り、画像、動画、LLM、そして今や推論モデルでも全然違うんや。
でも、GPT-3が出てきてから少なくとも2年間はプロンプトエンジニアリングの基礎を学んできたんやからな。でも、普通の人はまだプロンプトエンジニアリングについて何も知らへんのや。
ワイの経験から言うと、普通の人はAIモデルとGoogleみたいに接するんや。ただプロンプトを入力するだけで、「近くの食べ物」とか「何々」みたいな、めっちゃ下手なプロンプトを使うんや。そんなんじゃ、ええ結果は出えへんわな。
でもな、初めてo1は間違った方向に進んでも自分で修正できるモデルやと思うんや。今までのモデルは全部ゼロショットで、最初の試みで全部やろうとしてたからな。一度トークンを生成し始めたら、それが正しくない方向やったら、そのプロンプトではもうダメやったんや。
でもo1は推論プロセスを持ってるから、こういう問題の一部を解決できるんやと思う。でも、言うたように、最初のプロンプトがもっと重要になってきとるんや。
以前のモデルやったら、一つのプロンプトを出して、それから別のを出して、チャットの上に積み重ねていけたんや。でもo1の場合、ワイの経験では限られてるけど、最初に提供するコンテキストの量がめっちゃ重要になってきとるんや。
1文か2文しか与えへんかったら、ワイの経験では5秒くらいしか考えへんで、そこそこの回答しか返ってこーへんのや。でも、もっと詳細を与えたら、ちゃんと関係ある情報やとして、もっと長く考えて、もっとええ回答が返ってくるんや。
だから、最初のプロンプトにめっちゃ時間をかけることが大事なんや。もちろん、初心者には何を言うたらええか分からへんやろうけどな。でも、持ってる関連情報を全部与えたら、もっとええ回答が得られるんや。
その通りや。質問の重みがめっちゃ増してきとるんやな。これらの機械に与える情報の力を理解することが大事やで。
実用的な応用例として、これが初めて、プログラマーじゃない人でも小規模から中規模のフリーランスプロジェクトを完遂できるようになったんちゃうかな思うんや。
今すぐUpworkやFiverrに行って、小規模プロジェクトのサービスを提供できるんや。o1を使えば、ほとんどの人はまだこれらのツールの存在すら知らへんし、知っとる人でもその力を理解してへんからな。だから、プログラムをインストールして指示に従える限り、今のところ小規模から中規模のプロジェクトはほとんど誰でも作れるんやないかな。
プログラマーの話に戻るけど、o1の出力の最大トークン数は65,000トークンやねん。これめっちゃ多いで。o1プレビューはその半分くらいの32,000トークンくらいやけど。だから、ええ質問をするのが大事なんや。一発で小説を書いてもらえるかもしれんからな。
そうやな。みんなまだそのことをよく理解してへんと思うわ。例えばUpworkやFiverrからリクエスト全部取ってきて、そのままぶち込んだら、25個くらいのファイルを出力してくれるかもしれんのや。
だからこそ、ワイはこの計画と実行の組み合わせをめっちゃ楽しんでるんや。計画の部分がめっちゃええから、実行の部分でも最大限活用できるんよ。
次はどんなことをしようと思ってるん? Ever Artに集中して、こういうクールなコーディングプロジェクトをサイドでやっていくんか?
そうやな、面白いのは、こういうプロジェクトの多くが、結局Everで作るものに影響を与えるんよ。例えば、Everでは画像モデルのトレーニングプラットフォームを持ってるんやけど、今や最高の技術を持ってると自信持って言えるわ。
カップとかの物体をトレーニングして、どんなシナリオでもその物体を作れるんや。今ビデオも追加したんやで。これ見てくれへん? めっちゃすごいで。Ever Artで今、AI品質のビデオができるようになったんや。アップロードした画像や作成した画像から、高品質なビデオを作れるんよ。
これ、広告業界で革命起こすと思うわ。写真家やスタジオ、モデルを雇って旅費払うのがどれだけ高いか考えてみ。今や誰でも1つのモデルで全部できるんや。
これは特に年間売上100万から500万ドルくらいの会社にめっちゃ役立つと思う。AppleとかNikeみたいな大企業はもう別やけどな。
例えば、これはカサミゴスのテキーラボトルでトレーニングしたモデルや。これFlux Oneを使ってるん?
そうや、ウチの改良版パイプラインでな。でもな、トレーニングデータ見てみ。モデルに入れたのは、カサミゴスの高品質な画像20枚くらいやで。
そんで「ボトルを持ったクマ」って言うたら、そんなんができるんや。「氷の洞窟の中のボトル」って言うてもできる。
面白いのは、アートの場合、細かいこと言わんでもええんや。「テキストがこんな感じで、照明がこんな感じのカサミゴスのボトル」みたいに言わんでもええんよ。モデルがイメージング部分とその物体についてめっちゃ学習しとるから、シンプルな説明でも大丈夫なんや。
ほら見て、「氷の洞窟の中のカサミゴスボトルの美しい写真」や。これめっちゃすごいやろ。
現実世界でこんなん作ろう思たら、どれだけ大変か考えてみ? 今この発想が浮かんだとして、まず氷山探して、そこまでカメラマン飛ばさなあかんねんで。めっちゃ大変やろ?
「アラスカでボトルを持ったシロクマ」とか言うてもできるんや。それに「アイデアくれ」っていう機能もあって、プロンプトを改善してくれるんよ。これめっちゃクールやで。
5つくらいアイデアくれるんやけど、これってプロンプトを作るのが難しいってことに戻るな。これどのLLM使ってるん?
これ全部Geminiやで。めっちゃすごいやろ?
せや、これめっちゃすごいわ。で、これをビデオに変換できるんや。「ビデオ生成して」って言うたら…
あ、これも好きやわ。これもビデオに変換してみるわ。
AIに本気で取り組むつもりなら、ニューソサエティに参加するべきやで。中ではAIエージェントの作り方やAIで稼ぐ方法が学べるんや。下のリンクをクリックして今すぐ参加してな。
みんな、これの力を過小評価しとるわ。だって、写真じゃ作れへんようなもんが作れるんやで。Facebookやインスタでスクロールしてる人の目を引くようなもんができるんや。
そうそう、まさにそれや。クライアントらがよく言うのは、「サファリをテーマにした写真撮影をしたいんやけど」って。でも考えてみ。そのジャケット着てサファリに行って写真撮影するのにいくらかかると思う? 何十万ドルやで。
でも今や、ジャケットでトレーニングして、モデルをそのシナリオに置くだけでええんや。めっちゃすごいやろ。
これなんか、カサミゴステキーラのボトルやけど… テキストに何か特別なことしてるん? それともFluxのデフォルトなん?
いや、テキストに関してはめっちゃクレイジーなことしてるんやけど…
あ、それは企業秘密なんか。
そうや、企業秘密やな。でもベースはFluxを使ってるんや。Fluxをベースモデルとして使って、その上にウチのあれこれを乗っけてるんや。
でも、LMも最近リリースしたんよ。いろんな機能があるから、みんなに見せたいと思ってな。Ever Artの動画一本作らなあかんな。Ever Artのこと、ちゃんと紹介できてへんかったわ。
知ってるで。めっちゃええやん。これ見てみ。めっちゃすごいやろ。
どのビデオモデル使ってるん?
これ、いろんなもんを混ぜ合わせたやつなんや。
そうか、ミックスなんや。
せやな。ごめん、企業秘密漏らすわけにはいかんからな。いろんなもんをミックスしてるんや。問題ないで。ごめん、そんなん聞いてもうて。
いやいや、全然ええんよ。普通に聞きたくなる質問やと思う。ただ、いろんなもんをミックスしてるんや。
これめっちゃすごいな。
せやろ。これからもっとよくなるで。6ヶ月後、12ヶ月後を想像してみ。完璧になるで。
Ever Artはめっちゃすごいわ。本当におすすめや。何でもトレーニングできるんや。美的感覚、スタイル、物体、服、ボトル、ブランド、顔、テキストなんでもいけるで。
テキストもアップロードできるんや。フォントとかロゴとか、好きなフォントをアップロードして、タイプするだけでそのスタイルが出てくるんよ。これめっちゃクールやで。
Ever Artにとって、Fluxってどれくらい大きかったん?
面白い質問やな。Ever Artは今月で11ヶ月目を迎えるんやけど、ワイはこの分野めっちゃ早くから取り組んでたんよ。本当に大規模なファインチューニングを最初にやった会社の一つやったんや。
もちろん、ベースにはStable Diffusion XLを使ってて、かなりええ結果が出てたんや。特にスタイルに関してはほぼ解決してたけど、物体はまだ複雑やった。
でも、頑張って続けて、ファインチューニングについてめっちゃ理解を深めたんや。何が効果あるか、何が効果ないかとかな。Fluxが市場に出てきた時、ウチはその品質を活かす準備ができてたんや。
Fluxについて全部分かってたんよ。ファインチューニングについて知ってたことは、全部Fluxにも適用できたんや。これが一番ええ部分やった。
以前のポッドキャストでも話したけど、インテリジェンスのために作るんやなくて、とにかく最高のツールを作って、それの使い方を学ぶんや。そしたら、もっとええモデルが出てきた時に、すぐに切り替えられるんよ。
Fluxはウチにとって大きな出来事やったな。今や品質がめっちゃ印象的になったやろ。
面白いのは、今や Ever Art がやってることをまねしようとする会社が10個くらいあるんやけど、みんな違うやり方でやっとるんや。競争を批判するつもりはないで。競争はええことやと思う。でもウチはこれを長いことやってきたからな。
例えば、データライブラリーみたいなんがあるんや。基本的にはこのAIの中のDropboxみたいなもんで、そこに資料をポンと入れられるんや。UIもめっちゃ使いやすいし、データライブラリーもあるし、モデルもあるし、大きなクライアント用のAPIもあるし、チームアカウントもあるんよ。めっちゃクールやで。
Fluxが出た時、いつものようにすぐに取りかかって、o1エンジニアってプロジェクトを作ったんやろ? それがどう動くのか、アイデアは何やったのか見せてくれへん?
ほな、これ見せたるわ。これめっちゃクールなんやけど、o1の面白いところは、システムプロンプトをサポートしてへんことなんや。関数呼び出しもサポートしてへん。
アプリケーション作る時に一番大事な2つのもんがないわけやな。でも、これらをフェイクできるんやで。どうやってフェイクしたか、どうやってo1エンジニアを作ったか見せたるわ。
まず、普通にチャットすると普通に動くんや。「こんにちは」って言うたら… もちろんこれは無駄やけどな。考えて、「こんにちは、今日はどないですか」って返してくる。
ここで見えるのが、PRに410トークン使って、レスポンスに320トークン使って、合計と、かかった金額やな。
これ、あんたが書いたシステムプロンプトも含まれとるんか?
そうや、基本的にな… 詳細は後で説明するわ。
今度は「Pythonでスネークゲームをコードして」って言うてみるわ。
そしたら、関数呼び出しをフェイクするんや。コードの質問をしたら、JSONファイルだけを返すようにしとるんや。そのJSONファイルを解析して… ほら見て、snake.pyを作ったで。
コンソールでスネークゲームを作ったんや。Pygameは使わずにな。こんなの見たことなかったわ。シンボル文字を使ってるんや。
もうちょい面白くしてみよか。基本的に、プリプロンプトがあって、「コードファイルを提供する時はこうしてや。JSONファイルを提供して、こういう構造にしてや」って言うてるんや。
例えば、「歴史についての3つのテキストファイルがあるフォルダを作って」って言うたら… ほら、できたで。historyフォルダを作って、その中に「古代史」「中世」「現代史」の3つのファイルを作ったんや。面白くなってくるのは、ここからやな。気づいたんやけど、最初に計画を立てた方がもっとパワフルになるんや。だから、「planning」って打ち込むと、別のプリプロンプトを送るようにしてるんや。
「我々はAI計画アシスタントです。ユーザーのリクエストに基づいて詳細な計画を作成するのがあなたの仕事です。目標を達成するための包括的な戦略を提供してください」みたいなことを言うてるんや。つまり、目標を解決するんじゃなくて、計画を立てるように頼んでるわけや。
ほな、「3つの異なる場所の天気を表示するFlaskアプリを作って」って言うてみるわ。
そしたら、めっちゃ詳細な計画を作ってくれて、ユーザーがその計画を使いたいかどうか聞くんや。「はい」って言うたら、別のo1ミニのインスタンスに行って、そこでファイルを作るんや。
ほら見て、めっちゃ詳しい指示くれたやろ? これめっちゃすごいで。普通のLLMの出力と比べてめっちゃ長いやん。
ワイの計画指示もかなり詳細やからな。バックエンド、フロントエンド、バージョン管理、デプロイの方法、APIリンク、構造、全部書いてくれてるんや。
ここでのアイデアは、このファイルを取って、それを基に作っていくことやな。
主な観察点は3つあるな。1つ目は、あんたがやった方法でシステムプロンプトを設定できるってこと。2つ目は、JSONの出力を指定することで、基本的に関数呼び出しを追加したってこと。3つ目は、CGPTからコピペする必要なく、Cursor内で直接ファイルやコードにアクセスできるってことやな。
その通りや。実はo1の機能をCloud Engineerにも持ってきたんや。これめっちゃクールで、Cloud EngineerでA1を使ってるんや。めっちゃすごいやろ?
Cloud Engineerを知っとる人なら分かると思うけど、めっちゃパワフルなクリックコマンドアクションで、いろんなことができるんや。
例えば、もう一度「podcasttestっていうフォルダに、3つの場所の天気を表示するウェブアプリを作って。CSS、JS、HTMLを作ってな」って言うてみるわ。
Cloudには関数呼び出しがあるから、まずフォルダ構造を作るんや。Cloudはこの決定を複数の方法で分解できるからな。
ほら見て、podcasttestフォルダができたやろ。次は「ファイルを作るで」って言うてくる。「自動モードにして」って言うこともできるんや。そしたら確認せんでも勝手に進めてくれるんよ。
Cloud Engineerのええところは、複数のファイルを同時に作れることなんや。o1エンジニアもそうすべきやったんやけど、関数呼び出しがないから少し難しくなるんやな。
ほんで、「ファイル作って、コード書いて、質問に答えるのはかなりええ仕事してるな」って思うかもしれんけど、ワイはさらにo1で計画を立てる機能も追加したいと思ったんや。
これはさっき言うたみたいに、それぞれのモデルが得意なことに使うってことやな。これが一番ええ結果出ると思うわ。
ほな、「音声ファイルをアップロードして、ブラウザでアニメーションを可視化できるウェブアプリを作って」って言うてみるわ。
そしたら、OpenAI Maiが計画を立ててくれるんや。んで、Cloud Engineerにその計画を実行してもらえるんや。
これが立てた計画や。「プロジェクト概要作って、関数作って…」って言うてるな。「Cloud Engineerにこれやらせたいか?」って聞かれるから、「うん、やってほしい」って答えるんや。
みんな、これがどれだけすごいか分かってへんと思うわ。この計画を手動で作ろうと思たら、少なくとも丸一日かかるで。でもLLMを使えば30秒くらいでできるんやで。
見てみ、めっちゃたくさんフォルダ作ったやろ? めっちゃすごいわ。
「audio_vis_app」って名前やな。これだけのフォルダができたで。ほな、「自動モードで」って言うてみるわ。ちょっと時間かかるかもしれんけどな。
あ、昨日面白いこと発見したんやけど、あんたも知っとった方がええかもしれん。「計画に従って続けて」って言うたら、シェルコマンドも追加したんや。
今、Reactアプリを作ってるんやけど、Cloud Engineerはこれを正しく実行するにはReactアプリが必要やって理解したんや。だからそのフォルダに行って、シェルコマンドを実行してるんや。めっちゃすごいやろ?
これがどれだけすごいか見てほしいわ。ワイやったらこんなにうまく計画立てられへんし、こんな速くできへんわ。これが計画立てるLLMと実際にコードを作れるものを組み合わせる力やねん。めっちゃクールやろ?
もっと早く見せるために、もうちょっと簡単な例でやってみるわ。「音声をアップロードして、アプリでアニメーションを可視化できるFlaskアプリを作って。一番ええライブラリを使ってな」って言うてみるわ。
ここで経験が物を言うんや。どのライブラリがうまく動くか、どれがあかんか知ってるし、プロジェクトがどれくらい複雑になるべきかも分かるからな。時々モデルは自慢したがって、めっちゃ高度なもん作ろうとするけど、そうするとすぐに手に負えんようになって、エラーがどこにあるか分からんようになるんや。だから、最初は簡単なもんを作る方がええ時もあるんよ。
その通りや。計画立ててくれたな。一つ気をつけなあかんのは、今シェルコマンドも使えるようになったから、時々いろいろインストールしようとするんや。ワイもまだこの二つの相互作用をあんまりテストしてへんから、ちょっと様子見なあかんかもしれん。Cloud Engineerに「今回はなんもインストールせんでええで」って言うた方がええかもしれんな。
これ「audio_visualizer」って名前やな。これならなんもインストールせんはずや。
ほな、「自動モードで計画に従って続けて。でも、シェルコマンドツールやコード実行ツールは使わんでな。ただ計画を完了させてくれ」って言うてみるわ。Cloud Engineerは賢いから、「Flaskアプリ作ったで。このライブラリはインストールされてへんけど」って言うてくれるはずや。でもこのデモのために、そこまでせんでもええわ。時間かかりすぎるからな。
ほら見て、かなり詳細な計画ができたやろ。時々コードも提供してくれるんやけど、これめっちゃええんや。Cloud Engineerの出発点としてめっちゃええし、ワイが書くよりずっとマシやからな。
ファイル作ったで。visualizer.pyも作ったし、app.pyも… おお、すごいな。全部のファイル作ってもうたわ。これがCloud Engineerの得意なところやな。o1を使ってコーディングファイルを作るんじゃなくて、ここはClaudeを使うべきなんや。
見とる人のために言うとくけど、o1ミニは計画だけ立てて、実際のコーディングはClaude 3.5 Sonnetがやったんやで。
今はテンプレートも作っとるわ。これはアップロード用で、これは可視化用やな。
11個のラボを言うたら、Jarvisみたいにしゃべるはずや。
「こんにちは、Claudeです。ソフトウェア開発や様々なタスクを専門とするAIアシスタントです。今日はどのようなお手伝いができますか? 特定のプロジェクトやコーディングタスクについて助けが必要ですか?」
これクールやな。音声モードにもできるんや。まず音声モードにして、それからJarvisみたいにしゃべらせることができるんよ。
例えば、「このPymファイルとこれが必要や」って言うてみるわ。
音声でのやり取りは、めっちゃ新しい使い方を生み出すと思うわ。オフィスにおるみたいな感じやな。左に一人、右に一人、女性が一人、男性が一人みたいな。一人は常に調査してて、もう一人はカレンダーやタスクリストを整理してて、30分くらい何かに取り組んでから「これ終わったで。次は何したらええ?」みたいに話し始めるんや。
これ、みんなが思ってるよりずっと近い未来やと思うで。
そうやな、同感や。言うた通り、音声は本当に新しいもんを生み出すと思う。結局のところ、これらのツールで大事なのは、あんたの考えと出力の間の時間やからな。考えを言葉にするのにかかる時間が少なければ少ないほどええんや。
気づいたんやけど、問題を話すだけで、タイピングするよりずっとうまくいくんや。英語はワイの母国語やないからな。実際、音声認識の方が、ワイの英語をうまく拾ってくれるんや。タイピングよりもな。考えがもっと速く飛ぶみたいな感じやな。
最後の質問やけど、自分のAIツールやAIソフトウェア、AIプロジェクトを作りたい人に、どんなアドバイスがある? 特に今までソフトウェアを作ったことない人向けに。
ワイの答えはいつも同じや。自分にとって意味があるもんを作れってことや。
例えば、Cloud EngineerやMyestro（前にあんたのポッドキャストで話したやつ）を作った時、これ本当に必要やったんや。ChatGPTやClaudeとかのアプリに行きたくなかったんや。時間かかりすぎるし、これはCursor Composerが出る前の話やからな。基本的にスクリプトの中のComposerみたいなもんやったんや。
まず、自分が本当に欲しいもんを見つけることが大事やな。ワイは「コードを入力して、AIに作ってもらって、それをスケールアップできるツールが欲しい」って思ったんや。そしたら、自分のニーズと他の人のニーズが交わるところが見つかるかもしれんのや。
例えば、数週間前にバークレー国立研究所で講演したんやけど、これオンラインでは発表してへんかったんやけどな。ここは原子爆弾が最初に理論化された場所なんや。で、Cloud Engineerについてのプレゼンをしてくれって頼まれたんや。彼らが内部でCloud Engineerを使ってコーディングしてて、いい結果が出てるらしいんや。
めっちゃすごかったで。10人の科学者の前で話したんやけど、ワイがいわゆる「エキスパート」として行ったんやけど、実際はみんなエキスパートやないんや。全てが新しすぎるからな。
今のこの瞬間の美しいところは、全てが新しすぎて、十分な時間を使えばエキスパートになれるってことなんや。昨日彼女にも言うたんやけど、今はめっちゃ面白い時代に生きてるんや。全てが新しすぎて、誰もエキスパートやないから、時間をかければエキスパートになれるんや。もっと多くの人がこのチャンスを活かすべきやと思うわ。
そうやな。数学のエキスパートになるのに10年かかるかもしれんけど、LLMや生成AIの分野は全てがめっちゃ速く進化してるからな。毎週新しいAIツールを試して、何が起こってるか注目して、全てのモデルを使ってれば、他の分野に比べてかなり簡単に最先端にいられるんや。
その通りや。面白いのは、ワイはいつもこれらを「ツール」って呼んでたんやけど、今は考えたり推論したりし始めてるから、「ツール」って呼ぶのがちょっと難しくなってきたんや。「ツール」以外の何かって呼んだ方がええんかな、って考え始めてるんや。
マジで未来に生きてる感じやわ。ポケットの中にPh.D.持ってるのに、誰も騒いでへんのがめっちゃ嬉しいし、これからのことにめっちゃワクワクしとるわ。
Ever Artについては完全に専用の動画を作らなあかんと思うわ。これ、みんなめっちゃ興奮すると思うで。一番大きな問題はUIがないことやからな。Replicateとかでモデルをトレーニングするのをまだ怖がる人おるやろ。フォームがあってもまだ技術的に見えるからな。
でもEver Artは使いやすいUIで、使うのが簡単やから、めっちゃ人気出ると思うわ。
その通りや。実際、NFTや個人用の画像、スタイルに使ってる人多いんや。収益が10万ドルに届きそうなんよ。めっちゃすごいやろ?
でも、可能性はもっとあると思うわ。全ての会社がこれ必要になると思うで。特に実際の製品がある会社は、自分たち専用のLoRAやカスタムモデルが必要になるやろうな。
おお、めっちゃ面白かったわ。
そうやな、2ヶ月に1回くらいこういう話せたらええな。
AGIに備える一番ええ方法は、AIの最先端にいる一番賢い人らに囲まれることや。それがまさにニューソサエティで見つかるもんなんや。
今月中に参加したら、あんたのキャリアや仕事の個人分析をしたるで。AIに取って代わられるかどうかと、どうやってスキルアップできるかも教えたるわ。
AIに本気で取り組むつもりなら、必ず参加してな。説明の一番上にリンクがあるで。