
8,794 文字

operatorとdeep seekのリリースにより、皆さんはOpenAIが一体何をしているのか、なぜ彼らが勝ち続けているのか疑問に思っているかもしれません。基本的なAI機能の面では大きな違いはありません。deep seek R1が証明したように、思考できるモデルを作る点でも大きな違いはないのです。それでは、OpenAIは何をして競争優位を保っているのでしょうか。
私はこのことについて考えていました。実は約2年前に気づいていたのですが、ようやく今つながりが見えてきました。2つの小さなニューロンがようやく私の脳内でつながったのです。OpenAIが他社と異なる点を説明しましょう。
まず第一に、認知的オフロードです。認知的オフロードは心理学用語ですが、産業界では主に2つの分野で見られます。歴史的に見て、認知的オフロードが重要な役割を果たしてきた分野があります。
1つ目はジェット戦闘機です。ドッグファイトでは瞬時の判断が必要で、多くのことを管理しなければなりません。ジェット戦闘機は非常に複雑な機械で、不適切な操作をすれば機体を破壊することもあります。F-22やF-35などの後期のジェット戦闘機のアビオニクスは、ビデオゲームのように行きたい方向に向けるだけで機体がそこに到達するほど賢くなっています。しかし古い機体では、スティックを激しく動かしすぎたり急激に動かしすぎたりすると機体を引き裂いてしまう可能性がありました。
その上、編隊機を把握し、ミサイルを追跡し、敵を監視するなど、様々なことを管理する必要があります。ロッキード・マーティンやマクドネル・ダグラスなど、ジェット戦闘機を製造してきた企業が発見したのは、パイロットの注意力を希少資源として扱うのが最善だということでした。
認知帯域幅を希少資源として扱うことで、例えばトップガンの映画でも見られるように、地面に向かってスパイラルしている時に「プルアップ、プルアップ」という警告が出ます。その言葉の言い方自体が、入力を最大限活用できるように設計されています。また、トップガンのいくつかのシーンでは、ロックオンした時に特定の音が鳴ります。これは注意を引くためですが、同時にパイロットが何が起きているのか考える必要がないよう、その警告は非常に正確なタイミングで調整されているのです。
もう1つの例はUnixの哲学です。Unixはコマンドラインターミナルで、非常にミニマルな出力が特徴です。UnixやLinuxユーザーなら気付いているかもしれませんが、コマンドラインやターミナルで実行したコマンドが成功した場合、出力はありません。フィードバックが必要な場合を除き、ほとんどの成功したコマンドに出力がない理由は、実行したコマンドが機能したという前提があるからです。
余計な出力で気を散らすのではなく、コマンドを受け付けて動作したということで終わりです。私も以前はCiscoのスイッチなどのプログラミングをよくやっていましたが、Unixライクなコマンドプロンプトに慣れるのが最も難しい点の1つでした。MacやWindowsに慣れている人には、タスクが正常に完了したという小さなポップアップが出るのが一般的ですが、そういったフィードバックが必要な人が多いのです。
ここでのポイントは、この種の認知的オフロード、つまり精神的な時間やエネルギーを節約する技術的な方法があるということです。
では、なぜ私たちはチャットボットを使うのでしょうか?多くの人は、チャットボットはまだそれほど賢くないと言います。しかし、Chat GPTは世界で最も訪問数の多いウェブサイトの1つです。deep seek R1もリリース直後にアプリストアで最もダウンロードされたアプリの1つとなりました。
これらのモデルが私たちより賢くないとしても(正直に言えば、これらのAIは私たちの知人の中には既に知的能力で勝っているものもいますが)、なぜ私たちは使い続けるのでしょうか?それは認知的オフロードができるからです。何らかの認知的作業を委託することができるのです。
実際、私のスライドは全てAIによってフォーマットされています。私はスライドに何を書きたいかを入力するだけで、AIがテンプレートに基づいてそのアイデアをフォーマットしてくれます。これは時間だけでなく、特に精神的エネルギーの節約になります。
AIはフォーマットや表現を担当し、言語を扱うのが得意です。多くの人間よりも適切な言葉を見つけるのが上手です。また、コンテキストスイッチングという点も重要です。
コンテキストスイッチングとは、IDEやブラウザ、その他のプログラム間を行き来する代わりに、オールインワンのワークスペースを構築することを指します。情報がここにあって、別の情報があそこにあって…というように、作業メモリを維持する必要がなくなります。全て1つの場所に集約され、チャットボットが全ての発言を追跡してくれます。ファイルがどこにあるかなども覚えておく必要がありません。
コンテキストスイッチングは認知的に非常にコストがかかります。コーディングやデータ関連のタスクは主要なユースケースの1つです。これらのチャットボットは必ずしもベテランのシニア開発者には役立たないかもしれませんが、より多くのシニア開発者が「AIを使わないのはおかしい。確かに私の方が賢いかもしれないが、これらのツールを使えば1日に10倍のコードが書ける」と言うようになってきています。
データの解析やコードで考えることは、一部の人は本当にコードで考えることができます。私も自動化エンジニアとして全盛期にはコードで考えていました。しかし、それは依然として認知的に非常に要求の高いタスクです。もし機械と自然言語でコミュニケーションができれば、脳が自然言語を扱うように調整されているため、より簡単になります。
毎日8時間それを行い、得意になっていない限り、コードやデータで表現するよりも自然言語で表現する方が簡単です。
最近では推論機能も加わっています。推論の価値を理解するのに時間がかかりました。私のような多くの人々は、推論機能のない通常のチャットボットでも大きな価値を得ているからです。しかし、R1や03が追加した思考連鎖による推論を加えると、多くの会話をチャットボットが代わりに行ってくれます。
チャットボットと交渉して話し合って正確な応答を得るよりも速くなるだけでなく、これも認知的オフロードなのです。チャットボットと会話をする代わりに、全てのコンテキストを提供して、作業を見守るだけでよくなります。これは委託の一形態で、すぐ後で詳しく説明します。
その前に、ここでの生物学的な部分について説明する必要があります。私たちがこれらのものを使う進化的な必然性は何なのでしょうか?たとえそれらが私たちより賢くなくても(正直に言えば、多くの面で既に私たちより賢いのですが)。
まず第一に、人間の脳は非常にコストがかかります。体のエネルギーの20%以上を消費します。認知的に要求の高いタスクではさらに多くのエネルギーを消費します。つまり、あなたの「脳みそ」は断然最もエネルギーを消費する器官なのです。
このリソースへの制約を軽減できることは全て良いことです。これは実際、オペレーティングシステムの目的そのものです。最も価値のあるリソース、つまりCPUの使用を最大化することです。マザーボードとは、コンピュータのCPUの使用を最大化するためのものです。あなたの脳があなたのCPUであり、少なくとも仕事の文脈では、それが最も最適化されるべきリソースです。
脳への負荷を軽減できることは全て、仕事の生産性に良い影響を与えます。また、私たちにはピークパフォーマンスの限界があります。ほとんどの人は1日に2〜4時間しか高度な認知負荷をこなすことができません。武器化された超集中力を持つ人の中には1日8〜12時間できる人もいますが、それは必ずしも持続可能ではありません。
私自身、何度かバーンアウトを経験しています。これは私が「認知的滑走路の延長」と呼んでいるものにつながります。委託できることは全て、注意力という希少なリソース、機械にはできない本当に重要なことのために認知能力という希少なリソースを温存することを意味します。
スライドのフォーマットのような単純なことでも、委託できることは全て、毎日より多くの滑走路を与えてくれます。「人間の脳は怠け者だ」と言う人もいますが、それは本当の意味での怠惰ではありません。効率を求める発見的方法なのです。簡単に言えば脳が怠け者だということですが。
それが認知バイアスを持つ理由でもあります。発見的方法は生存には十分な近道なのです。しかし、より正確に言えば、それらは通常十分ではありません。また、騙されやすくなる原因にもなり得ます。
しかし、私たちには賢く働くための進化的な必然性があるのです。なぜなら、野生では認知リソースを本当に必要な時のために温存する必要があるからです。例えば、「子供を食べる虎を追跡している」という状況では、認知リソースの100%を使い、その後疲れ切ってしまうでしょう。
このように、非常にコストのかかる器官を持ち、その器官の使用を最大化する必要がある環境で進化してきました。だからこそ私たちは近道を好み、認知的オフロードや委託を好むのです。
委託について話すと、実は人類が地球上で最も優位な種である理由がここにあります。まず知っておく必要があるのは、私たちには注意の焦点があるということです。一度に一つの場所で一つのことしかできません。目は2つ、耳は2つ、手は2つしかありません。
仮説的に脳がより大きなシステムを追跡できたとしても、一度に一つの場所にしかいられません。つまり、二つの場所に同時にいる必要がある場合は、他の誰かに、そして今ではAIやロボットにも近い将来委託する必要があります。
これが組織階層を生み出しました。政府から学校、機関、企業まで、基本的に「工場全体の運営方法は知っているが、一度に一つの場所にしかいられない。だから工場の各部分を運営する人を雇う必要がある」ということです。
これは全てのCEOが行うことであり、全ての創業者が「二つの場所に同時にいる必要がある」と言って注意を分散させるのです。これが労働の分業と専門化の理由であり、話し言葉や文字などでコミュニケーションを取る能力があるからこそ、最大限のオフロードや委託が可能になるのです。
政府もこのように機能します。理想的な世界では、政府は代理人です。投票を通じて、「私は議会に行けないが、あなたが私の代わりに議会に行ける」と言って誰かを雇うのです。これが委託であり、委託は認知的オフロードの最大の形態です。
ここまでついてきていますか?ちょっと私のリンクツリーに注目してください。リンクは説明欄にあります。これは私の全ての活動です。YouTubeチャンネル全て、Spotify、Substack、Patreon、専用のDiscordサーバーがあります。非常によくモデレートされており、皆仲良く、ポストレイバー経済から宇宙人、ニューロスパイシーまで、あらゆることについて話し合っています。
学習コミュニティもあり、成長中です。最近は通常週に2〜3のレッスンを追加しています。急速に成長していますので、ぜひ参加してください。
理論の部分は全て説明したので、OpenAIがまだ勝ち続けている理由について、具体的に説明していきましょう。
まず第一に、Chat GPTです。彼らは本当に人々の心に響き、「よし、Chat GPTだ」と。1億人のユーザーを獲得し、史上最速の製品成長を遂げました。なぜ使われたのでしょうか?彼らはテレメトリーを見て、どのような人々がChat GPTを使い、どのようなタスクに使用しているのかを分析しました。
主にコーディングとマーケティングの2つが支配的な機能でした。他にもできることはたくさんありますが、この2つが主要なもので、Chat GPTの全使用の40〜60%程度を占めていたと思います。
そこで彼らは「明らかにこれらのタスクが得意なので、他に何ができるようになるか見てみよう」と考えました。そして他の機能を追加し始めました。ツールの使用、ウェブ検索、そして今では推論機能も加わっています。
canvasやファイル解釈もあり、画像を見ることができるマルチモーダルにもなりました。解釈できる情報が増えれば増えるほど、より多くの認知的オフロードが可能になります。
operatorのようなコンピュータを使用するエージェントや、インターネットベースの研究エージェントであるdeep researchといったツールに移行していっています。これらはより多くの形の認知的オフロードを形成します。
ここで一つ指摘しておきたいのは、この時点でモデルは人々が必ずしもできないことをやっているということです。オンラインで人々をフォローしていると、その分野のトップの人々でもこれらのツールを使っています。それは単に仕事が速くなるからだけでなく、そうでなければできない仕事ができるようになるからです。
単に認知エネルギーを節約するだけでなく、人間の能力を拡張しているのです。これらのモデルが賢くなるにつれて、さらに良くなっていくでしょう。これはまだこの種のツールの第一世代であることを覚えておいてください。
年々賢くなっていかないと考えるのは非常に愚かでしょう。つまり、時間とともにより自律的になるだけでなく、より賢くなっていくということです。時間とともにより多くのことを委託できるようになるのです。
理解すべき最も重要なことの1つは、これらが基本的に一種の自動化技術だということです。これまでのデジタル自動化は、主に機械的なものでした。「もしこれならあれ」というボタンの連続でした。
しかし、このような自動化、このAI対応の自動化は認知的自動化です。これは、本当の意味での自動化を可能にする最初の種類です。単に数字をクランチングするだけではありません(それはデータベースジョブがやることです。手作業でやりたい人はいないでしょう)。
同時に、これは通常は他の人間か非常に高価な洗練された自動化エンジンにしか委託できないタスクに対する認知的委託を可能にします。しかし代わりに、これは一つのサイズで全てに適合する汎用自動化エンジンなのです。
また、好循環も生み出します。これらのモデルが賢くなるにつれて、誰がこれらを認知的オフロードに使っているのでしょうか?これらのモデルに取り組んでいる全ての研究者たちです。notebook LMからdeep researchまで、最初に使用するのはAI研究者たちでしょう。
さて、もしあなたが企業や事業のリーダー、研究者、戦略家、プロダクトオーナーなどであれば、この認知的オフロード戦略についてのコンサルティングでの私のアドバイスをお伝えしましょう。
第一に行うのは、帯域幅の高いタスクを特定することです。最も認知的な要求が高いものは何でしょうか?専門知識を必要とするものかもしれません。その場合、検索補強生成(RAG)を使用して、チャットボットに通常持っていない知識を注入できます。もちろん、今日のチャットボットは多くの情報を持っており、その多くが組み込まれています。
専門的な情報かもしれませんし、単に「これは非常に要求の高いタスクで、できるだけ毎日避けたい」というものかもしれません。私がコンサルティングした例の1つは、保険コンシェルジュでした。
アメリカの保険会社は非常に複雑で入り組んでいるため、実際に患者の代弁者が必要です。その人と話をすると、その人が保険会社と話をしてくれます。これは非常に高給の仕事です。誰と話をし、どのように話をし、何を持ってくるべきかなど、全ての詳細を知っている必要があるからです。
しかしAIはこれを本当に助けることができます。チェックリストをチェックするだけでなく、保険会社についても多くを知っているので、保険会社に電話する前の戦略を立てる手助けができます。これは数年前に行ったコンサルティングの一例です。
次にできることは、これらの認知的に要求の高いタスクを特定した後、Chat GPTのような既存のツールを特定のタスクに使用するように人々を訓練できるかどうか、認知的オフロードに取り組むツールを構築できるかどうかを検討することです。
次に、彼らは速くなるでしょう。ROIを得る方法の1つは、従業員やユーザーの時間を節約することです。時間はお金です。本当にそれだけです。
また、先ほど述べたように、認知的な滑走路を延長できます。1日に2〜4時間の良質な認知労働しか得られない代わりに、自動化と認知的オフロードの好循環を使用することで、効果的に6〜8時間以上を得ることができます。
最後に、もう1つの機会は、よりスマートなAIツールで、より低い資格の従業員がより高いレベルで働けるようになることです。パフォーマンスの下限を引き上げるのです。
一歩下がって見ると、将来の方向性は非常に明らかです。企業のリーダー、プロダクトオーナー、企業の所有者、あるいは政府の役人として、これは人類全体に影響を与えます。全ての人に影響を与えるのです。
最終的に、これらの機械にできる限り完全に委託したいと考えるでしょう。しかし、これらのエージェントを制御する人間の原則、つまり最終的に責任を持つ誰かは常に必要です。
プリンシパル・エージェント理論があり、これが企業をどのように再形成するのか、まだ理解を深めているところです。そのため、続報をお待ちください。
基本的に、ループ内の人間は、エージェントに対して法的および財政的に責任を持つ人間の経済的原則が必要です。そしてエージェントの作業は彼らに戻ります。
では、少数の人間が全てのエージェントを所有していれば、彼らが全ての利益を得ることになりますが、この将来では所有権自体があまり意味をなさないのです。これはポストレイバー経済の話になってしまいますので、話題を戻しましょう。
それは常により良く、より速く、より安く、より安全になることに帰結します。自動化が人間よりも良い結果を生み出す場合、非常に強力な事例があります。
自動化が人間よりも良ければ、それがより遅いか、より高価か、より安全でない場合を除いて、おそらく自動化にやらせるべきです。より良い結果と、より速いという点を組み合わせると(時間はお金ですから)、この自動化が価値があるという説得力のある事例になります。
これは特に推論モデルとインターネット検索を組み合わせた場合に見られる主要な点の1つです。インターネット検索と推論を組み合わせたdeep researchは、膨大な時間を節約します。
数時間を節約するという問題ではなく、数日や数週間の研究時間を節約します。数分に圧縮するのです。100倍以上の時間圧縮係数を得ています。
これは人間が1日8時間しか働けないという事実を考慮に入れていません。その場合、「これには3〜4日かかる」となりますが、その間に睡眠も必要です。しかしこれらは睡眠を必要としません。
つまり、タスクによっては100倍以上の時間圧縮係数を得ているということです。さらに、それが安価であれば…お金は一種の金本位制です。使用コストは低いのか、より速いのか、より多くのお金を稼げるのか、実際の収支はどうなのか、表計算の最終行はどうなのかということです。
結局、何かがより安価に使用できるなら、それを使用しないのは経済的に不合理です。最後に、より安全であれば、その自動化を使用する倫理的な義務があります。
これが、多くのことから人間をループから外す理由です。電話交換手からトラクターまで、これがレバーを使用する理由です。手動で行うのではなく、トラクターの部品に巻き込まれないようにするためです。
これは農業機械の自動化ですが、できるだけ人間を危険から遠ざけるという考え方です。また、将来的により良い結果を生み出す自動ロボット医師や外科医があると想像してみてください。
代替手段と比べて医療が上手くない場合に人間に医療を実践するのは非倫理的でしょう。
最後に、長期的に見ると、私たちが話しているのはファーストムーバーの優位性です。これらの種類のことに取り組み、「どこで自動化に、ロボットや機械に委託できるか」と常に探求していれば、最終的により良い状態になるでしょう。
これは企業や政府だけでなく、個人にも当てはまります。先ほど述べたように、私はスライドのフォーマットにAIを使用しています。まだ「このスライドに何を書きたいか」などをしっかりと考え、後編集も行いますが、これは私が先を行くのに役立っています。
より良いスライドが時間とエネルギーを節約してくれ、それが私の人生を改善し、他の全ての結果を改善するからです。そしてネットワーク効果により、皆さんも私の動画で見やすいスライドを見ることができるので、皆さんの役にも立っています。
そういうことです。今これらのことに取り組んでいなければ、遅れをとっているということです。ご視聴ありがとうございます。これがOpenAIが市場で支配的な地位を維持している理由です。これが彼らの中核理論であり、中核哲学なのです。
今では誰もが、認知的オフロードと認知的委託が未来の道であることを知っています。それでは、皆さん、良い1日を。
コメント