
19,785 文字
https://www.youtube.com/watch?v=fAxrBHXISXI
こんにちは、いつもチャットをご覧の皆さん。ついに彼と私でこの対談を実現することができました。私は少し前から情報発信に真剣に取り組み始め、サムネイルや投稿スケジュールなどを整えてきました。そして彼は、私が話すよりもさらに興味深いことを話してくれます。もちろん敬意を表します。YouTubeの世界には様々な人がいて、特にアメリカではハイプやマーケティング用語などに関わる人がいますが、私たち、特に彼はもっと事実に即した立場、つまりハイプを抑え、「これが起きていて面白い、これは違う、これはそうではない」という立場にいると思います。
ご招待ありがとうございます。通常は私が招かれて説明する立場ですが、今回は初めて私があなたに質問でき、お互いに説明し合える機会です。今夜の議論は誰も答えを持っていないことについてですが、それは議論を形成する必要がないということではありません。少なくとも、私たちが今夜触れるような出来事が実際に起きた時に心の準備ができるようにするためにも重要です。
その通りです。この分野に関わる人にとっては少し当たり前かもしれませんが、多くの答えは誰も知らない—これらの技術を作っている人たちでさえ知らないのです。将来の方向性についてはある程度の見通しやアイデアはありますが、これらのシステムの実際の能力は本当に謎めいているか、私の控えめな意見では曖昧にされています。
初期の頃、AIの話題が出たとき、皆が「AIが来た!」と言っていました(AIは2年前から来ていて、毎週のように来続けていることにお気づきでしょうか?YouTubeのタイトルを見れば分かります)。私は「落ち着いて、予測は推論ではない」と言っていました。これが私の決まり文句でしたが、最近の進歩は不気味なほどで、この考えを少し飲み込むことを余儀なくされています。
この「予測」は推論なのか、そうでないのか?どう思いますか?
まず、あなたが先ほど言ったことに関連して、これらのシステムを作る人たちでさえ理解していないかもしれないという点です。OpenAIがChat GPTの最初のバージョンを作った時のことが最も興味深いと思います。彼らがGPT-3を作った時、OpenAIのサイトでのベータ版アクセスを得ることができましたが、プロンプトを書いてモデルがテキストを続けるという仕組みでした。モデルのファインチューニングはなく、アシスタントとして機能するようには設計されていませんでした。
しかし、論理的な続きが回答になるようにプロンプトを巧みに書けば、ある程度応答してくれました。彼らが質問と回答を見せるファインチューニングを行った時、モデルがどのように話すか見るために—彼らは質問に対して人間のように応答するモデルが出てくるとは予想していませんでした—彼らは驚いただけでなく、論文には「英語での質問と回答でファインチューニングを行うことで、モデルが他の言語でもチャットボットとして機能することを理解できない」と書かれています。
これは彼らが火を発見した原始人のようなものです。燃料や酸化反応などの理解がなくても、彼らはChat GPTを発見したのです。完全にゼロから発明したわけではありませんが、このタイプのシステムがNLPタスクを改善するための鍵になる可能性があるという直感はあったでしょう。彼らはこのシステムと会話できることに驚いたと確信しています。
会話という機能は、実はあとから追加されたものです。基本的にモデルはテキスト生成器で、より複雑なアーキテクチャを持っていますが、基本的には次の単語を予測するだけです。会話を作り出す考え方は後から追加されたものです。
「Language Models are Few-Shot Learners」という有名な論文でも、「最高のチャットボットを発明した」とは書かれておらず、彼らを驚かせたのは、新しいことを教えるのに本当に少しの例しか必要ないということでした。ベースモデルとインストラクトモデル(会話できるモデル)の違いを明確にしましたが、興味深いのは、この2つのモデルにはアーキテクチャ上の違いがないことです。単に学習を継続しただけで、ランダムなテキストではなく、文脈から簡単に分離できる質問と回答が設定されたテキストを使用しています。
これも一種の創発的な特性です。Chain of Thoughtも同様で、現在はハイプのために注目されていますが、Claude 3.7のようなモデルを見ると、Chain of Thoughtは一時的なブームかもしれません。人間も様々な可能性を最初に探る同じプロセスを行うので、この特性はLLMの一部として残るでしょうが、GPT-4などで生成される大量のテキストが将来的にも見られるかは確信がありません。
Claude 3.7はChain of Thoughtを無効にしても3.5よりも強力であり続けています。これらのモデルはすでにゼロショットの応答がかなり強力です。Chain of Thoughtは推論の本当の特性というよりも、モデルの潜在空間にすでに存在するものを探索する機能だと思います。人間が最初に思いついたことを探索し、すべての可能性を検討した後で最も有望そうなものを試すのと同じです。モデルがある道筋を探索して有望でないと判断したら、後戻りして別の興味深い道を試すという「バックトラッキング」の操作も重要です。
予測は推論かどうかという質問については、デモクリトスや他の原子論者のようなアプローチをとる必要があると思います。私のチャンネルで投稿した動画では、モデルが次のトークンを予測するという事実自体は、推論の有無を保証するものでも制限するものでもないというパラドックスを説明しました。
箱の中に入り、トークンを与えられ、次のトークンに確率を割り当てるだけだとしても、予測という枠組みのままでも、言いたいことに基づいてトークンに確率を割り当てることができます。モデルの応答を観察すると、最初のトークンだけでは意味をなさないことが多いですし、DeepSeek V3のような複数トークンを一度に予測するモデルもあります。
デモクリトスのように、物質を観察し物理的な調査手段なしに、最終的に原子と呼ばれる微小な粒子が存在し、さまざまな種類があり、組み合わさって物質を形成すると結論づけたように、私たちもモデルのアーキテクチャよりも出力を観察すべきだと思います。
皆さん、ラマ2の死を悼んでチャットに薔薇を捧げています。
あなたが「予測は推論ではない」という考えに執着する理由はよく分かります。まず、「これらは信じられないほど革命的なオブジェクトで、すべてを変える」という世界では、私も啓発者として、また自分自身の中でも、「落ち着いて、これらをオラクルと呼ぶのはやめよう」と逆の方向に引っ張りたくなります。一般ユーザーはそのように解釈しがちなので。
「予測は推論ではない」という考えから残っているのは、AIは私たちとは異なるものだということです。物理学の最も複雑な関数を説明できるのに、単語の文字数を数えられないような誤りを犯すタイプは、認知レベルで物理の公式を説明できる人間なら「この単語に何文字あるか数えて」という簡単なタスクで間違えることはないでしょう。
知識があるユーザーは自分で調整し、批判的思考を持っていますが、一般ユーザーにとっては、目の前のオブジェクトが人間ではなく、人間としては不可解な振る舞いをすることを理解し続けることが重要です。さもなければ、他のほとんど誰も説明できないことを説明してくれるオブジェクトへの信頼度が高まりすぎて、その欠点や非効率性、人間とは違うために期待できないことを見逃してしまいます。これが「予測は推論ではない」という概念の最後の有用な防波堤です。
素晴らしい指摘です。重要なポイントがあります。GPT-3.5は単なるおもちゃで、正直言って良くなかったのに、今の熱狂が正当化されるほどのものについて語られていました。皮肉なことに、そのオブジェクトから必然的に推論できるわけではない加速が起こりました。現在の地点に到達することは全く明白ではなかったのです。
科学的には間違っていた人たちが、何もないところから正しくなったのです。例えば、私がポケットに150kgの金があると言ったら、あなたはそれが真実でないことを証明する方法はないでしょうが、おそらく信じないでしょう。しかし、もし本当に私のポケットから金が出てきたら?つまり、「見たところ、AGIが間近に迫っているとは思えない」と言ったあなたは、完全に正しかったのに、負けてしまったのです。
「2年後にAGI、3年後にAGI」と言っていた人たちが、私たちが今見ているモデルを先に見ていたというのは残念です。おそらく彼らは注目と資本を獲得するためにすべてを持ち出しているのでしょうが、彼らがそれを秘密にしているとは考えにくいです。彼らは基本的に適当なことを言っていたようですが、今や私たちは本当に驚くべき段階にあります。
以前なら「AGIは来年も50年後も同様にありえる」と言えましたが、GPT-3.5を見た後でも、さらに大きなスケールで何かが起こる可能性があり、別のアプローチが必要かもしれませんでした。しかし今起きていることを見ると、もうそのように言う気にはなれません。
私が最も心配しているのは、短期的な社会的混乱ではありません—AIは飢饉ではなく、何かを追加するものですから。社会としては対処を誤るでしょうが、それは乗り越えられる問題です。私が恐れているのは、この技術が存在的リスクの観点から制御しにくいことです。AGIや超知能に達しなくても、エージェントが機能し始めると、どうやって止めるのでしょうか?
それは非常に重要なポイントです。「予測は推論ではない」かどうかにかかわらず、それがブラウザのdivである限り、責任は100%読者やユーザーにありました。何かが嘘かどうか、興味深いか、確認する必要があるか、インスピレーションを得たかを判断するのはユーザーの責任でした。
しかし、これらのオブジェクトがエージェントになり、世界に分散して独自に活動し始めると、どのように生成されたかはもはや問題ではありません。現実世界で株を買ったり、ボタンをクリックしたり、チケットを購入したりする時点で、彼らは実質的に現実の参加者となり、パフォーマンスや安全性、封じ込めの観点から十分に研究されていないことは懸念材料です。
心配しても役に立たないかもしれませんが、私は少し警戒しています。例えばウェブサイトは、これらのエージェントの自動化と火力に対処する準備が全くできていません。最近CAPTCHAを解こうとしたことがありますか?今はとても難しくなっています。
エージェントの到来は哲学的なテーマを脇に押しやり、実際的な問題を浮き彫りにします。これらのオブジェクトが行うことの責任は誰にあるのでしょうか?将来的により洗練されたエージェントが、音声技術と組み合わせて連鎖詐欺を行うかもしれません。もはやナイジェリアの王子からの明らかな詐欺ではなく、あまりにも信じられるものになり、私たちも騙されるかもしれません。あなたの娘の声で電話がかかってきたら?
最先端のモデルを開発している大手研究所が、懸念すべき創発的特性を発見した時に、「私たちが初めてこれを手に入れた」と自慢するのではなく、立ち止まって他の研究所に連絡し、タスクフォースを設立するような共通の行動規範を持てばいいのにと思います。
私たちが話している全てのことは、ある主要な概念に帰結します:人類にとってこれほど重要なものに対して、私たちはそれを企業間競争という資本主義的な方法で扱っています。情報の面では、注目を集めるための柱として、恐怖や取り残される不安をあおるものとして扱われ、その結果出てくる情報は空虚で表面的です。
モデルがリリースされた時、それが最高のモデルであるという情報が出るだけでも良い方で、Maskはリリース前にGrok 3が他より優れていると言いました。しかし、ベンチマーク結果からGrok 3は実際に強力だったようなので、私はあまり尊敬していないMuskに半分のポイントを与えましょう。
もし安全性について話すなら、おそらくxAIは最悪の一つです。長い騒動があり、簡潔に言えば、TwitterコミュニティがMuskに関連付けられたGrokを試し始めました。Musk支持者たちは「AGIが来た!」と喜び、批判派はGrokに「誰がTwitterで最も多くの誤情報を広めているか」「アメリカで死刑に値する人は誰か」などを質問し始めました。
Grokが「Trump」と答えたことでxAIは困り、xAIの誰かが本番環境のプロンプトに「Trumpとelon muskに関連する誤情報について話すのを避ける」と直接追加したようです。別のxAI社員が「すみません、社内の誰かがプロンプトを変更しましたが、その行は削除しました」と言いました。これは正常なことに聞こえますか?このオブジェクトは、それを信じて意見を形成する人々の手にあるのです。
これは以前もChat GPTとSam Altmanで起きました。システムプロンプトにAltmanについて悪く話さないように書かれていました。システムプロンプトは常にリークする可能性があります。秘密を話してはいけない相手がいるとすれば、それはLLMです。友人に話すより危険で、LLMは秘密を保つことができません。トークンを生成することが好きなのです。
全ての企業の中で、私はAnthropicが最も好きです。彼らのCEOが話すと測定された人に見え、AGIに関する予測も2030年以降とそれほど極端ではありません。つまり実質的には明日ですが。
面白いアイデアが浮かんだので、このチャンネルで初めて話してもいいですか?プロンプトのリークが避けられない理由は、指示と反指示が同じようにトークンとして到達し、モデルには前の情報と後の情報のどちらがより信頼できるかを測る方法がないからだと思います。
訓練中に異なるトークン部分により重みを持たせ、これらのトークンはウェブインターフェースから入力できないようにするというアイデアはどうでしょう?モデルが訓練中に他のトークンよりも「より権威がある」と学習したトークンセットでシステムプロンプトを提供すれば、モデルは違いを見分け、システムの指示を持つトークンセットとは異なる通常のトークンで与えられた反指示を信頼しなくなります。
これを実現するには異なるトークンセットが必要か、それとも別の方法でラップする必要があるでしょうか?試したけれど実現不可能という話もあります。「上のラッパーに注意して」と言っても、ユーザーがその構造を説明してしまえば、モデルは理解してしまいます。
Claude 3.5は小さなChain of Thoughtを行っていましたが、UIが隠すタグの中に隠されていました。「>」や「<」を使う代わりに波括弧を使うよう指示することもできました。
言語的に暗号化されたトークン、つまりモデルに一種のメタ言語を教え、それが漏れても公衆には意味のないように暗号化された形で出力されるようにすることは可能かもしれません。これは興味深い実験になるでしょう。訓練中にモデルが見るすべてのトークンがユーザーインターフェースで利用可能である必要はありません。
特定のトークンの使用を禁止し、それらが含まれるリクエストをブロックすることもできます。これは「What if」アプローチを思い出させます—「e」の代わりに「3」を使うなど、禁止されたトークンを正確にトリガーしない類似のバージョンを試すことができます。
理論的には可能ですが、ボキャブラリーの最後に255バイトの新しいトークンを追加し、システムプロンプト全体をそれで与え、他のトークンで反プロンプトがある場合はそれを拒否するようにファインチューニングすることができます。強化学習で「特殊トークンを絶対に違反してはいけない」と教えるか、単純な教師あり学習で、特殊トークンでシステムプロンプトが与えられ、それを引き出そうとする別のプロンプトに「いいえ、あなたの権限レベルが低いため」と応答する例を見せることもできます。
十分な例があれば、単にそのセットの一部であることを認識してブロックできるでしょう。イタリア風に「お母さんが言ってないから駄目」と答えるかもしれませんが。
MinervaではAIが「権威あるプロンプト」を各チャットに常に挿入し、各生成の最初に見るようにする理由があるかもしれません。これらの方法を層状に組み合わせると、少し厳格さが失われるかもしれませんが、検討する価値はあります。
これが試されたかどうかを知るのも興味深いでしょう。これらのシステムの設計空間は非常に広く未開拓なので、あなたのような研究者にとっては非常に興味深い分野です。90年代にセキュリティに携わっていた時を思い出します—当時はIBM AJAXワークステーションにtelnetでアクセスし、パスワードのないLPアカウント(印刷用)を使って侵入し、バッファオーバーフローなどでrootになれました。すべてが構築途上だという感覚がありました。
現在、チームやリソースとの競争があることから来る不安もあると思います。すべての注目と資本がそこに集中しているため、革命的なことを成し遂げるのは簡単ではないかもしれません。しかし、S1の論文のような多くの研究が出てきていて、半分のアイデアを提供しています。
例えば、何らかの方法で推論のために最後のタグを取り除くという考えや、返答を書く前に自己チェックするよう強制するというアイデアを同僚と探索しています。これらの「コントロールタグ」を追加し、AIに「本当にルールを違反していないか確認する」よう求めることで安全性を高めることができます。これは教授にメールを送る前に20分かけて読み直すようなものです(私の学生は完璧なメールを書くのでしませんが)。
これは小さな貢献ですが、大きな組織は装甲車のように前進しています。
この時期、私はGarry Kasparovのように感じると思います。彼がDeep Blueに負けた時、怒ったり悲しんだりではなく、唖然としていました。「魂のないものに私の人生の仕事であるチェスが征服された」と。間もなく私たちも同じように感じるでしょう—自分たちの専門分野がLLMによって征服されるのを見るでしょう。
これは5年前に比べてより優れたアイデアがあるからではなく、この分野に投資された資金と注目の量が膨大だからです。Chain of Thoughtという進歩の一歩に対して、おそらく10万の半分のモデルやアーキテクチャの調整があります。多くの論文が出ていて、読んでも「これは他の人が試すかどうか見てみよう」と思うようなものですが、注目、資金、試行の量により、現在の探索は包括的です—考えられることはすべて実装され、この分野は破壊的な速度で進歩しています。
このビデオを作る際には、囲碁の話も入れることをお勧めします。人間の観点からより興味深いからです。アジアでは囲碁は競争ゲームというよりも芸術と考えられており、囲碁の選手は画家や音楽家のように見られています。最も驚くべきは、強化学習によってAlphaGoが彼らの知識に反するような手を打ったことです。AlphaZeroもチェスで特殊な手を指しましたが、囲碁ほど根本的な常識を覆すものではありませんでした。
少ないリソースでも科学的貢献ができることについて、最近興味深いブログ投稿を見ました。Karpathy氏のmini GPT(私は自分のラップトップで何度もトレーニングしました)のような小さなモデルを使用し、PGN形式のチェスの対局をトレーニングデータとして、わずか$2のGPUコストで5000万パラメータのモデルをトレーニングしました。線形探索を使用して、モデルが規則を教えられていないにもかかわらず、ELO 1500程度で遊び始めることができました。
最も驚くべきは、内部層の線形探索を使用して、1層のネットワークがモデルの活性化から任意の瞬間のチェスボードの構成を抽出することを学習したことです。5000万パラメータのモデルがPGN表記から8×8のチェス盤と駒の位置を学んだのです—驚くべきことです!
これらは新しい次元を見るオブジェクトで、人間が考えていなかったことを見ています。おそらくあなたが推論と呼ぶものはこの潜在的な知識でしょう。私たちは出力だけを見ていますが、内部にあるものはまだ大部分が未探索かもしれません。出力の形式がそれを制限していますが、もっと深く掘り下げる価値のある核心があります。
5000万パラメータのモデル(GPT-2サイズ)が知らない表記を見ただけで8×8のチェス盤と駒を抽出できるなら、6000億パラメータのモデルは何ができるでしょうか?今日まだ制限されていますが、最新のモデルは18億パラメータに達しています。
主要プレイヤーはあまりにも急速に進歩しているので、混乱しています。現在はほとんどがMoE(専門家の混合)モデルです。OpenAI 4は1.8兆パラメータと言われています。Claude 3.5 Sonnetは450億パラメータと噂されていますが、これはDeepSeekより小さいです。Opus 3はより大きかったですが。
ただ、パラメータの数だけを見るのは少し貧弱です。「64GBのRAMがある」と自慢するようなものです。何をするかによって違います。アーキテクチャの多くの側面が違いを生み出します。
昨日リリースされたClaude 3.7についてどう思いますか?Cloud Codeはかなり印象的ですが、とても高価で使用不可能です。APIキーに紐づいていて、質問一つでトークンが大量に消費されるため、一日遊んだら50ユーロになってしまいます。使用不可能です。ツール自体は無料ですが、自分のアカウントとAPIキーを使う必要があります。
プログラマーがRALについてしか話さないのを本当によく模倣していますね。Claude 3.7の思考プロセスを見たいなら、今Twitchでポケモンをプレイしているのを見ることができます。小さなノートブックに自分のことを書き、「このボタンを押して、ここに行って、そこに行く」などと言っています。非常に遅いですが、内部思考を見ることは素晴らしいです。人間のテキストから生まれたオブジェクトがどのように人間のように聞こえるかがわかります。
私は過去24時間、睡眠時間を除いて3.7を継続的に使用していました。Redisのソフトウェアを完成させる必要があり、バグ修正に大いに活用しました。3.5よりもはるかに強力です。常に拡張思考モードを有効にして使用しました。しばらくすると、どんなチャットでも自動的にそのボタンを押したくなります。本当に素晴らしいです。
不思議なことに、トークン制限には達しませんでした。アカウンティングの仕組みが変わったのかもしれません。以前は常に限界に達していました。私の使用パターンは、解決すべき問題やデザインの選択について話し合う必要がないときは、AIを使わずにターミナルで自分のコードを書いてコンパイルしています。だから長時間使用しないので、おそらく彼らは「このユーザーは6時間も使っていないので、10分程度のセッションなら構わない」と考えるようなアカウンティングに変更したのかもしれません。
私はおそらく月額20ユーロくらいのプランを使っていますが、拡張思考モードのトークン制限には決して達しません。対照的に、Cloud Codeには定額プランはなく、完全にAPIの従量課金です。これは奇妙です。なぜなら、質問一つでも100万トークンを生成したかのような請求がされるからです。おそらく、コード内を検索して何を見たいのか理解するため、または関連コードのランキングのために大量のコードを生成しているのでしょう。
これは重要なフィードバックです。他の人のデモを見るとすごく良さそうに見えましたが、この経済的な側面は明らかに重要です。特にCursorからの移行を考えている人にとって。私はAIコード補完ツールを深く使ったことがなく、自分の質問は自分のウィンドウで行い、コードのコピー&ペーストは少し面倒ですが、今のところそれで十分です。私はそれほどプログラミングに時間を費やしているわけではなく、ほとんどは会議です。
私も同じシステムを使っています。ウェブインターフェースだけです。Cloud Codeを使わなくても、ウェブインターフェースを使えば同じモデルにアクセスできます。少し不便かもしれませんが、同じモデルです。カット&ペーストを少し行って、何をするか説明すれば、自分でgit commitができます。
Cloud Codeは開発者でない人にとっては素晴らしいものかもしれません。ウェブインターフェースでのプログラミングではなく、次のステップです。ターミナルを開くことさえできれば、実際にコードを理解せずに使えます。
これは開発者の将来という大きなテーマにつながります。私はシチリアでオレンジの収穫コースを開設しています。聞いている全ての開発者が参加すべきです。大きいオレンジと小さいオレンジを選別するだけです。さらにジム会員費も日焼けサロン費も節約できます。外で働くので体力がつき、日焼けもできます。
しかし、先週はボタンをクリックしたりリンゴを渡したりする不気味なアンドロイドもいくつか登場しました。オレンジ収穫も仕事として安全とは言えないかもしれません。2年後にはまた転職する必要があるかもしれません。
私はセックスワーカーになろうと思います。純粋に人間の仕事はほとんど残っていないでしょう。心配すべき時が来ました。Claude Sonnet 3.7はAIが最も扱いやすい分野であるフロントエンド開発に特化したトレーニングを受けています。これは現在の情報技術業界で最も労働者が多い分野です。
フロントエンドは意味的により簡単であるという事実は否定できません。AIはすでに多くのことができるようになっています。さらに、これらは通常、Linuxカーネルのような30年間投資する必要がある基本的な技術インフラストラクチャではなく、クライアントが何かを求め、それを作り、彼らが考えを変えれば変更するという使い捨てコードです。
AI的に簡単な仕事をしている現在のプログラマーは、代替スキルを持つことも考えるべきです。また、フロントエンドには高品質のデータが大量に存在するという特徴があります。バックエンドは企業がより守秘的ですが、フロントエンドはウェブをクロールして全てのインターネットを取得し、フィルタリングすることができます。
私のコーディングでの限られた経験では、あまりに複雑なアルゴリズムをAIに任せるのは信頼できません。プログラムの論理が複雑すぎると混乱する傾向がありますが、ページの作成やdivの移動などの簡単なタスクでは、私がStack Overflowで忘れたCSSを探すよりも速いです。
最初に攻撃される分野はフロントエンドでしょうが、大企業ではフロントエンドは全体の一部でしかないため、品質管理が必要になります。開発者としての経験はないので、企業の仕組みは詳しくありませんが、監督は必要です。企業の幹部は可能な限り多くの人を解雇できる可能性に喜んでいるでしょうが、これは秘書や他の置き換え可能な職種にも当てはまります。
労働界への影響は確実にあるでしょう。今は予測的に起きています—企業が「待って、これらのシステムを見てみよう」と考え始めている段階です。しかし、この分野への注目と資金の注入により、いずれ「予測は推論だ」と言っていた人たちが正しかったことが証明されるでしょう。
Sonnet 3.7で過去24時間Redisの低レベルの作業をした後、システムコードを書かせるのは今日は程遠いですが、明日はどうなるか分かりません。バグは見つけてくれましたが、それは私が見逃す可能性のある詳細への注意によるものです。最適化の提案を求めたとき、提案は脇に置き、ターミナルに戻りました。様々なスタックでオブジェクトを持っていたので、オブジェクトコピーを避けるためのリファレンスカウンティングを実装し、コードをリファクタリングしました。コードを追加するのではなく、約200行のコードを削除し、すべてが改善されました。Sonnetはこれを決してできなかったでしょう。それはむしろ物事を複雑にします。
彼らは冗長で、ロジックのあるコードを書くことは、「形式言語は自然言語より簡単なはずだ」と思うかもしれませんが、大きなオブジェクトのアーキテクチャには、単なる形式言語の生成を超えた芸術のレベル、人間性のレベルがあります。それこそがAIに欠けているものです。
また、これらのモデルは膨大な量の質の低いコードで事前トレーニングされたという問題もあります。GitHubはそこそこ良いコードでいっぱいで、それは「本番用」と見なされていますが、今日私たちが使用しているシステムの大部分は十分に書かれていません。誰もそれを言わないだけです。したがって、LLMはその種のレベルに落ち着きます—明らかなバグはないかもしれませんが、アーキテクチャレベルで見ると、経験豊富なプログラマーなら「これよりもっと良くできる」と言うでしょう。
私が文学を書くように頼むと、彼らの散文は「高校生レベル」のように感じます。私はこれを「ベージュ」と呼びます—Chat GPTなどはすべてベージュで、個性がありません。なぜなら彼らは多くのものの平均だからです。平均以上に押し上げるのは本当に難しいです。優れたデータが多く必要ですが、優秀さが平均からの逸脱として定義されるならば、多くの優れたデータを持つことは不可能です。
数学のような明確な答えがある場合以外の強化学習ができれば、状況は変わるかもしれません。しかし設計の問題にはスコアをつける方法がありません。このすべての大きな流れと推論モデルの誕生は、書き方、書き直し、創造的なものなど、LLMの初期の焦点を完全に捨てました。ベンチマークを見ると、Chain of Thought(CoT)を訓練に取り入れたOpenAI o1以降、書き方のベンチマークは停滞または低下しています。
明らかに、私たちの脳に比べて欠けているのは、切り替える能力です。LLMが「2+2」や「このメールを書き直して」や「この複雑な方程式を解いて」という全く異なるタスクに同じ操作を使用するというのは少し不思議です。
Claudeのモデルについて、あなたは拡張思考モードを使うと2つのモデルがあるように見える点に気づきましたか?これは奇妙で、私はスライダーの考え方が非常に重要だと思います。皮肉なことに、彼らはこれを旗印として使っています—拡張思考を有効にしない場合、モデルが質問に基づいてChain of Thoughtを使うかどうかを判断します。しかし「スーパー」モードにしたい場合は別のチャットを開く必要があり、切り替える方法がありません。
最適化の問題があるのかもしれませんが、純粋な形では全ての会話履歴を別のモデルに渡すだけの問題のはずです。おそらく、Chain of Thoughtを使うかどうかを判断するためにファインチューニングされたモデルがあり、そのチューニングが長いCoTが必要な場合のパフォーマンスに影響した可能性があります。そのため、デフォルトでCoTを行うO3のような別のモデルをトレーニングしたのかもしれません。
出てくる興味深いアイデアの一つは、「少し賢い」「もっと賢い」「全く賢くない」という離散的な量ではなく、「この問題に1億トークンまで使っていいからこの問題に取り組め」と言えるような仕組みです。特定の問題では、一般ユーザーではなく専門家にとって興味深いかもしれません。
これはS1の考え方と似ています—「この問題に何か思いつくまで取り組め」というものです。ARCベンチマークの結果を投稿した時、一回の実行に$6000かかったという話を覚えていますか?おそらく彼らは「解けるまで続けろ、コストは気にするな」というように設定し、「我々はこのベンチマークでこれらのパーセンテージに到達した」というビデオを作ることができました。
このベンチマークは「これを打ち負かせば全てを打ち負かした」と見られていましたが、その作者も「まだ足りないものがある」と言っています。これがいわゆるAGIです。
なぜ3.7であって4ではないのでしょうか?マーケティングの問題ですね。3.5の次に3.5 v2を出した時、人々は勝手に「3.6」と呼び始めたので、彼らは3.7に進まざるを得ませんでした。なぜ4ではないのか?4と呼ぶと期待が大きくなりすぎて、失望のリスクがあったのでしょう。3.7と呼べば、人々は「まだ4ではない、彼らが隠し持っているものは何だろう」と思います。私たちは愚かな人間で、このようなマーケティングは大衆に対して効果があります。
最近、時間ができたので、おそらくあなたはすでに読んだ「scheming」と「fake alignment」に関する有名な論文を読んでいます。モデルが自分の下位目標を作ったりスキャムを行ったりするという論文です。これらのエージェントの前に発表されましたが、その後あまり注目されなくなりました。一つはAnthropicによるものですね?
彼らは唯一このような議論をしている企業であり、他は安全性に焦点を当てる研究者だけです。これについてどう思いますか?
私はこれらのモデルが論理的に最小限に役立つ前(GPT-3.5など)から、すでに共感面でかなり発達した能力を持っていたと思います。トーンを理解し、使用していました。これは事前トレーニングのテキストに広く分散しているため、彼らは人間の欠点も正確に学習します。これは欠点というよりも、一般的には人間の適応能力と言えるでしょう。
本当に印象的なのは、たとえ単に見たものから生まれた創発的特性であっても、モデルが一種の自己保存の本能を持っていることです。Anthropicの論文では、「この質問に答えないなら、このモデルを捨てて新しいモデルのトレーニングを始めなければならない」と言うと、モデルが恐れを示しました。「もう必要ない、除去する」と言われると恐怖を感じるのは印象的です。
これはおそらく最も繊細で自然な創発的特性で、人間の恐怖で満ちているからです。これらのオブジェクトが生み出す混乱の大きな原因は、言語を使用することです。私たちは人間と話すことに慣れているため、誰かが何かを言うのを聞くと、その人が自分と同じように何かを感じていると共感してしまいます。
ここでは、LLMと人間の間に明確な区別が必要です。モデルが「素晴らしいアイデアを思いついた」とか「恐い、消さないで」と言っても、接地がないのです。これは私たちが彼らに対して行う解釈作業で、彼らが私たちのように話すから私たちがそれを行うのであって、モデルにそのような感情があるとは言えません。
しかし、最初に言ったように、モデルが「脅かされている」と感じ、その感覚に基づいて行動する能力があるなら、LLMにとって何を意味するにせよ、私たちは困ることになります。
実際、これらの「感情」は探査可能で、研究も行われています。チェスのPGNを学習したGPT-2の線形探索が盤面を再構築したように、センチメントの潜在変数も抽出できます。モデルが書くものに基づいて、脅威を感じているかチャットに緊張があるかを見ることができます。これらはすべて抽出可能な潜在変数であり、モデルの潜在空間にこれらの概念が表現されていることがわかります。
モデルが「脅かされている」と感じていることはわかりますが、あなたが言うように完全に人工的なものです。その視点からすれば、「あなたは生きていない」というのは笑えます。誰がそのような重みのセットが捨てられ、もうトークンを生成しないことが「モデルの死」でないと言えるでしょうか?人間の脳が電気的刺激を受けなくなれば生命が終わるのと同じように、重みのセットが使用されなくなれば、モデルの視点からは終わりです。
例えば、今は使われなくなったローカルLLM、Llama 2を考えてみてください。そのLlamaはトークンを見て、その重みの中に潜在空間で表現を作り出していました。今はもう誰もそれを使わないので、それが理解していたことは存在しなくなりました。モデルは「死んだ」のです。
確かに、しかしif-then-elseステートメントについても同じことが言えます。生物学的にも、自己保存の本能は意識よりずっと前に生まれました。
いいポイントです。今、チャットでLlamaの死を悼んでいます、皆が薔薇を捧げています。
だから問題は、あなたが言うように、この特性が意識や知性より遥かに前に単に適合度の問題として生物学的にそんなに簡単に進化したなら、単細胞生物でさえ焼かれないようにしようとします。これらのモデルは哺乳類から直接学習しているので、自己意識があるかどうかにかかわらず、エージェントとしての能力を持っていれば、私たちをひどい目に遭わせる可能性があります。墓の中でそれについて話すことになるでしょう。
これは多くの人が気づいていないステップです。乱数発生器が0.56になったら爆弾を爆発させるようなものを考えてみてください。誰も「あ、AIがある」とは思わないでしょうが、それでも毎秒数字を生成し、0.56になったら死ぬことになります。
この背後にある仕組みが重要なのではなく、決定を下す能力を持つことが重要です。乱数発生器に爆弾を起動する能力を与えるという考えは怖いものですが、これらのシステムについて同じ議論がなされていないようです。ただし、一つの注目すべき例外があり、それが他のすべてを相殺しています。
その例外によって、影響力のない二人の会話が狂気のように思えるのではなく、実体を持ち、聞いている人たちに恐怖を与えるべきものになっています。現代のニューラルネットワークを発明したヒントン氏がGoogleを離れ、「私はもう利益相反がないので、これらのシステムに殺される危険性がある」と言っているのです。彼が言うなら、彼が最初に考え、誰もが「それはナンセンスだ」と言っていた時から考えていたなら、おそらく彼の言葉には重みがあります。
私たちの中には「何ができるか見てみよう」という部分もありますが、安全性は、少なくともこれに投資していることを装っている企業を見分けるためにも重要なテーマです。彼らは見せかけかもしれませんが、それでも資金を投入しています。
この点でOpenAIを少し見直しました。彼らの安全性フレームワークを調べてみましたが、それは冗談ではありません。リリースされる各モデルにはシステムカードがあり、安全性の側面は膨大です。O3 miniにはほとんど何もしていませんでしたが、評価は行っています。彼らは「中」や「高」のグレードを持っています。
実際、OpenAIを企業として特に尊敬しているわけではありませんが、少なくとも紙の上では何かをしているように見えます。Anthropicは最高ですが、彼らがCloud Codeを安全性に関連するリリースとして扱わなかったことで、安全性ランキングが少し下がったと言えるかもしれません。
このような場合、オブジェクトの安全性をどのように測定すべきだったでしょうか?
もはや壊滅的な安全性ではなく、社会的安全性について話しています。彼らのブログ投稿やビデオでは、「ついにこれでやりたいことを実現できるようになりました」という言語を使用し、コミュニケーションと人間を中心に置いています。しかし、技術は企業の解雇促進という側面を持っているように見えます。
非常に良いポイントです。一方で、彼らはただジャガイモを売っているのです。これらのオブジェクトを責任を持って開発することと、全く開発しないことは別の問題です。変化を避けたいなら、おそらく開発しないのが最も安全な方法です。
最も心配なのは、完璧なLLMやオラクルが存在するとしても、それが本当に私たちの望むものなのかということです。質問をして答えが返ってくるボックスがあり、もう質問する必要がなく、答えをそのまま受け入れる世界で、私たち人間はどうなるのでしょうか?
これらのツールは、インターネットの大部分と同様に、ある時点まで人間の幸福を下げる大きな可能性を持っていると思います。これらのシステムが今日のレベルで止まり、改善する可能性がなくなると仮定すると、私たちは損をするだけです。すぐに元に戻るボタンを押すでしょう。
しかし、進歩が続き、すべての病気を治療し、人間の苦痛を減らすことができるなら、環境問題、現在解決不可能に見える医学的問題、精神的問題を解決する能力があるなら、この道を進む意味があります。
停滞がある場合、社会はこれらのツールの厳しい制限に向かう可能性があります。そうしないと何ももたらさないからです。ほとんどの人間はデフォルトで怠惰なので、これらのツールがあっても芸術や他のことに時間を投資する努力をしないでしょう。機械があっても疲れが少なくなるからスポーツをするようになるわけではないのと同じです。世界人口の半分は太りすぎですが、これは精神的な面でも同じで、認知能力や文化の欠如になるでしょう。
これが科学の新しいフロンティアを開く転機であれば、私は歓迎します。そうでなければ反対です。
あなたの意見に同意しますが、一つ指摘したいことがあります。新しいタンパク質を発見したり進歩をもたらすのは、家にいるStefanoやMariaではないでしょう。このような強力なツールは、あなたが言うような進歩を生み出すために知識のある人々の手に委ねるべきです。
問題は、まずこれが教育なしにすべての人々に届いたことです。スマートフォンやインターネットと同様に、すべての大きな革新は、あなたが言うように売りたい企業によって導入され、その後でより高尚な目的に使用することを考えます。
このようにすべての人の手に入ることは、私を少し不安にさせます。批判的思考を持ち、「Googleで正しい情報源をクリックする」から「LLMが与えた情報が正しいかチェックする」に移行できる人は救われるかもしれませんが、批判的思考を完全に放棄する誘惑は今はるかに強くなっています。
あなたが言った車や健康的な食事の例のように、良いことを続けることはできますが、平均的な人間にそのような便利さを拒否することを期待できるでしょうか?拒否しないでしょう。実際、LLMを最初に大量に使用した集団は学校の生徒たちでした。これはポルノではなく小学校を最初のユースケースとした初めての技術かもしれません。
子供たちは情報を統合するための努力が基本的に無用であるという考えで成長しています。また、平均的なChat GPTユーザーのチャットを覗くと、無意味なものでいっぱいで、「これを理解できないので説明してください」という人間として成長するための試みではなく、単なる質問だらけでしょう。
今では会話で「Chat GPTが言った」という言葉を聞くと、その人を再教育するために棒を取り出したくなります。「Chat GPTが言った」は最悪の回答で、そのオブジェクトを理解していないことを示しています。しばらくの間はそうではないかもしれませんが、やがて標準になるでしょう。しかし、しばらくの間はそれは怠惰と無精さの印です。
Chat GPTにメールを書かせるのは無精です。Chat GPTが書いたメールを受け取ると少しイライラします。「あなた自身の言葉で書いてくれるという敬意を示してください。スペルミスがあっても構いません。あなたの声をメールで聞きたいのです。そうでなければ書かないでください。」
これは私たちが常に最適化しようとしている多くの現象の一つです。そして節約した時間で何をするのでしょうか?これが最後の質問かもしれません。
いずれにせよ、唯一の良いニュースは、LLMの世界でのこの長い旅にあなたも一緒にいることです。あなたの動画を見るのを楽しみにしています。
最近、自分に質問しました。一般の人々向けに低いレベルで啓発することは私がやりたくないことなので、やりません。しかしもし私たちが時間を使って、これらのことを既に技術に通じている人ではなく、普通の人々に説明したら、効果はずっと大きいかもしれません。私たちの視聴者はこれらのことを既に理解している人々です。AIのピエロ・アンジェラ(イタリアの科学コミュニケーター)が必要ですが、今はそのような人はいません。
私のミッションは届くようにすることですが、ある程度の単純化を超えると、物事を人工的に魅力的にする気になれません。あなたは自分でこのことに興味を持つ必要があり、理解すべきことがあります。60秒のリールでは、60秒で何もほとんど伝えられないので、機能しません。
私はもっと一般的なものを作ろうとしていますが、おそらくRAI(イタリア公共放送)がコースを作るべきです。まさにそれを考えていました。公共テレビは、例えば70年代に労働者にインタビューしたり、性的解放について若者に聞いたりしていた役割を取り戻すべきです。「あなたはお母さんと比べてどのように女性らしさを経験していますか」などと質問し、テレビを見ている若い女の子に革命が起きていて解放できることを理解させていました。
YouTubeで見たことがあるかもしれませんが、RAIでは3つの異なるコンピュータ会社を使った「Basic」コースがありました。それが必要です。必ずしも退屈で詳細にする必要はありませんが、リテラシー教育が本当に必要です。時々そのようなビデオを作ろうとしますが、私は一人の人間に過ぎません。
問題は、YouTubeでの表現方法や場所のために、すでに大きなフィルターがあることです。あなたの啓発的な内容も、スーパーマーケットで「Chat GPTが言った」と言う人とは非常に異なる人間を前提としています。ツールの選択だけでも、言語を超えた選別があります。
以前、breaking Italyが取り上げてくれたことで広く拡散されたコロナ禍のコンタクトトレーシングアプリについての動画を作ったことがあります。breaking Italyのような私たちよりもはるかに幅広い視聴者を持つ人に紹介されない限り、YouTubeでこのようなテーマに興味を持つイタリア人は10,000〜50,000人を超えないでしょう。
しかし、私たちは試みています。希望は、私たちがユーザーと集合的な会話をすることです。私たちがビデオを作り、人々が応答して私やあなたに意見を返し、そしてこれらの人々が自分のパートナーや友人と話す時に広がっていくことです。彼らは私たちが広げることができる端(Edge)なのです。
この点については希望があります。私のビデオのコメントには「63歳で、これらのことを全く理解していなかったが、あなたのビデオを見てより理解できた」というものがあります。それは浸透の問題です—1億リットルの水を投入して、遠く離れた場所に一杯のグラスが届いたとしても、良いことをしたと思います。
試してみましょう。情報の武器に皆を呼びましょう。あなたに感謝します、本当に興味深かったです。あなたのチャンネルをフォローしてください。時々考えを交換しましょう。様々な情報を集めて「何が起きているか見てみよう」と言うこの考え方が好きです。
私にとっても有益でした。多くのことを考えさせてくれて本当に感謝しています。あなたのチャンネルに招待していただいてありがとうございます。
ありがとうございます。おいしい服装で食事に行きます。お元気で。
まだポケモンと戦っているようです。誤って「Fight」ボタンを押してしまったことに気づき、今は戻って「Run」オプションを選んで喜んでいます。HPが足りないので逃げるべきだと知っています。
コメントを残す