
6,028 文字

はい、最近サム・アルトマンがRedditでAMA(Ask Me Anything)をしたんですけど、みなさんに知っておいてほしい重要なことが10個ありましたので、さっそく見ていきましょか。
まず1つ目は「えっ、マジで?」いうタイトルになってます。というのも、誰かが「汎用人工知能(AGI)は現在のハードウェアで実現可能なんでしょうか?それとも全く別のものが必要なんでしょうか?」という質問をしたんです。これはAGIに関して投げかけられる中でも最も重要な質問の1つやと思います。
AGIに必要なハードウェアについては、生体ハードウェアが必要やとか量子コンピューターが必要やとか、いろんな説がありますけど、サム・アルトマンは「現在のハードウェアで実現可能やと考えています」とはっきり述べています。
ただし、「可能やと考えている」という言い方をしてはるので、100%確実というわけではありませんが、この発言の意味するところは非常に重要です。つまり、現在のハードウェアを使ってAGIへの具体的なロードマップを持っているということですからね。
これは新しいハードウェアが役に立たないという意味ではありません。現在のハードウェアでAGIが実現できるとしても、より高速なAGIの開発には新しいハードウェアが有効やと思います。トランスフォーマーの例を考えてみましょ。専用のAIチップの開発で推論速度は驚くほど向上しましたからね。
現在のハードウェアでAGIが実現可能というのは、ちょっと驚きですけど、考えてみたら意外でもないかもしれません。要は適切なアルゴリズムとモデルがあれば良いということですから。これは、AGIのボトルネックがハードウェアではなく、AIの研究の進展やアルゴリズムの最適化、データの質にあるということを示唆しています。
OpenAIは恐らく、何か重要な発見をして「ハードウェアは問題やない。アルゴリズムをスケールアップして、ここを修正したら大変なことになる」と考えているんでしょうね。もちろん、AGIが実現された後に専用ハードウェアを使えば10〜20倍は高速化できるでしょうから、未来は私たちが当初考えていたよりもずっと早く訪れる可能性があります。
2番目は、O1とO1プレビューの比較についてです。O1モデルについては皆さんご存知やと思います。これは「考えてから話す」という新しいパラダイムのモデルですね。誰かが「完全版のO1は、O1プレビューと比べて本当に大きな進歩があるんですか?」と質問したところ、OpenAIのVP of Engineeringは「はい」と答えています。
現在O1モデルを使っている方々に言えることは、完全版のO1へのアクセスが可能になったら、かなりの違いを実感できるということです。ちなみに面白い話なんですけど、今日偶然にO1が一時的にリリースされてしまって、実際に使うことができたんです。誰かがツイッターでリンクを共有して、画像付きでO1を使えたんです。すごかったですわ。
ベンチマークを見ると、O1はO1プレビューと比べて様々な指標で10〜15%ほど性能が向上しています。現在O1プレビューやO1ミニで苦労している方々には、できるだけ多くの文脈情報を与えることをお勧めします。
ただし、あまりに多すぎる情報は逆効果です。問題を解決するのに関連する文脈を適切に与えることが重要です。例えば健康の問題なら、年齢、生活習慣、民族性など、ライフスタイルに影響を与える可能性のある要因を含めると、モデルはより良い推論ができるようになります。
3番目は、スケーリングの将来についてです。「O1はLLMのスケーリングにどのような影響を与えますか?スケーリング法則に従ってLLMのスケーリングを続けるのか、それとも推論時間のスケーリングに重点を置くのか?」という質問に対して、OpenAIのCPOであるケビンは「どちらか一方ではなく、両方です。より良いベースモデルと、より多くのストロベリースケーリング推論時間の計算の両方を目指します」と答えています。
考えてみてください。人間をある意味でAGIの基準と考えた場合、人間には1つの推論チェーンだけでなく、システム1思考とシステム2思考があります。システム1は即座の反応で、「好きな食べ物は?」と聞かれて「ピザ」と答えるような速い思考です。一方、「町で一番健康的な食事ができる場所への最短ルートは?」と聞かれた場合は、ゆっくりと計画を立てる必要がある。
人間は両方のシステムを持っていて、状況に応じて使い分けています。AGIを実現するには、人間のように質問が長いのか短いのかを判断する小さなシステムが必要になるでしょう。短い質問は即座に応答し、長い質問はじっくりと考える。将来のAIシステムはまさにそのように機能することになるでしょう。
4番目は、ハルシネーション(幻覚)の問題が依然として存在するという点です。「素晴らしい仕事をありがとう。ハルシネーションは永続的な特徴になるのでしょうか?なぜO1プレビューでも思考の最後に近づくにつれてハルシネーションが増えるのでしょうか?また、2年前の古いデータで今では真実ではないものをどう扱うのですか?」という質問がありました。
これは私も本当に考えていなかった問題です。これらのモデルは本質的にタイムカプセルのようなもので、特定の期間のデータで訓練されています。例えば今月の4月や5月、6月までの知識しかなく、それ以降の情報は持っていません。もちろん検索機能などはありますが、もはや存在しないパラダイムに基づいて推論しようとする古い情報の問題は深刻です。
特にAI時代には多くのことが急速に変化していますからね。OpenAIのSVP of Researchは「ハルシネーションの減少に多くの焦点を当てていますが、これは根本的に難しい問題です。私たちのモデルは人間が書いたテキストから学習しますが、人間は時として確信を持って不確かなことを述べることがあります。モデルは信頼できる情報源に基づいて回答を行うことが改善されつつあり、強化学習がこの問題の解決に役立つと考えています」と述べています。
これは自分の仕事がAIに奪われることを心配している人々にとっては良いニュースですが、特定のアプリケーションでChatGPTを使いたい人々にとっては悪いニュースかもしれません。GenerativeAIが特定の分野で適していない理由の1つは、ミスをした場合の影響が甚大だからです。
例えば医療分野でGenerativeAIがミスを犯せば、誰かが命を落とす可能性があります。研究を見ると、これらのモデルは医療記録の要約や診断において多くの医師よりも優れているとされていますが、特定の産業の性質や規制の観点から、これらのモデルが非常に高い信頼性を持つまでは、大規模な商業利用は難しいでしょう。
もちろん、誰かがソフトウェアを開発して一気に普及が進む可能性もありますが、3〜5%のハルシネーション率では難しいでしょう。例えば、3〜5%の飛行機が墜落するようなものを私たちは使わないでしょう。エンジンが3〜5%爆発する車を誰も使わないのと同じです。
OpenAIがこれを「根本的に難しい問題」と言っているなら、本当に難しい問題なんでしょう。
5番目は次のブレークスルーについてです。「GPTシリーズの次のブレークスルーは何で、そのタイムラインはどうなっていますか?」という質問に対して、サム・アルトマンは「より良いモデルを開発し続けますが、次の大きなブレークスルーはエージェントになると思います」と答えています。
MicrosoftやGoogleのProject Astraですでに様々なエージェントを見てきましたが、OpenAIが次のブレークスルーとしてエージェントを挙げているのは非常に興味深いです。エージェントは長期的な信頼性が必要で、OpenAIが何を成し遂げるのか楽しみです。
通常、OpenAIはこの分野の最前線にいて、彼らが何か革新的なものを生み出すと、他の企業が追いつくのに2年ほどかかります。エージェントが次の大きなブレークスルーになるというのは、非常に興味深い展開になりそうです。
6番目はAI時代での生存についてです。「今15歳の人が将来成功するために、どのようなスキルやキャリアパスに焦点を当てるべきですか?」という質問に対して、共同ホストは「適応性と学習する能力を身につけることが最も重要です」と答えています。
常に変化する世界では適応性が不可欠です。1つの信念に固執することはできず、環境に適応する必要があります。「適応するか、死ぬか」という言葉があるように。既存のスキルは重要ですが、新しい産業が生まれ、古い産業が消えていく中で、迅速かつ効率的に学び、知識をスキルに変換する能力が重要になってきます。
7番目は、多くの人が気になっていたイリヤの発見についてです。Reutersが「世界を終わらせる可能性のある高度なAI」についてのニュースを報じた後、Twitterでは3週間ほど「イリヤは何を見たのか」という話題が trending していました。
サム・アルトマンは「彼は超越的な未来を見たのです。イリヤは信じられないほどのビジョナリーで、他のほとんどの人よりも明確に未来を見通すことができます。彼の初期のアイデア、熱意、ビジョンは、私たちが成し遂げた多くのことの重要な要素でした。例えば、彼はO1につながる初期のアイデアの主要な探求者であり、支持者の一人でした」と答えています。
イリヤは明らかに非常に先を見据えたものを見たのでしょう。おそらく彼は自分の会社を立ち上げるでしょうが、OpenAIよりも先に超知能(Super Intelligence)に到達できるかどうかは興味深いところです。
自社を運営するのは非常に難しいですが、完全に超知能の開発に焦点を当てられることを考えると、チャンスはあるでしょう。製品の開発や期限に縛られることなく、すべてのコンピューティングリソースを超知能の開発に向けることができます。超知能は驚くべきことにAGIを飛び越えるそうです。
もし彼らが「超知能を開発しました」と発表したら、その日から世界は変わるでしょう。それが今、みんなが競争している目標なんです。
8番目は、多くの人が忘れていることですが、私はまだ覚えています。高度な音声モード・ビジョンについてです。「高度な音声モードとビジョンはいつ実装されますか?なぜGPT-5はこんなに時間がかかっているのですか?完全版のO1はどうなっていますか?」という質問に対して、サム・アルトマンは「現在はO1とその後続モデルの開発を優先しています。モデルは非常に複雑になっており、並行して多くのものを開発することが難しくなっています。多くの制限があり、多くの素晴らしいアイデアに対してコンピューティングリソースをどう配分するか、難しい決断を迫られています。高度な音声モードとビジョンの実装日程はまだ決まっていません」と答えています。
基本的に、高度な音声モードは素晴らしい機能ですが、当初考えていたほど多くの人が使用しないかもしれず、投資収益率が低いと考えているようです。そのため、フロンティアモデルであるO1の開発に焦点を当てています。O1はより賢く、より多くのことができ、大手企業クライアントが多用することが予想されます。
O2、O3、O4、O5はAGIに近づき、もしかしたらASI(人工超知能)の領域に入るかもしれません。GPT-1からGPT-4までの進化を考えると、確かにクレイジーな話ではないですね。推論のスケーリングを考えると、まだまだ伸びしろがありそうです。
高度な音声モードとビジョンについて思い出していただきたいのは、「Be My Eyes」というアプリケーションのデモがあったことです。視覚障害のある方が写真を撮ると、インターネット上の他のユーザーがその内容を説明してくれるアプリですね。
高度な音声モードでは、一般のユーザーの代わりにAIが視覚サポートを提供します。基本的にはChatGPTの高度な音声モードに高度なビジョンモードが組み合わさったもので、AIとFaceTimeしているような感じです。AIがあなたの見ているものをリアルタイムで見て、説明してくれるんです。
これは本当に革新的で、AIの素晴らしい応用例の1つだと思います。「AIは退屈だ」とか言う人もいますが、このアプリを使えば視覚障害のある方がタクシーを呼ぶことができたりするわけです。手を上げるタイミングも教えてくれる。この技術が完全に普及すれば、障害のある方々の生活は格段に便利になるでしょう。
9番目のアップデートとして、「新しいテキスト画像モデルについていつ教えてくれますか?DALL-E 3はちょっと古くなってきました」という質問に対して、サム・アルトマンは「次のアップデートは待つ価値があるものになりますが、まだリリース計画はありません」と答えています。
先ほど述べたように、現在の最優先事項はO1とエージェントの開発なので、画像生成モデルの更新はそれほど優先度が高くないようです。
10番目に、コンテキストウィンドウの拡張について質問がありました。「GPT-4のトークンコンテキストフィールドはいつ増えるのでしょうか?特に長いコーディングや執筆タスクでは、32kは他のAIモデルと比べて小さすぎます」という質問に対して、「その通りです。現在取り組んでいます」という回答がありました。
32,000トークンのコンテキストウィンドウは確かに十分ではありません。長文を書こうとすると本当に制限を感じますので、これは素晴らしいアップデートになるでしょう。
最後の11番目は、時々忘れかけては思い出す驚くべきことです。「GPT-4.0の情報や、画像・3Dモデル生成についてはいつ知ることができますか?」という質問に対して、「もうすぐです」という回答があり、HTMLのリアルタイムエディタのスクリーンショットも公開されました。
これはGPT-4.0/5の最初の機能の1つとしてリリースされる予定のようです。ご存知かもしれませんが、GPT-4.0は実はオムニモデルです。つまり、音声、画像、動画、3Dモデルなど、あらゆる入力からあらゆる出力が可能なモデルなんです。
3Dモデルの生成や操作機能についていつリリースされるのかと多くの人が気になっていますが、まずはリアルタイムHTMLレンダラーが登場するようです。これを使えば、入力した内容をリアルタイムで見て操作できるようになります。ただし、リリース時期については明らかにされていません。
コメント