アルトマンへの質問コーナー

9,135 文字

Sam Altman and the OpenAI Team Answer Questions on Reddit's AMA

The latest AI News. Learn about LLMs, Gen AI and get ready for the rollout of AGI. Wes Roth covers the latest happenings...

はい、今日はSam AltmanがレディットでAMA（Ask Me Anything：何でも質問してください）をしたときの内容を見ていきましょう。OpenAIからはSam Altman本人の他に、Kevin Wild（チーフプロダクトオフィサー）、Mark Chen（SVP研究担当）、Srikanth Narayanan（VP エンジニアリング担当）、それからJakob Pachocki（チーフサイエンティスト）が参加してはりました。
まず最初に目についたのが、2025年の大胆な予測を求められた質問です。Sam Altmanは「全てのベンチマークで飽和する」と答えてはりました。これは興味深い進展が期待できる発言ですね。
起業家向けの質問もありました。経験豊富な創業者として、またたくさんの起業家と密接に関わってきた人物として、AIが起業家のベンチャー開発プロセスをどのように補強すると考えているか、そしてAIによって起業の形がどのように変わっていくと思うか、という質問です。以前Sam Altmanたちは、AIのサポートを受けた1人の人間が10億ドル規模のビジネスを運営する時期について議論していましたからね。
Sam Altmanはこの可能性に非常に期待していると答えてはります。創業者の生産性が10倍になれば、より多くの、より良いスタートアップが生まれる。10人の創業チームを持つよりも、調整の手間が少なくて済むなど、多くの面でメリットがある。10倍の生産性向上はまだまだ先の話やけど、必ず実現すると信じている。その結果もたらされる経済の加速、特にスタートアップにとっての恩恵は素晴らしいものになるやろう、と。
例えば私のeコマースの経験から見ても、AIは多くのプロセスを自動化し、コストを大幅に削減し、これまでにない能力をもたらすことになります。画像生成やモックアップ、写真の作成など、そういったプロセス全体が格段に簡単になりました。
物理的な製品をデザインするのは、以前は経験と審美眼を持った人材を雇う必要がある難しい作業でした。今では、グラフィックデザインを素早く繰り返し試行できる。完璧な製品を見つけ出し、AIで生成したモデルを使って撮影するなど、グラフィカルな面が格段に容易になりました。
次の質問は面白いものでした。「Iliaは一体何を見たんや？」という質問です。多くの人が気になっていた質問やと思います。Iliaが考えを変え、Sam Altmanに反対し、最終的にOpenAIを去ってSuperIntelligence Safety Initiative（SSI）という会社を設立することになった、その理由は何やったんやろう？なお、SSIは現在10億ドル以上の評価額を持つ企業となっています。
Sam Altmanは次のように答えてはります。「彼は超越的な未来を見たんです。Iliaは信じられないようなビジョナリーで、ほとんどの人よりも明確に未来を見通すことができます。彼の初期のアイデア、熱意、そしてビジョンは、我々が成し遂げたことの多くにとって極めて重要でした。例えば、後にQとなるアイデアの主要な初期の探求者であり、支持者の一人でした。この分野は彼のような人物を持てて幸運です」
これは深い意味を持つコメントやと思います。Qは部分的にストロベリーモデルに基づいていて、以前はQARモデルと呼ばれていました。スタンフォード大学の論文から漏洩した自己学習型推論モデルのことです。これは、Sam AltmanがOpenAIを去る時期に皆が騒いだことの一つでした。
例えば、Geoffrey Hintonがニューラルネットの初期の探求者であり、多くの人々が信じていなかった時期にニューラルネットを推進していたように、IliaはQの背後にあるアイデア、つまりより良い推論能力を持つモデルの構築方法を推進していたようです。
もちろん、「彼がそんなに優秀で、ミッションに適していたなら、なぜ去ったのか？」という疑問も出てくるでしょう。確かに、Sam Altmanを解任したことについて、Geoffrey Hintonはiliaを称賛したという説もあります。
別の見方をすれば、彼は新しい会社を設立し、それが10億ドル以上の価値を持つようになった。確かに、そういった資金を調達し、自身の会社や研究所を運営できる能力があったということかもしれません。おそらく、これら全ての要因が組み合わさって今の状況になったんやと私は推測します。
次はChat GPTをセラピーに使用することについての意見を求められた質問です。Samは「明らかにセラピストではないけれど、多くの人々が自分の問題について話し合うことで価値を見出しているのは確かです。多くのスタートアップがこの分野での可能性を模索していることを見てきました。誰かが素晴らしいものを作り上げることを期待しています」と答えてはります。
私個人としては、モーニングページのようなものや日記のように、自分の考えを書き留めて、後でAIがそこから洞察を得たり、5年前や10年前に書いた膨大な記録の中から重要なアイデアを見つけ出すのを手伝ってくれるようなツールに非常に興味があります。大規模言語モデルは、そういった深い内省には最適やと思います。
出版社向けの質問で、Chat GPTでアカウントを認証して登録し、引用などが適切に行われているかを確認できるようにする案について、Samは「良いアイデアですが、現時点では計画はありません」と答えてはります。
Sam Altmanがネット上でトロール行為を楽しんでいるかどうかについて気になる人もいるかもしれません。ある人が「Sam Altman、あなたがストロベリーガイやったんですか？」と質問したとき、Samはイチゴの画像で返信しました。ストロベリーガイがTwitter（X）の背景画像を作るのにどれくらい時間がかかったと思いますか？これはSam Altmanが人々をトロールするために使っている別アカウントなんでしょうか？コメント欄で誰かが指摘していましたが、なかなか面白いですね。
EUについての興味深いコメントもありました。「EUユーザーが機能を早く利用できるように、また機能が制限されないように交渉する予定はありますか？」という質問です。これは大きな問題で、EUではAIツールにアクセスできない、機能が制限されているという苦情が多く寄せられています。
OpenAIやMetaなどの企業がEUを気にかけていないように見えるのはなぜか？実際はそうではなく、規制を作る人々が、これらの技術を利用することを非常に困難にするような方法で規制を設定しているんです。
最近のAI関係者による進歩に関する証言で、発表者の一人が、規制が適切に行われないとイノベーションを大きく妨げる可能性があることを説明しました。例えば、AIモデルが性別に基づく差別をしないようにしたい場合、賢明な規制当局は上位レベルの目標を設定し、企業がそれに向けて取り組めるようにするでしょう。
より強硬な規制アプローチでは、「性別を設計要因として使用してはいけない」というように、開発レベルでの実践を規制の対象とすることがあります。これは非常に近視眼的で、イノベーションを妨げる可能性があります。
例えば、企業は差別を検出するためのモデルを作ることができなくなります。差別を見つけるためには、そのデータでモデルを訓練する必要があるからです。そのデータを使用できない、その機能を持つモデルを開発できないとすると、結果的に達成しようとしている目標に反することになってしまいます。
Samは、もちろんEUの方針に従うと言っています。明らかに規制を回避しようとはしませんが、「我々は皆、EUの方針がますます賢明になることを望んでいます。強いヨーロッパは世界にとって重要です」と述べています。
彼は非常に控えめな発言をする人なので、言葉の行間を読む必要があります。もっと率直な人が同じことを言えば、EUはAI、テクノロジー、イノベーションに関して賢明な政策を作ることが苦手で、その結果として弱体化している、世界が新しい方向に向かっている重要な時期にイノベーションと進歩を妨げているという解釈ができます。
私の意見に同意しない人もいるでしょうし、EUの法律を支持する人もいることは承知しています。誰かの考えを変えようとしているわけではありません。ただ、なぜAIツールの一部の機能がEUでリリースされていないのかという質問に対する答えは、EUの規制当局が制定した法律が理由であり、OpenAIやMetaなどはそれを回避することはできないということです。
「GPTシリーズの次のブレイクスルーは何で、そのタイムラインはどうなっていますか？」という質問に対して、Samは「より良いモデルが次々と出てくるでしょうが、次の大きなブレイクスルーと感じられるのはエージェントになると思います。まもなく登場します」と答えてはります。
好きな本を聞かれて、Samは「たくさんありますが、最初に思い浮かんだのは『The Beginning of Infinity』と『シッダールタ』です」と答えました。『シッダールタ』は、より深い人生と自己の理解を求めて特権的な生活を離れる若者についての本です。
エンジニアリング担当VPのSrikanthは、レディットのハンドルネームが「data_irl」で、「Max Tegmarkの『Life 3.0』を楽しく読みました。ただし、AI全般に関する彼の見解には全面的には同意できません」と答えてはります。
確かに、Max Tegmarkは最近AIに関して奇異に感じる発言をしています。例えば、Martin Shkreli（ファーマブロー事件で知られる）が「AIの安全性なんて知ったことか、俺のロボット仲間がお前を捕まえに来るぜ」と発言したことを、Tegmarkは論文で引用し、AI関係者がAIの安全性を気にかけていないことの証拠として使用しました。
MITの物理学部のMax Tegmarkは、AIによる人間の力を奪う「分断して征服する」ダイナミクスについて論じ、これがAI関係者による反人間的な動きだと主張しています。論文を下にスクロールすると、人間や労働者に対して共謀しているように見える発言をしたAI関係者のリストがあります。Mark Zuckerberg、Yann LeCun、Larry Pageなどが含まれていて、奇妙なことにMartin Shkreliの「AIの安全性なんて気にしない、俺とロボット仲間がお前の家に行くぜ」という発言も含まれています。これは少し変ですよね。
次に、「AVM Visionはいつ登場するのか、なぜGPT-5は時間がかかっているのか、完全版のQについてはどうか」という質問がありました。最初、AVM Visionについて少し混乱しました。AIの文脈でAVMといえば、自動車の360度視界モニタリングのような意味で使われることが多いからです。
コメント欄の方が指摘してくれて分かったのですが、Advanced Voice Mode（高度な音声モード）のことでした。確かにデスクトップでAdvanced Voice Modeが使えるようになりましたが、最初のデモで見せられたような機能はまだありません。
そのデモでは、カメラを向けると、ビデオストリームを見てそれについての質問に答えることができるように見えました。例えば、自分にカメラを向けて悲しい表情をして「今の私の気分は？」と聞くと、デモで使用されていたAdvanced Voice Modeモデルが「悲しそうに見えます」などと答えていました。
これは、GoogleのProject Geminiに似ています。Pixelやその他のAndroidフォンで、例えばコードが書かれたホワイトボードにカメラを向けて「このコードをどう改善できる？」と聞くと、モデルが応答するというものです。
Samの回答は「Qとその後継モデルの提供を優先しています」というものでした。ストロベリーファミリーのモデルがあり、現在はQ Previewが利用可能で、Q* Miniもありますが、実際のQ本体、つまりQそのものはまだリリースされていません。まだアクセスできません。多くの人が混乱していますが、これはまだリリースされていないもので、まだ来る予定です。それからOrionというものもあります。
Samは続けて、これらのモデルは非常に複雑になっており、並行して多くのことを提供することができなくなっていると説明しています。興味深いことに、多くの素晴らしいアイデアに対してコンピューティングリソースをどう配分するかという難しい決断に直面しているそうです。
新しい希少資源となっているNVIDIAのチップ、つまりコンピューティングパワーには限りがあるため、全てのモデルを訓練したり改善したりすることはできません。最良のものに焦点を当てようとしており、それが推論モデル、Qなどのようです。Q、Orionなど、全てがその方向性にあります。
Advanced Voice Mode Visionについては、まだ日程は決まっていないとのことです。オープンソースについての質問もありましたが、以前に答えたことなので触れませんでした。今年後半には素晴らしいリリースがあると言っていますので、残り2ヶ月ほどで大きな発表があるようです。ただし、GPT-5と呼ばれるものではないようです。
誰かが「AGI（汎用人工知能）は現在のハードウェアで実現可能なのか、それとも全く異なるものが必要なのか」と質問しました。Samは「現在のハードウェアで実現可能だと考えています」と答えてはります。
過去にOpenAIのスタッフの何人か、たぶん去年のSam自身も、大規模言語モデルのハルシネーション（誤った情報の生成）はすぐに解決される問題だと言っていました。ここでの質問の一つは「ハルシネーションは永続的な特徴として残るのでしょうか？」というものでした。
また、「なぜQ* Previewでさえ、思考の終わりに近づくにつれてますますハルシネーションが増えるのか？2年前の古いデータでさえ、もはや真実ではないものをどう扱うのか？モデルを継続的に訓練するのか、それともある種のガベージコレクションのようなものがあるのか？」という質問もありました。これは真実性の観点から大きな問題です。
Mark Chenは次のように答えています：「ハルシネーションを減らすことに多くの焦点を当てていますが、これは根本的に難しい問題です。私たちのモデルは人間が書いたテキストから学習しますが、人間は時として、確信が持てないことでも自信を持って宣言することがあります。私たちのモデルは、信頼できる情報源を引用して回答の根拠を示すことが徐々に上手くなってきています。また、強化学習もハルシネーションの解決に役立つと考えています。モデルがハルシネーションを起こしているかどうかをプログラム的にチェックできれば、ハルシネーションを起こさないことに対して報酬を与えることができます」
「人間が確信が持てないことでも自信を持って宣言することがある」という考えに対して、フォローアップの質問は「Redditをデータセットから除外することを検討されましたか？」というものでした。Free Code、その通りですね。素晴らしい、よくできた質問です。もっと高評価されてもいいと思います。私はログインしていませんが、高評価を付けたいところです。
エンジニアリング担当VPのSrikanthも何個か質問に答えています。例えば「別の次元で時間を巻き戻して、もし19歳の開発者だったら、来年何をOpenAIのソフトウェアやAPIで作りたいと思いますか？」という質問に対して、「いくつかのアイデアがあります。お気に入りのアプリケーションや製品を選んで、AIでどう変革できるか再考してみましょう。エージェント的な未来に向けて何かを作る。アプリケーション間のワークフローを統合できるようなものです」と答えてはります。
エージェント的な未来というアイデアを強く推し進めています。ロンドンの開発者デーでのSam Altman、ここでのOpenAIのエンジニアリング担当VP、彼らはこれが大きな話題だと考えているようです。推論、エージェント的な能力など。最近、エージェントがエージェント的なタスクをどれだけうまく実行できるかをテストするベンチマークをリリースしました。
具体的には、機械学習のタスク、つまり機械学習研究を行う人々が行うようなタスク（データセットの収集、特定のタスクを完了するためのモデルの訓練など）に焦点を当てています。
誰かが「AGIが実現したら、最初に何に応用したいですか？その瞬間のために待機している特定の分野はありますか？」と質問しました。Srikanthは「科学的発見を加速させることに興味があります。個人的には健康とSLAM（医療）に非常に興味があります」と答えてはります。
これは大きな話題です。Google DeepMindの創設者でCEOのDemis Hassabisが、AIによる健康・医療分野での発見についてかなり印象的な発言をしていたのを覚えていますか？具体的には、AlphaFoldモデルや、AlphaProteinという別のモデルについて話していました。
これはプロテオミクス、つまりタンパク質とその機能の研究、そして場合によっては設計タンパク質（他のタンパク質と結合するタンパク質）を作成して、人体やそこで行われるプロセスをより制御できるようにすることについての話です。
彼はインタビューのある時点で、10〜20年以内に全ての病気が（治療可能になる）可能性があると信じていると述べました。これは考えただけでも驚くべきことですが、確かに生命の基本的な構成要素を設計する方法を学び、その機能についてより理解を深め、AIがそれを解明するのであれば、それほど突飛な話ではないのかもしれません。
誰かが「あなたが見た中で最高のパーソナルアシスタントのワークフローは何ですか？」と尋ねました。彼が特に興味深いと感じた2つは、医療レポートを要約し、医師に適切な質問をするのを手伝うこと、そして契約書を精査して見落としがちな細かい部分を拾い出すことでした。
例えば、賃貸契約書をアップロードして「含まれる可能性のある全ての料金をリストアップして」と依頼すると、驚くほど多くの料金が記載されていることが分かりました。単に「fee」という単語を検索しただけでは見つからないようなものもありました。例えば「カーペットが破損した場合や元の状態でない場合は補償を提供する」といった記述です。これは料金という言葉は使われていませんが、何かが期待される状態でなければ料金が発生するということです。
Chat GPTの新しい検索機能を試したことがありますか？誰かが「Chat GPTの検索はまだBingを検索エンジンとして使用しているのですか？」と質問しました。エンジニアリング担当VPのSrikanthは「私たちは複数のサービスを使用しており、Bingは重要な一つです」と答えてはります。
確かに、多くの出版社とのつながりを築いています。AP Newsを含む多くの出版社との提携を発表しているのを見たことがあると思います。出版社とのパートナーシップを結んでいるので、何らかの取り決めや合意のない相手からよりも、そういった提携先からより多くの情報を引き出していると思われます。
Kevin Waleの回答の中で印象的だったのは、「Chat GPTは自力でタスクを実行できるようになりますか？」という質問に対して、「私の正直な意見では、これは2025年の大きなテーマになるでしょう」と答えていたことです。
これらが私にとって印象的だった主なポイントです。皆さんはどう思われましたか？考え方が変わったことはありましたか？
私にとっては、エージェントと大規模言語モデルによる様々なエージェント的タスクが、はるかに大きな優先事項になるという考えが強化されました。世界がどのように変化し、それに適応していくのかを見るのは確かに興味深いでしょう。
ここでは触れられていませんが、ロンドンの開発者デーでSam Altmanが言及していたことがあります。「ネタバレしたくはないのですが、画像ベースのモデルの分野で大きな進歩やブレイクスルーがあると予想しています」と述べ、言葉による推論と視覚的な推論について話していました。
確かに、次の大きな展開は、これは私の推測に過ぎませんので、それ以上のものとして受け取らないでください。おそらくQのようなモデル、そのような推論モデルですが、Samが言ったように、より画像ベースのものになるのではないでしょうか。
つまり、画像認識と視覚的推論に主眼を置いた、優れた推論能力を持つモデルです。過去のモデルは、例えば速度計の理解が非常に苦手でした。速度が上がると針が上がる旧式の速度計について、うまく理解できませんでした。
うまく解釈できるグラフもありましたが、少し変わったグラフになると全く理解できないものもありました。認識して推論する能力が完全に失われていました。したがって、視覚ベースの推論モデルは、既存のものに大きな追加になるでしょう。
また、これらのモデルを統合・結合することも検討しているようです。おそらくQがテキストの推論者となり、視覚モデルがそれと何らかの形で統合されて視覚的推論を支援する、といった具合でしょう。
繰り返しになりますが、これは私の推測に過ぎず、確実なことは分かりません。しかし、彼らの発言からすると、おそらくこの方向に向かっているように思えます。Q*タイプのモデルについて、より多くの進展とリリースがあると言っていることに注目してください。この方向に焦点を当てた複数のものが登場するように見えます。
コメント欄で皆さんの意見を聞かせてください。Redditで質問をした方がいらっしゃれば、教えてください。それは面白いですね。
それでは、私はWes Rothです。ご視聴ありがとうございました。