OpenAIのO1-Full、Preview、そしてMiniモデルについての考察

3,012 文字

Reflecting on OpenAI’s o1-Full, preview, and mini Models

I share some thoughts I’ve had since getting a glimpse of OpenAI’s full o1-model.

みなさん、こんにちは。今回はいつもとちょっと違う種類の動画になります。LLMのテストはしませんで、この機会にOpenAIから誤って、あるいは早めにリリースされたO1フルモデルの使用経験について振り返ってみたいと思います。
私はAIの分野に入ってまだ2ヶ月未満で、まだまだ多くのことを理解している最中です。多くの人にとっても新しいものやと思います。私のチャンネルはこれらのモデルに対する好奇心を探求するものであり、開発者の方々にとって何かしら面白くて役立つものになればええなと思っております。OpenAIや他のスタートアップの方々からも、私のやってることは本当にええことやと言うてもらってるので、できる限り続けていきたいと思います。みなさんの応援にも感謝しております。
人工知能の未来について少し話をさせていただきたいと思います。というのも、O1 mini、O1 preview、そして先日使用したO1フルモデルによって、人工知能で可能なことについての考え方が大きく変わったからです。
2023年に博士課程を終える頃、ChatGPT 3.5と4が登場した時、確かに印象的でしたが、地球を揺るがすほどすごいとは思いませんでした。「確率的オウム返し」以上のものにはならへんやろうと。パラグラフや文章、提供されるコードスニペットがかなり現実的に見えたことには感心しましたが、完璧ではなかったものの、quasi（擬似的）な人間らしさがありました。
でも今、O1 mini、O1 preview、そして開発中のO1フルモデル（ちょっとだけ試させてもらいましたが、恐らく更新や調整が入るでしょう）によって、状況が変わってきています。これらのAIモデルは「推論」ができるようになってきており、AIエージェントが自律的にタスクをこなせるようになってきているんです。
私はO1を使用していて、それが独自の方法で推論できることを目の当たりにし、さらにOpenAIが社内でO1のビジョンとオーディオを持っているということ、つまりマルチモーダルで動画やリアルタイムの画像を取り込んで、それらについてコメントや判断、推論をリアルタイムでできるO1モデルを持っているということを考えると、すごく印象的でありながら、ちょっと怖くもあります。
多くの人々のことが心配です。というのも、これらのモデルによって完全に置き換えられる可能性のある産業があると思うからです。パニックを引き起こそうとしているわけでも、甘く言おうとしているわけでもありません。論理的な次のステップについて、私の考えを伝えたいだけです。
規制に関してはまだまだ多くの問題や障壁があります。これがどのように実装されるのか、置き換えられる人々を政府がどのように支援するのか、多くの不確実な要素があります。世界を見渡しても、具体的なことは挙げませんが、様々なことが起こっていて、非常に混沌として不確実な時代に生きています。
サンフランシスコベイエリアに住み、このYouTubeチャンネルを持ち、時には AIに歌を歌わせたり、いろんなおもしろいことをさせたりする、ちょっとシリアスさに欠ける動画を作れる機会があることに、本当に感謝しています。
でも、ユーモアは別として、私の探求の核心には、人類の未来に対する好奇心と懸念が根底にあります。世界的な大惨事でもない限り、AIは最終的に私たち全員に影響を与えるということは、もはや大げさな表現ではないと思います。
その展開と普及には時間がかかり、アメリカのような国が最初に恩恵を受け、その後世界の他の地域に広がっていくでしょう。iPhoneやインターネットのような現象ですが、時間とともに自己改善できるという点が違います。
今日、スタンフォード大学のアンドリュー・ンが設立したdeeplearning.aiのコースを受講しました。LLMメモリとRAG（Retrieval Augmented Generation）に関する1時間のコースでした。RAGについては受講前はあまり知りませんでしたが、記憶を保存でき、私たちの脳よりもはるかに速く計算でき、いつか再帰的に自己改善できる可能性のあるこれらのモデルについて考え始めると、私たちは本当に準備ができているんやろうか？という疑問が湧いてきます。
個人的な感覚として、まだ準備はできていないと思います。大多数の人々はChatGPTについて聞いたことがある程度で、AIについてあまり知らないからです。実際に使用している人はさらに少ないかもしれません。この技術の変革的な能力について知っている人々は、みなさんの多くも含まれていると思いますが、本当に小さなバブルの中にいるんです。
時々自分を見つめ直して考えます。これは大げさすぎへんやろうか？結論を急ぎすぎてへんやろうか？私は懐疑的で客観的、そして微妙なニュアンスを保ちたいと思っていて、不当なハイプや誤情報の発信者になりたくありません。
同時に、これらのモデルを動画で使用し、実験して、何ができるのかを見ています。動画での私の反応は本物です。これらのAIモデルの能力に対する驚きと畏敬の念、そして不思議さは本物なんです。
以前も業界の様々な人に言いましたが、今すべてが止まったとしても、O1がOpenAIから得られる最後のものになって、どうにかして収益を上げ続けられるとしても（どうやってかは分かりませんが）、特にオーディオや音声と組み合わせてマルチモーダルになれば、多くの産業にとってゲームチェンジングな技術やと思います。
もちろん、彼らは止まらないでしょう。恐らくO2はすでにあるか、開発中やと思います。私はOpenAIで働いているわけではないし、これはOpenAIのスポンサード動画でもありません。ちなみに、OpenAIの皆さん、先日モデルを見せてしまってすみません。怒らんといてください。
繰り返しになりますが、エキサイティングな時代である一方で、懸念すべき時代でもあります。AIにあまり興味がない、または詳しくない身近な人々のことをよく考えます。人間の労働の必要性を徐々に減少させていく、常に進化する技術の影響を受ける可能性のある人々のことを。
はっきり言って、AIに詳しくない人々や、AIによって自動化される可能性のある仕事に就いている一般の人々に対して、権力者たちがこの新しい経済で生き残るために必要な支援やリソースを提供する道筋が、完全には見えていません。
まあ、10分近く話し続けてしまったので、そろそろ終わりにしようと思います。この動画を見ていただき、ありがとうございます。人工知能について考えを共有し、これらのモデルをテストし、サンフランシスコでのイベントや動画を通じて、本当にクールな技術を開発している素晴らしい人々に出会える機会を持てることに感謝しています。
時々、私はこの分野で何をしているんやろう、何も分からへんのに、と考えることがあります。でも、それこそがAIの素晴らしいところの一つやと思います。AIは多くのことを学ぶのを助けてくれます。私もChatGPTやClaudeなどを使って、新しいアイデアや概念を学び、自分で勉強しています。これからも続けていくのが楽しみです。
視聴ありがとうございました。近いうちに他のテスト動画も投稿しますので、良い夜をお過ごしください。