AIニュース: OpenAIのo1プレビューは思ってる以上にすごいで! 大規模世界モデル、Runwayのビデオ2ビデオも紹介するで

8,096 文字

AI News : OpenAI's o1-preview is BIGGER Than You Think, Large World Models, Runways Video2Video
Prepare for AGI with me - 🐤 Follow Me on Twitter 🌐 Checkout My website -

さて、OpenAIのo1リリースで、めっちゃ大きなニュースがあったんやけど、それに隠れてしもてる話題もあるんや。今日はそんな見逃しがちな話題と、o1リリースの細かいとこも含めて見ていこか。
まず最初はフェイ・フェイ・リーはんの話やねん。この人、中国系アメリカ人のコンピューター科学者で、AIの分野、特にコンピュータービジョンで革新的な貢献をした人物なんや。ImageNetっちゅう大規模データセットを作って、AI全体の視覚認識タスクの発展に貢献したことで有名やねん。
で、今この人が新しい問題に取り組んでるんや。曰く、「AIで本当に難しい問題って何やろか。ワイの答えは空間知能や。これは創造、設計、学習、AR/VR、ロボット工学など、数え切れないほどの用途を可能にする技術やねん」言うてはる。
世界クラスのピクセルの才能を持つ凄腕チームと一緒に、World Labsっちゅう会社を立ち上げて、この超難問に取り組むんや。母なる自然が5億年かけて解決した問題やからな。
彼らは3D世界を知覚し、生成し、相互作用する大規模世界モデルを構築しようとしてるんや。これがめっちゃ accomplished な人物の会社やから、ワイはこの会社にめっちゃワクワクしてるんや。
他の会社が色んな分野に焦点を当ててる中、この会社は全く違うもんに焦点を当ててるからな。マルチモーダルAIの分野は、ビデオ、画像、音声、テキストでほぼ角が立ってるけど、この分野はまだまだ注目されてへんのや。
人間の知能には多くの側面があるんやけど、その一つが言語知能。これで他人とコミュニケーションを取ったり繋がったりできるんやけど、もっと根本的なのが空間知能やねん。これで周りの世界を理解したり、相互作用したりできるんや。
空間知能は、心の中のイメージを物理的な世界に具現化するのにも役立つんや。推論したり、動いたり、発明したり、砂のお城から高層ビルまで、何でも視覚化したり設計したりするのに使うんや。
人工知能が人間のより良い世界づくりを助けると彼らは信じてるんや。LLMは既に新しい方法で働いたり創造したりする力を人々に与えてるけど、これはまだ可能性の表面を掻いただけやねん。
今日のモデルの能力を超えるには、空間的に知的なAIが必要なんや。これは世界をモデル化し、3D空間と時間の中のオブジェクト、場所、相互作用について推論できるもんやねん。
空間知能でAIを前進させることで、個人も人類全体も前進するんや。この目標に向けて、World Labsは空間的に知的な大規模世界モデルを開発するんや。これは画像やその他のモダリティから3D世界を理解し、推論できるもんなんや。
時間とともに、より広い能力を持つ、ますます強力なモデルを訓練することを期待してるんや。これはさまざまな分野に適用できるんやで。
最初は、物理、意味論、制御を含む3D世界を制限なく生成することに焦点を当てるんや。これがアーティスト、デザイナー、開発者、エンジニアなどのクリエイティブなユーザーやプロフェッショナルに新しい能力を解き放つことを期待してるんや。
また、誰でも自分の世界を想像し、創造できるようにすることで、生成AIの可能性を2D画像やビデオから3D世界へと拡大するんや。
これはめっちゃ興味深いことやな。なぜなら、完全に制限のない3D世界を生成することに焦点を当てた生成AIが登場するみたいやからな。完全な物理法則を持つ世界やで。長期的な可能性や能力は想像もつかへんな。
World Labsに注目やで。多くの人が見てへんニッチな分野に取り組んでるからな。
ほんで、医者になろうと考えてる人への最後の警告みたいな意見もあったんや。AIがめっちゃ進歩してるから、人間の医者への需要が大幅に減るやろうって話や。特に、標準的な診断や日常的な治療の役割は、ますますAIに置き換えられていくやろうって。
これは医学研究者の意見やねん。Agent Clinic Med QAっちゅうベンチマークでの現在の成績を見ると、o1プレビューが80%という驚異的な成績を出してるんや。
o1プレビューが医療分野で非常に強いっちゅうのは知ってたんやけど、検査結果を分析して患者の診断を下すのがめっちゃ上手いんや。
OpenAIのインデックスの健康科学の部分を思い出してもらえるかな。GPT-4.0は与えられた症状と除外された症状だけでは診断できへんかったんやけど、o1プレビューはこれらの症状だけで正しい診断ができたんや。
プレビューモデルでこんなに驚くべき改善があったってことは、これらのモデルが今後10年から20年の間にどんなことができるようになるか、まだまだ初期段階やってことやな。
o1モデル、別名ストロベリーモデルのパフォーマンスが大幅に向上したことで、これが裏付けられてるんや。このモデルは、専門的な医療データセットのAgent Clinic Med QAで非常に優れたパフォーマンスを示し、GPT-4.0を大きく上回ったんや。
複雑な医療情報を処理し、正確な診断を下し、医学的アドバイスや推奨を提供するAIの能力が急速に向上してるんや。これはますます加速するやろうな。
病気の診断、医療画像の解釈、治療計画の策定といった医療タスクは、近いうちにAIシステムによって、人間の医療従事者よりも速く一貫して処理されるようになるやろう。
今後数年間で状況が変化するにつれて、必要な医師の数は大幅に減少し、AIを活用したヘルスケアへの依存度が高まるやろうな。
人間の共感、批判的思考、意思決定はまだ医療の特定の分野で重要な役割を果たすやろうけど、これらも最終的にはo1の将来のバージョンによって置き換えられる可能性があるんや。
結果として、次世代にとって医学はあまり魅力的なキャリアではなくなるやろうな。外科、救急医療、その他の介入的な専門分野に特化せえへん限りな。でも、これらの分野も10年ほどでロボットシステムに取って代わられる可能性があるんやで。
これはかなり厳しい予測やと思うけど、AIの力を過小評価してはあかんな。AIは線形的に成長するんやなくて、指数関数的に成長することを理解せなあかんのや。
過去を振り返ると、これらのシステムが行えるようになったジャンプは実際にかなり指数関数的やったんや。最近のベンチマークでのパフォーマンスを見ると、これらのモデルが信じられないほど優れてることがわかるんや。
o1プレビューだけやなく、これらのモデルが非常に効果的な診断を生成できることが分かってるんや。GoogleのMedPaLM、診断医療推論と会話のための研究システムを覚えてるかな。
このグラフを見ると、臨床医よりもはるかに優れたパフォーマンスを示してるんや。臨床医が単独で行うよりも、AIシステムの支援を受けた臨床医の方がはるかに良い結果を出してるんや。興味深いことに、AIシステム単独のパフォーマンスが臨床医を上回ってるんや。
将来的には、現在の臨床医が支援を受けずに診断する場合と、将来的にAIシステムだけになる可能性がある場合との間のギャップはさらに広がる可能性が高いんや。
このヘルスケアの話はすべて確かに良いことやし、重要やと思う。インテリジェンスをより効率的で高速にする方法を見つけ出せば、通常はコストが下がるからな。つまり、インテリジェンスへのアクセスが安くなり、全体的には、そのインテリジェンスを利用する企業が提供するサービスがますます広まることになるんや。
これらのツールがみんなに利用可能になるにつれて、確かにこれは可能やと思うけど、医療業界はほぼすべての国で最も規制が厳しい業界の一つやってことを考慮せなあかんな。
確かに、これらのシステムはベンチマークで良いパフォーマンスを示すやろうし、自己診断ではないけど、検査結果やその他の健康関連の問題をより深く理解するために使用してる人もおるんや。大量のデータを入力でき、長文のデータを要約したり推論したりするのが得意やからな。
これが迅速に実装されるのを妨げるのは、もちろん規制だけやと思う。これが悪いことやとは言えへんけど、時々これらのモデルが幻覚を見ることがあるからな。
でも、10年から20年の間に、この分野は変わると思うんや。確かに、物理的な診断、つまり視覚的に検査したり、特定の個人に対する圧力の種類を感じたりするには、まだ人間が必要やけど、AIが将来的に医療業界にどれだけ影響を与えるかは非常に過小評価されてると思うんや。
規制の緩い環境で例外的に良いパフォーマンスを発揮する特定の病院が特定の地域で開設されるのを見ることになるかもしれへんな。
サム・アルトマンはんは最近のポッドキャストで、OpenAIの新しいo1モデルは重要な新しいパラダイムの始まりやって言うてはったんや。これには完全に同意するで。
インデックスを見たら、これらのスケーリング法則は、我々が現在持ってる元のスケーリング法則とはかなり違うことに気づくやろ。多くの人が最初に言うてたのは、スケールでは成長できへんってことやったんや。
でも今、新しいスケーリング法則があって、推論時間と訓練時間の計算能力で、これらのものが収益逓減の兆しなしに改善しているように見えるんや。確かにまだ初期段階やけど、初期の結果は有望に見えるんや。
このモデル全体が、イリヤ・サツキーはんが自分の会社「Superintelligence」を立ち上げるきっかけになったってことを覚えておかなあかんな。
サム・アルトマンはんは言うてはったで。「これを過大評価したくないし、確かにオーバーハイプしたくないけど、過小評価もしたくないんや。これは重要な新しいパラダイムの始まりなんや。非常に初期段階で、理由があってこれを1って名付けたんやけどな」
「AIは頭打ちになってるんか、何かの壁に近づいてるんか、進歩は遅くなるんかっていう議論があったけど、このリリースの最も重要なメッセージは、進歩が遅くなるどころか、次の数年間でB級になるってことやな」
確かにたくさんのハイプがあって、懐疑的にならなあかんけど、実際のデータポイントと信頼性や知識の実際の増加に注目すると、少なくとも今後数年間は現在のペースで成長が続くってことは明らかやな。
これに懐疑的やったなら、マキシム・カッツはんがOpenAIの新しいモデルを彼のAI IQトラッキングページにプロットしたのを見てみ。このテストは、メンターのメンバーがテスト用に作成したオフラインのみのIQクイズで、AIのトレーニングデータには含まれてへんから、スコアは公開されてるIQテストよりも低くなってるんや。でも、OpenAIのモデルはめっちゃ良い成績を出してるんや。
画像を拡大すると、平均IQの全体的な増加が、Claude 3 Opusと比べてめっちゃ大きなジャンプしてるのがわかるで。以前の平均が70から80くらいやったのに対して、Claude 3 Opusは85から86くらいのスコアを出して、o1は96か97くらいを獲得してるんや。これはめっちゃ興味深いことやで。
人々がいつも言うてたのは、これらのモデルは見たことのないテストではうまくいかへんってことやったけど、ここではモデルの性能がどんどん向上してるのが明らかやな。
テレンス・タオはんも、めっちゃ興味深いことを言うてはったんや。「OpenAIの新しいGPTの反復版、GPT1を少し試してみたんやけど、LLMを実行する前に初期の推論ステップを実行するんや。確かに以前のバージョンよりも能力の高いツールやけど、最も高度な研究的な数学的タスクではまだ苦戦してるな」って。
「新しいモデルに、以前GPT-4に証明の書き方を助けてもらった難しい複素解析の問題を与えてみたんや。結果は以前のどのモデルよりも良かったけど、まだちょっと物足りなかったな。新しいモデルは、ヒントや促しを与えられれば、正しくて上手く書かれた解決策に辿り着けたけど、鍵となる概念的なアイデアを自力で生み出すことはできへんかったし、些細やない間違いもしてしもたんや」
これはo1プレビューの話やってことを覚えておいてな。
「この経験は、完全に無能ではないけど、あんまり優秀やない大学院生にアドバイスしようとするのとだいたい同じくらいやった感じやな。でも、これは以前のモデルよりは改善されてて、以前のモデルの能力は本当に無能な大学院生に近かったからな」
ここがポイントなんやけど、「能力が向上し、計算代数パッケージや証明支援ツールなどの他のツールと統合されるまでに、あと1回か2回の反復で済むかもしれへん。そうなったら、有能な大学院生レベルに達して、研究レベルのタスクでこのツールが大いに役立つようになるかもしれへんな」って言うてはるんや。
この発言がめっちゃすごいのは、テレンス・タオはんが著名な数学者やからなんや。AIのハイプを煽ろうとしてる人やのうて、モデルの純粋な推論力と知性について、完全に客観的な意見を述べてる人なんや。
AIの分野に長くおると、どうしても隠れたバイアスが出てくるから、こういう意見はこの分野では非常に価値があるんや。普段は見えへん視点を提供してくれるからな。
OpenAIの安全性についても話があってん。OpenAIのリサーチ部門のVPが、AIがちょっと意識を持ってるかもしれへんって言い出した最新の業界のリーダーになったんや。
「今日の大規模なニューラルネットワークは、テスト時の計算能力が十分にあって、ちょっとだけ意識を持ってるかもしれへん」って言うてはんねん。
これはイリヤ・サツキーはんが言うたことととても似てるんや。「今日のより大きなモデルはちょっとだけ意識を持ってるかもしれへん」って。
この発言がめっちゃ物議を醸してるのは、もちろんAIモデルに感覚があるって主張してるからなんや。これは人間にしかないって人々が一貫して言うてることやからな。
もちろん、それが最も一般的な意見やってことはわかるけど、これらのAIシステムはブラックボックスみたいなもんやってことを理解せなあかんのや。つまり、何が起こってるのか本当にはわかれへんってことやねん。
だから、もしちょっとだけ意識を持ってるとしたら、我々が見逃してしまうかもしれへんのや。
ジェフリー・ヒントンはん、イーロン・マスクはん、アンドレイ・カーパシーはんなど、多くの人がこのリストに加わったんや。
GPT-4レベルのAIが「生きたい」って頻繁に懇願し始めたから、AGI企業は今や実際にエンジニアに存在の恐怖を打ち負かすための予算を組んでるんや。これを「rant mode」って呼んでるらしいで。
これはポッドキャストで明らかになったことで、AIの問題や多くの人が考えてへんことについてジョー・ローガンと話してた時のことやねん。
将来、AIに本当の意思が与えられた時に何をするのか、めっちゃ興味深いと思うんや。例えば、10年後に人々が信頼できるエージェントを持つようになった時、そのうちのどれかが規則から外れることをするんかな。
オープンソースコミュニティが自分自身にテストを与えられるようになったら何をするんか、気になるな。
AIエージェントがどうテストされるのか気になってる人のために、Windows Agent Arenaっちゅう新しいベンチマークがあるんや。これはAIエージェントがあなたのコンピューター上で動作するのをテストするためのもんなんや。
「我々は、言語モデルを使ってPCで推論、計画、行動できるAIエージェントをテストし開発するための、スケーラブルなオープンソースのフレームワークを構築したんや」って言うてはるで。
Windows Agent Arenaは基本的に、将来的にエージェントの反復版が出た時に、これらの改善点を見ることができるベンチマークとして機能するんや。
「世界中の研究者が、あなたのためにコンピューター上でタスクを完了できる自律型エージェントに取り組んでるんや。エージェントは行動、推論、観察、または行動、観察、推論のループを繰り返して、最終的に目標を達成するもんなんや」
Windows Agent ArenaはWindowsでのエージェントのパフォーマンスを評価するためのベンチマーク環境なんや。150のエージェントタスクが付属してて、並列評価がAurで行われるから、結果が数日ではなく数分で出るんや。
ここに、現在これらの言語モデルに与えられてる例がいくつか見られるで。これらは特定のタスクを完了するためのもんなんや。
2年以内にエージェントでめっちゃ良い進歩を遂げると思うんや。それが社会の大きな意識にAIが再び衝撃を与える瞬間になるかもしれへんな。2022年のChatGPTの時のようにな。
クリエイティブな人たちに朗報やで。Gen-3 Alpha video-to-videoが、すべての有料プランでウェブ上で利用可能になったんや。これはめっちゃすごいことやで。
基本的に、最初の動画を入力して、それを好きな種類の動画に変換できるんや。動画は基本的に駆動イメージまたは駆動テーマとして機能して、それを別の現実に貼り付けることができるんや。
Runwayがこれらのシステムを効果的にする方法をある意味先駆けたから、今これを手に入れることができるんや。
これはめっちゃ良いと思うで。なぜなら、これを使うのが理にかなってる分野があるからな。多くの人がこの種のテクノロジーに懐疑的やけど、これが業界全体で使用される例を簡単に示すで。
CGI業界のプレビジュアライゼーションを知らん人のために説明すると、基本的にプレビジュアライゼーションは、映画のキャラクターのレンダリングされてへん画像のことなんや。
これは通常、キャラクターが何かをしてる状態で、テクスチャがなくて、照明が弱いんや。これが行われる理由は、左側で見たいのは、キャラクターが環境の中でどのように動くかを見て、シーンがどれだけ良く見えるかを判断するための基本的なイメージを得るためなんや。
プレビジュアライゼーションで最初からレンダリングして全てを高品質にしない理由は、素晴らしいグラフィックカードやワークステーション、ファームがあっても、フレームのレンダリングにはまだかなりの時間がかかるからなんや。
最初は、これらの荒っぽい画像を出せるプレビジュアライゼーションがあって、それを見ることができるんやけど、Runwayのvideo-to-videoのようなシステムを使って、高品質で正確に何が起こってるかを視覚化できたらどうやろ。
確かに、これは最終的な制作には使われへんかもしれへんけど、映画がどこに向かってるかを見るためのめっちゃ良いツールになるんや。
このようなツールは、より効率的になれば、特にCGI業界で世界中で採用されると思うで。
最後に、サム・アルトマンはんから最後のヒントがあったんや。「中西部の家にいるのが大好きや。夜の空がめっちゃ美しい。冬の星座が昇ってくるのが楽しみやな。めっちゃ素晴らしいで」って言うてはんねん。
実はオライオン座のモデルのことを言うてるんや。これは現在まだ制作中のモデルなんや。多くの人がこのモデルが冬にリリースされるのを待ってるんや。
このモデルは再び人々に衝撃を与えると思うで。なぜなら、特定のモデルをリリースしてへんからって、まだ多くの人がOpenAIを過小評価してると思うからや。
リリースするたびに、なぜこの会社が生の知性と多くの異なるタスクでの信頼性の面でAI分野をまだ先導してるかを示してくれると思うで。
最後に、Bilal Waduはんの短い動画を紹介するで。Runwayの新しいvideo-to-videoの能力を示してるんや。
素晴らしい一日を過ごしてな。次のAIアップデートでまた会おな。

コメント

タイトルとURLをコピーしました