AIが再び衝撃を与える: OpenAIのAIロボット、Orion GPT5、Flux、Grok 2、Gemini Live、他多数 (8月の月間ニュース)

※長文のため、テキスト読み上げ機能の使用を想定しております。各OS標準搭載の「読み上げコンテンツ」、Microsoft Edgeの「音声で読み上げる」、Safariの「ページの読み上げを聞く」などをおすすめします。

AI Shocks Again: OpenAI AI Robot, Orion GPT5, Flux, Grok 2, Gemini Live & More (August Monthly News)
Don’t let AI leave you behind - get updates at month, AI has reached a new level, with breakthroughs that are both excit...

この月、AIは新たなレベルに達し、興奮と恐怖を同時にもたらす画期的な進展がありました。OpenAIによる新しい人型ロボット Figure 02の発表から、アップグレードされたチャットGPTのひっそりとしたローンチまで、AI技術を進歩させる競争は白熱しています。Googleの最新AIモデル、アップグレードされたGemini Pro 0.81や新しくリリースされたGemini Liveが注目を集める一方、新しいAIロボットは人間と機械の能力の境界線をあいまいにし始めています。
一方、OpenAIのOrion GPT-5とStrawberry AI、そしてGoogleの最先端AI革新は、人工知能の次の時代の舞台を整えています。そしてそれだけでなく、自律型AIサイエンティストや、Grok 2.0やAgent Qといった強力な新ツールの登場も見られ、達成可能なことの定義を塗り替えています。2024年8月における最も驚くべきAIストーリーを明らかにしていきますので、ぜひ最後までお付き合いください。
さて、AIの画像生成の分野で非常にエキサイティングで、正直なところ少し恐ろしいものについて話しましょう。AIによる画像生成の分野をしばらく追ってきた方なら、Midjourney、DALL-E、Stable Diffusionといった大手プレイヤーが市場を支配してきたことをご存じでしょう。しかし、新たな挑戦者が登場しました。その名はFluxです。これについては知っておく必要があります。
では、どこから始めましょうか。まずは、AI業界で何が起こっているかについて少し背景説明をしましょう。ここ数年、AIによる画像生成ツールの大ブームが起きています。Adobe Firefly、Midjourney、DALL-E、Stable Diffusionなどが、トップの座を争って競い合い、それぞれがアップデートを重ねて境界線を押し広げてきました。しかし今、新しいものが登場し、誰もが注目しています。
想像してみてください。ソーシャルメディアのフィードをスクロールしていると、あまりにもリアルな画像が目に入り、写真だと確信してしまいます。しかし、よく見ると何かおかしいことに気づきます。首からぶら下がっている名札のテキストが少し変だったり、背景のパターンが少しおかしかったりします。そこで気づくのです。これは写真ではなく、AIが生成した画像なのだと。そして、この画像は実物と見分けがつかないほどリアルなのです。これがFluxなのです。そして、これは大きな話題を呼んでいます。
Fluxは、Black Forest Labs社が開発しているオープンソースのAI画像生成ツールです。この名前に聞き覚えがないかもしれませんが、Stability AIで働いていた人々が関わっているという事実は印象的でしょう。そうです、Stable Diffusionを手がけた同じチームです。Stable DiffusionがAIアート界で大きな存在感を示していることはご存知の通りです。
この会社は、テキストから動画を生成するモデルも開発中で、高品質な出力を提供し、オープンソースで利用可能になると約束しています。「すべての人のための最先端のテキストから動画への変換」とうたっています。最近、有名なテック投資家アンドリーセン・ホロウィッツからの支援を受け、3100万ドルの資金調達ラウンドを成功させたことから、彼らが強固な基盤を持っていることは明らかです。
彼らのホームページの「What’s Next」セクションによると、次のモデルは「Soda」と呼ばれ、誰もが利用できるようになる予定です。一方、OpenAIの動画生成ツールSoraは6ヶ月前から存在していますが、まだ限られたテスターにしかアクセスできません。
では、Fluxの何がそんなに特別なのでしょうか。まず、オープンソースであることが挙げられます。つまり、コードが公開されており、誰でも改変したり、自分のプロジェクトに組み込んだりすることができます。これは、開発者やホビイスト、さらには高価な独自ツールに投資する余裕のない中小企業にとって、大きな柔軟性を提供します。
実は、Fluxには3つのバージョンがあります。まず、商用利用を目的としたProバージョンがあります。これは大物です。製品やサービスに高品質なAI画像生成を組み込みたい企業向けのモデルです。次に、開発者向けのDevバージョンがあります。これは中量級モデルで、Proバージョンほど重厚ではありませんが、まだ強力な中間的な存在です。最後に、Schnellバージョンがあります。ドイツ語で「速い」という意味で、名前の通りスピードに特化しています。このバージョンは、画像生成に2〜3秒しかかからず、非常に高速です。軽量で高速なモデルで、超高性能なマシンを必要とせずに素早い結果を求める人に最適です。
実行について言えば、Fluxが競合他社と一線を画しているのは、比較的控えめなハードウェアでも動作することです。つまり、それなりに性能の良いラップトップがあれば十分なのです。これは大きな利点です。高性能なスーパーコンピューターやクラウドサービスを必要とせずに、高品質なAI画像生成を幅広い層にアクセス可能にするからです。
リアリズムについて話すと、Fluxは明らかなリーダーとして際立っています。先ほど述麉したように、Fluxが作成する画像は非常にリアルで、AIが生成したとは信じがたいほどです。しかも、フォトリアリズムだけではありません。新しい機能やプリセットもたくさん追加され、思い描いた通りの画像を簡単に作成できるようになりました。スタイリッシュな3Dレンダリング、アニメ風のキャラクター、テキストを含む詳細なグラフィックデザインなど、何でも可能です。
Fluxの真価を理解するには、ここ数ヶ月の状況を振り返る必要があります。AI画像生成の分野では多くの進展がありました。Flux Oneがリリースされ、現在はグロンXにおける主要な生成ツールとなっています。Flux Oneは大きな動きを見せ、Stable Diffusion XL、Ora Flow Qui Colors、Hunanなどの有力プレイヤーと並んで、市場での地位を確立しています。競争は激しく、新しいプレイヤーが次々と登場して注目を集めているような状況です。
しかし、ここがポイントです。Idag 2.0は単に競争するだけでなく、凌駕することを目指しています。彼らの公式発表では、新しいモデルが画像とテキストの整合性、プロンプトと画像の一致度、さらには画像内のテキストの正確な描画など、いくつかの重要な分野で競合他社を凌駐していると明言しています。最後の点は特に重要です。AIによる画像生成では、テキストの描画が常に弱点でした。しかし、もはやそうではないようです。
これらの小さな不完全さにもかかわらず、Fluxが生成する画像はバイラルになっています。その理由は明らかです。Fluxが達成するリアリズムのレベルは驚くべきもので、この技術の潜在的な用途について人々の間で話題を呼んでいます。考えてみてください。ストック写真、広告、ソーシャルメディアのコンテンツなど、リアルな画像には大きな市場があり、Fluxはこの分野のゲームチェンジャーになる可能性があります。
しかし、数回のクリックで超リアルな画像を作成できるのは素晴らしいことですが、この技術にはより暗い側面もあります。AIが生成した画像がフェイクニュースの作成、詐欺の実行、あるいは誤情報の拡散に使用される可能性について、すでに懸念の声が上がっています。これらの画像がますますリアルになればなるほど、何が本物で何が偽物かを見分けるのが難しくなります。これはかなり恐ろしい考えであり、AI技術が進化し続ける中で私たちが取り組まなければならない問題です。
しかし、ここでは悲観的な話に深入りしすぎないようにしましょう。Fluxには、特に新しい技術を試すのが好きな人にとって、まだまだ興奮する要素がたくさんあります。自分で試してみたいと思った方には、いくつかのオプションがあります。decent GPUを搭載した良いラップトップをお持ちであれば、実際にFluxをローカルでダウンロードして実行することができます。Pinocchioというランチャーがあり、これを使えば非常に簡単にセットアップできます。ファイルサイズが大きいのでダウンロードに時間がかかる場合がありますが、一度ダウンロードしてしまえば、自分のマシンで直接画像を生成できます。クラウドサービスやインターネット接続に頼る必要はありません。
しかし、お使いのコンピューターの性能が不十分な場合でも心配する必要はありません。Fluxをすでに統合している多くのオンラインプラットフォームがあります。例えば、NightCafeは人気のあるAI画像プラットフォームの1つですが、Fluxを自社のラインナップに追加しました。つまり、Fluxを使って画像を生成し、Ideogram、Stable Diffusion 3など他のモデルで生成された画像と直接比較できるのです。これは、Fluxが実際に競合他社とどのように比較されるかをリアルタイムで確認するのに最適な方法です。
Fluxを採用したもう1つのプラットフォームはPoです。Poをご存じない方のために説明すると、チャットボットスタイルで画像を生成できるAIモデルプラットフォームです。ChatGPTやDALL-Eのような感じです。アプローチは異なりますが、Fluxがこの種の環境でどのように機能するかを見るのは興味深いです。
開発者の方には、さらに多くのオプションがあります。FluxはBas Labs、Hugging Face、Faulなどのプラットフォームで利用可能です。これらは技術面に深く関わりたい人向けのプラットフォームです。
Freepikは、ストック写真の大手の1つですが、彼らもFluxを自社サイトに導入する作業を進めています。これにも注目です。
つまり、Fluxは間違いなく注目すべきモデルです。AI画像生成の分野に大きな影響を与える可能性があり、すでにMidjourneyやStable Diffusionなどの有名どころに対する強力な競争相手になっていることを証明しています。
Figure 02という名前の新しい人型ロボットがインターネットの注目を集めています。OpenAIやNVIDIA、Microsoft、さらにはジェフ・ベゾスの個人ファンドなど、テック業界の大手企業が支援しています。かなり大きな話題です。
それでは、詳しく見ていきましょう。Figureという企業が最新モデルFigure 02のティーザー動画を公開しました。動画は非常に短いのですが、興味深い詳細がたくさん詰まっています。よく見てみると分かります。では、まず動画を確認し、その後に知っておくべきことすべてを解説していきます。
[音楽]
さて、ロボットの関節や四肢、そして未来的な柔軟メッシュデザインが見えます。これらはおそらくロボットの体の一部でしょう。スペック好きの方のために言うと、150ニュートンメートルまでのトルク定格も示されています。これは基本的に、ロボットが何かを動かす際に発揮できる力の大きさを示す指標です。また、ROM(可動範囲)が最大195度というものもあります。これはロボット工学の世界では大きな意味を持ちます。
Figureの創業者であるブレット・アドコック氏は、以前にArcher AviationやVetterなどの野心的なテックスタートアップを手がけた経験があります。彼はTwitter(現在はXと呼ばれています)で、Figure 02は地球上で最も進歩した人型ロボットだと主張しました。大胆な主張ですが、彼らが受けている支援を考えると、真剣に受け止めざるを得ません。
少し話を巻き戻してみましょう。Figureという会社は2022年にスタートしたばかりで、スタートアップの世界では昨日生まれたような存在です。しかし、すでに多くの人々の注目を集めています。2023年3月に初めてのモデルFigure 01を発表し、世界的な労働力不足に対応することを目指しました。この人型ロボットは、倉庫や工場、小売店など、人間にとって危険または退屈な仕事を代行することを目的としています。
さらに驚くべきことに、彼らはわずか6ヶ月で最初のフルスケールの人型ロボットを構築しました。6ヶ月ですよ、皆さん。これは信じられないほどのスピードです。彼らには40人の専門家からなるチームがあり、その中にはロボット工学界の大物であるジェリー・プラット博士もCTOとして加わっています。
彼らのビジョンは明確です。生産性を向上させ、職場をより安全にするロボットを作ることです。そして、これらのロボットを決して兵器化しないと約束しています。つまり、善玉のイメージを全面に押し出しているわけです。
さらに興味深いのは、彼らがすでにBMW製造部門と契約を結んでいることです。つまり、これらのロボットが実際に活動する様子を近いうちに目にする可能性があるということです。
そして、さらに素晴らしいのは、Figure 01がOpenAIのGPT-4 Vモデルとの優れた統合を実現したことです。これは現在最高レベルのAI技術です。
ゴミを拾うという行動をしたのはなぜか説明できますか?
はい、テーブルの上から食べられるものを提供できるのはリンゴだけだったので、あなたにリンゴをあげました。
なるほど、2024年8月6日にリリースされるFigure 02には、さらに新しいAIモデルが搭載されるでしょう。
ところで、Figureだけがこの分野に参入しているわけではありません。AIを搭載した人型ロボットを家庭や職場に導入する競争が加熱しています。イーロン・マスクは、100億台以上の人型ロボット市場が生まれると言っています。彼自身も、Figureの競合となるTesla Optimusというロボットの開発に取り組んでいます。
そして、NVIDIAも一部すごいものを見せてくれています。Apple Vision Proヘッドセットを使用して、遠隔操作者を通じてAIロボットを訓練する「Project GR-00T」を披露しました。
そして、Boston Dynamicsのことも忘れてはいけません。彼らはかなり以前からこの分野に参入しており、自社の人型ロボットの開発に取り組んでいます。Atlasモデルを電気モーターでアップグレードし、より安価で信頼性の高いものにしようとしています。
AIとロボット工学の世界におけるもう一つの非常に興味深い進展は、Oxford Dynamicsというスタートアップから来ています。オックスフォードシャー州ハーウェルに拠点を置くこの会社は、Striderというロボットの開発に取り組んでいます。このロボットは、人類が知る最も危険な環境に挑むことを目的に特別に設計されています。化学、生物、さらには核の脅威が存在する場所など、人間を派遣したくない状況を想定しています。
Oxford Dynamicsは単なる遊びではありません。彼らはすでに英国国防省(MOD)から100万ポンドの契約を獲得し、これらのロボットの設計、開発、供給を行っています。人命を危険にさらす代わりに、なぜ機械を送り込んで仕事をさせないのか、というのが彼らの考え方です。
会社のディレクターの一人であるマイク・エルトンは大きな構想を持っています。将来的には数百台、場合によっては数千台のStriderロボットを製造し、世界をより安全な場所にすることを目指しています。
Striderは具体的に何ができるのでしょうか?このロボットは非常に多機能です。長い多関節アームを持ち、読み取り、サンプル収集、汚染された物体の回収などを行うことができます。また、戦車のような履帯で移動するため、険しく予測不可能な地形を扱えるように設計されています。防護服を着た人間がそのような場所を移動するのがいかに大変かを考えてみてください。Striderなら汗をかくこともなくこれを行うことができます。まあ、ロボットが汗をかくとしたらの話ですが。
会社は11月にStriderの開発を開始し、9月までに完成品を防衛科学技術研究所に納入する予定です。2018年のソールズベリーでのノビチョク攻撃のような状況で、汚染された物体を扱うのが大きな課題となりましたが、Striderはそのような危険な品目を素早く回収し、密封容器に保管することができます。すべて人間にとって非常に困難なタスクを実行しながらです。
しかし、Oxford Dynamicsはここで止まるつもりはありません。彼らはAIソフトウェアをStriderに統合する計画を立てており、それをAVIS(A Very Intelligent System)と呼んでいます。これは「アイアンマン」に登場するJARVISにインスパイアされたものです。
パパ、起きて。お帰りなさい、サー。
可能性は無限大です。創業者の一人であるシェフ・シャルマは、この技術が将来的に潜水艦や戦闘機にも応用できる可能性があると述べています。彼らにとって、本当に必要としている人々の手にこの技術が届くことが究極の目標です。シャルマ氏は、Striderが実際に現場で差を生み出している姿を見ることが夢の実現だと述べています。
このスタートアップだけでなく、英国環境・食糧・農村地域省(Defra)のユン・デイビスも声明の中で、これらのコンセプトが急速に高性能で柔軟性のあるプラットフォームに変わっていくのを見るのは素晴らしいことだと述べています。
つまり、Figureが人型ロボットの限界を押し広げているように、Oxford Dynamicsは、AIとロボット工学が文字通り地球上で最も危険な状況に踏み込むことで、いかに人命を救えるかを示しているのです。これは技術にとってエキサイティングな時代であり、これら両方のプロジェクトが近い将来どのように進化していくかを見るのは非常に興味深いことでしょう。
そうです、競争は激しいですが、Figureが持つ勢いと、テック業界の大手からの支援を考えると、彼らは前進し続けるための非常に強力な立場にいるように見えます。この Figure 02が実際に何ができるのか、完全に公開された時に見るのが待ち遠しいです。
さて、AIとロボット工学が私たちの世界をどのように再形成しているかに興味がある方は、最新技術についてのより深い考察をお楽しみください。
最近、あなたのAIの相棒が少し違う行動をしているように感じませんか?もしかしたら、より素早く、より鋭く、そしてほんの少し賢くなったように感じるかもしれません。あなたは一人ではありません。OpenAIは大きな発表もなく、こっそりといくつかの大きな変更を加えていました。でも心配しないでください。知っておくべきことすべてをここでお話しします。
では、話を始めましょう。先週、ChatGPTが何か違うように感じ始めました。応答がより的確で、より速く、そして全体的により良くなったような気がしました。この感覚を持ったのは私だけではありません。ソーシャルメディア上でも、ChatGPTがアップグレードされたように感じるという声が多く聞かれました。
しかし、ここで面白いのは、OpenAIが最初は一言も言わなかったことです。すべてが非常に秘密裏に行われていました。彼らがついに小さな爆弾を投下するまでは。OpenAIはXで、新しいバージョンのGPT-4.0モデルをChatGPTにこっそり導入したと気軽に言及しました。つまり、私たちが使っていたモデルを、大騒ぎすることなくひっそりとアップデートしたのです。
メッセージは簡潔でした。「先週からChatGPTに新しいGPT-4.0モデルが導入されています。皆さんが楽しんでいることを願っています。まだ試していない方は、ぜひチェックしてみてください。きっと気に入ると思います。」以上です。派手なプレスリリースも、大々的な発表もありません。ただツイートだけです。典型的なOpenAIらしいやり方ですね。
さて、この新しいモデルの何がそんなに特別なのかと思われるかもしれません。それでは、詳しく見ていきましょう。GPT-4.0の更新版は、ChatGPT-4.0 latestと呼ばれており、基本的には以前のバージョンを微調整し、最適化したものです。しかし、ここで興味深いのは、OpenAIが詳細を明かしていないにもかかわらず、この新しいモデルが実際に何であるかについて多くの推測が飛び交っていることです。
一部の人々は、これがOpenAIによるより大きな戦略の一部であり、GoogleやAnthropicが行っているように、異なるサイズのモデルをリリースする計画の一環ではないかと考えています。GPT-4.0GEについての噂もあり、一部の人々はこの最新のアップデートがその方向への一歩ではないかと考えています。
しかし、私はそのアイデアにはあまり賛成できません。なぜなら、もしこれが全く新しいモデルだったら、おそらくもっと大々的に宣伝していたはずだからです。
では、この新しいモデルは何ができるのでしょうか?私が見た限り、そして他の人々が報告している内容から判断すると、複雑な推論や創造性を必要とするタスクでより良いパフォーマンスを発揮しているようです。例えば、ChatGPTにコーディングの手伝いや難しい問題の解決を依頼していた場合、少し賢くなったことに気づくかもしれません。また、速度も向上しており、これは嬉しい追加機能です。
しかし、もちろん完璧ではありません。まだいくつかの奇妙な癖があります。例えば、あるテストでは、モデルに本、9個の卵、ノートパソコン、ボトル、釘を安定した方法で積み上げるように指示しました。その解決策として、9個の卵をボトルの上に置くことを提案しました。いったい誰がそんなことをするでしょうか?そして、「strawberry」という単語に「r」が何個あるかを尋ねたところ、2個と答えました。これは明らかに間違いです。
つまり、まだいくつかのバグを修正する必要がありますが、全体的にはアップデートは正しい方向に進んでいます。
さて、イチゴの話が出たところで、多くの注目を集めているものについて話しましょう。Project Strawberryです。Project Strawberryの背後にある考え方は、モデルの推論能力を向上させる新しいポストトレーニング手法である可能性があるということです。一部の人々は、ChatGPTで見られる改善が、この謎のプロジェクトの最初の兆候かもしれないとさえ言っています。
新しいChatGPT-4.0 latestモデルの最もクールな点の1つは、多段階推論の扱い方です。これは基本的に、AIが単に結論を出すのではなく、答えを出す前に段階的に考えを進めるということです。これは非常に大きな進歩です。より正確で思慮深い応答につながるからです。これは私たち全員が望むことですよね。
新しいモデルはすでにAIコミュニティで波紋を広げています。特にLMSY leaderboardと呼ばれるものでです。LMSY leaderboardは、AIモデルのオリンピックのようなもので、様々なタスクで異なるモデルを対決させ、全体的な能力スコアを与えます。最近の評価では、ChatGPT-4.0 latestモデルは驚異的な134ポイントを獲得しました。これは、このリーダーボードで過去最高のスコアです。つまり、Google、Anthropic、Metaなどの大手企業のモデルをも上回る性能を示しているのです。
参考までに、以前のGPT-4.0バージョンは126.1点でした。これは、Geminiがより高い能力を持っている可能性を示唆していますが、ベンチマークだけでAIモデルの長所と短所のすべてを語ることはできないことを覚えておく必要があります。
AIコミュニティは、この最新のGeminiバージョンに興奮しています。ソーシャルメディアには、「信じられないほど優れている」と称賛する声が溢れ、一部の人々は「GPT-4を圧倒している」とまで主張しています。つまり、Googleは間違いなくこのモデルで巻き返しを図っているのです。
このリリースは、ユーザーが多様な強力なAIチャットボットオプションを持つようになった転換点を示しています。結局のところ、ユーザーにとって最適なモデルは、特定のニーズと好みによって異なります。
このGeminiの実験的バージョンが標準になるかどうかはまだ分かりません。現在は一般に公開されていますが、早期リリースの状態であるため、安全性や整合性の理由で変更されたり、取り下げられたりする可能性があります。
つまり、Gemini 1.5 Proは、AI モデルの世界でトップクラスの競争相手だと言って間違いありません。その最も印象的な機能の1つは、膨大な量のデータを処理する能力です。例えば、最大100万トークンまで処理できます。
彼らがローンチしたもう一つのモデル、Gemma 2.2bも、ある意味でゲームチェンジャーです。22億のパラメーターを持っていますが、これは他のモデルと比べると小さく聞こえるかもしれません。しかし、このモデルは自分の体重をはるかに上回る性能を発揮します。実際、OpenAIのGPT-3.5やMetaのLlama 2など、はるかに大きなモデルをも凌駕しています。Googleは基本的に、AIの世界では大きさが全てではないことを示しているのです。持っているものをいかに最適化し、微調整するかが重要なのです。
Googleが自社のAIモデルで大きな進展を遂げている一方で、彼らが手がけるものすべてが金になるわけではありません。その一例が「Dear Sydney」広告の失敗です。
Googleは、NBCのオリンピック中継で「Dear Sydney」という広告を流していました。この広告では、父親がGemini AIを使って、娘がオリンピック陸上選手のシドニー・マクラフリンに宛てたファンレターを書くのを手伝うという内容でした。一見無害に聞こえますよね。しかし、そうではありませんでした。
広告では、父親がGeminiに娘の心のこもったレターを書くよう依頼し、AIがそれを実行します。しかし、ここで事態が奇妙な方向に向かいます。ファンレターのような個人的なものを書くのにAIを使うという前提自体が、多くの人々の共感を得られませんでした。批評家たちはすぐにこれを「トーンデフ(空気を読めない)」で「単に奇妙だ」と指摘しました。AIが書いたファンレターなんて誰が欲しがるでしょうか?ファンレターは本来、心からの気持ちを表すものであって、機械が書くものではありませんよね。
批判はほぼ即座に始まりました。人々はソーシャルメディア上でこの広告が現実離れしていると非難しました。小説家でポッドキャスターのリンダ・ホームズは、「AIが書いたファンレターなんて誰が欲しがるの?」と言って、この感情をほぼ要約しました。正直なところ、彼女の指摘は的を射ています。
この広告は、少し的外れに感じられました。GoogleがAIの能力を見せびらかそうとするあまり、それが実際に意味があるかどうかを考えずに作ったような印象です。
では、Googleはどう対応したのでしょうか?彼らはこの広告をオリンピックの放送枠から取り下げることを決定しました。広告は放送前のテストでは好評だったが、フィードバックを聞いた後、段階的に廃止するのが最善だと判断したと説明しています。
しかし、彼らはこのアイデアを完全に放棄したわけではありません。彼らの目標は、アメリカチームを称える本物のストーリーを作ることだったと主張し、彼らの考えでは、Gemini AIは単にクリエイティブな発想を助けるツールであり、すべての作業を行うものではなかったと説明しました。
しかし、この説明をしても、ダメージはある程度すでに起きていました。この状況全体が、テクノロジー企業が日常生活にAIを統合する際に歩まなければならない細い線を浮き彫りにしました。確かに、AIは素晴らしいツールになり得ます。しかし、個人的な表現のような分野では、機械に任せることを人々はあまり好まないかもしれません。すべてがAIに適しているわけではないのです。
OpenAIにとってもすべてが順調というわけではありません。2015年以来、MicrosoftやSequoiaなどの大手企業から113億ドルを超える投資を集めているにもかかわらず、OpenAIは財政的に苦しい状況に直面しています。最近の報告によると、今年だけで85億ドルという途方もない額を支出する予定で、長期的な持続可能性に関する懸念を引き起こし、さらには破産の可能性についてのうわさまで出ています。
これらの巨額のコストの原因は何でしょうか?ChatGPTのような最先端のAIモデルを運用するのは安くありません。OpenAIは、これらのモデルを稼働させ続けるだけで今年約70億ドルを費やすと予想されています。この大部分、約40億ドルは、Microsoftからサーバー容量をレンタルするために使われます。これは、AIの運用に必要な膨大な計算能力を示しています。
さらに30億ドルがAIモデルのトレーニングに充てられており、これにはNews Corpのような報道機関とのライセンス契約も含まれます。これらの組織から膨大なコンテンツにアクセスし、学習するためです。
また、1,500人の従業員の給与も忘れてはいけません。今年の給与総額は15億ドルに達すると推定されています。
OpenAIは収益を上げており、今年は主にChatGPTや他の有料AIサービスから35億ドルから45億ドルの間の収益を生み出すと予想されています。しかし、これは彼らの巨額の支出を相殺するには十分ではありません。これにより、今年少なくとも50億ドルの損失が見込まれています。
これを理解するために、Googleが支援するライバル企業Anthropicは今年27億ドルを費やす予定だと比較してみましょう。
この状況は、OpenAIの将来に関する懸念を引き起こしています。一部の専門家は、彼らのビジネスモデルの実行可能性に疑問を投げかけています。特に、MetaのLlama 3.1のような無料でオープンソースのAIモデルの登場により、状況はさらに厳しくなっています。このモデルは、開発者に無料でコードへのアクセスを提供しており、OpenAIの有料サービスを潜在的に脅かす可能性があります。特に、一部の企業がAIのコストと精度に関してすでに躊躇している状況では、なおさらです。
これは、OpenAIの財務的安定性に疑問が投げかけられた初めてのケースではありません。昨年、ChatGPTの運用コストが1日あたり約70万ドルかかるという報告が同様の懸念を引き起こしました。しかし、MicrosoftなどのIT大手からの強力な支援(130億ドルの投資)は、ある程度の安心感を提供しています。MicrosoftのCEOであるSatya Nadellaは、彼らの投資によってOpenAIの技術に対する重要な権利が確保されており、たとえOpenAIが困難に直面したとしても継続性が保証されることを強調しています。
これらの財務的課題にもかかわらず、OpenAIは依然としてAIの境界を押し広げることに専念しています。彼らは、AIパワードの動画生成ツール「Sora」や、AIによる検索エンジン「SearchGPT」など、新製品の発表を続けています。後者はGoogleの株価を下落させるほどの影響を与えました。
OpenAIのCEOであるSam Altmanは、たとえ数十億ドルの費用がかかったとしても、人工汎用知能(AGI)を実現するという野心を堅持しています。彼はAGIを、ほとんどの経済的に価値のあるタスクで人間の能力を超える高度に自律的なシステムとして描いています。
要するに、OpenAIは高額な賭けに出ています。AGIの夜明けを迎えるために、たとえ大きな損失を出しながら運営することになっても、膨大なリソースを革新的なAIの開発に投入しているのです。彼らの賭けが成功してAGIの実現につながるのか、それとも財務的困難に陥るのか、結果はまだ分かりません。
確かなのは、世界中がOpenAIの一挙手一投足を息を呑んで見守っているということです。
それでは、ロボット、特にAIを搭載した人型ロボットについて話しましょう。2024年の世界ロボット会議in北京で展示された興奮させる開発について詳しく見ていきましょう。この会議では本当に多くのことがありましたので、ゲームチェンジングなイノベーション、最先端の技術、そして最新のAIの進歩について詳しく解説していきます。
まず、舞台を整えましょう。世界ロボット会議は、ロボット工学界のオスカー賞のような存在です。毎年北京で開催され、最新かつ最高のロボット技術が展示されます。今年の会議は過去最大規模で、世界中から169の出展者が集まり、600以上の革新的な製品を披露しました。さらに注目すべきは、今年は過去最高の27の人型ロボットが展示されたことです。そう、人型ロボットがロボット工学分野の主要な焦点になりつつあり、その盛り上がりは本物です。
なぜ人型ロボットがこれほど注目を集めているのでしょうか?人間のように見え、動くロボットにAIをどのように統合できるかについて、関心が高まっています。これらは工場で見かける標準的なロボットではありません。人間とより自然に対話するように設計されたアンドロイドです。これらのロボットが最終的に人間と同じように、あるいはそれ以上にタスクを実行できるようになるという考えです。そして、これは単に人間を置き換えることだけでなく、私たちと協力することも目的としています。特に危険な環境や重労働が必要な環境での活用が期待されています。
会議からの優れた例として、UNRYのG1があります。これは約1.3メートルの身長で、重量約35kgの二足歩行の人型ロボットです。スリムで未来的な外観で、非常に先進的な技術を搭載しています。UNRY G1は毎秒2メートルの速度で移動でき、高度な3本指の力制御ハンドを持っています。これは、物体を繊細かつ正確に扱えることを意味します。また、最大膝関節トルクは120Nmなので、そのサイズに比べてかなり強力です。
UNRY G1を特別なものにしているのは、Robot Unified Large Modelと呼ばれる堅牢なAIシステムです。これは、スキルを継続的に学習し、洗練させることができることを意味します。このモデルは今年ローンチされ、すでに大きな波紋を呼んでいます。約999,000元(約113,874ドル)という価格設定は、その高度な能力を考えると実際にはかなり手頃です。UNITRIのマーケティングディレクターであるHang Jiaweによると、このロボットは単に印象的に見えるだけでなく、様々な実用的なアプリケーションで高機能を発揮するように設計されています。そのため、すでに多くの研究所や企業に採用されています。
会議では、深センを拠点とするUBTech Roboticsも、現在自動車生産ラインに配備されている彼らのロボットをいくつか展示しました。これらのロボットは単なる展示品ではありません。インテリジェントな輸送、品質検査、さらには化学物質の取り扱いなど、実際の作業を行っています。製造業における人型ロボットの大規模な応用に向けた大きな一歩です。
UBTechの人型ロボット動作制御アルゴリズムチームのリーダーであるGreg Giによると、彼らのロボットは現在、人間の効率の約20%で動作しています。一見するとそれほど印象的ではないかもしれませんが、ここで重要なのは、彼らが今後1〜2年以内にほぼ100%の効率に達することを期待しているということです。そして、ロボットは休憩を取ることなく24時間365日働けることを忘れないでください。つまり、彼らの全体的な効率は近いうちに人間労働者を上回る可能性があるのです。
Giが言及したように、AIモデルの統合により人型ロボットの開発が加速しました。私たちは、ロボットと人間がより頻繁に側で働くような未来に向かっています。特にリスクの高い環境や重労働を伴うタスクにおいてです。本質的に、重い荷物を持ち上げたり、人間にとって危険すぎるタスクを実行したりするのを手伝うロボットです。これが私たちが向かっている方向であり、非常にエキサイティングです。
会議からもう一つ注目すべきは、「唐工(Tang Gong)」という具現化されたAIロボットでした。具現化されたAIとは何を意味するのでしょうか?簡単に言えば、物理的な形を持つAIのことです。クラウドやサーバーのどこかに存在するのではなく、物理的な世界と対話できるロボットに統合されたAIです。
唐工は、このイベントで大きな注目を集めました。なぜなら、非常に高度な能力を示したからです。会話に参加し、音声コマンドに応答し、さらには物体を掴んで指定された場所に置くことができました。
北京具身人工智能機器人創新中心のチームリーダーであるCh Jipingは、具現化されたAIがデジタル世界と物理的世界の橋渡しをする助けになると説明しました。考えてみてください。自力で動き回り、周囲と知的に対話できるAIは、全く新しい可能性の領域を開きます。コンサートに行って、人型ロボットがあなたを席まで案内し、お気に入りのスナックを取ってきてくれたり、人混みの中を案内してくれたりする様子を想像してください。これが具現化されたAIが目指している未来であり、唐工ロボットはその実現に向けた大きな一歩なのです。
2024年の世界ロボット会議in北京では、他にも印象的なプレゼンテーションがありました。Tencentの4足ロボット犬もその一つです。ロボット犬を見たことがある人なら、「大したことない」と思うかもしれませんが、これは全く別次元のものです。単に歩くだけでなく、走ったり、ジャンプしたり、さらにはバック宙を決めたりすることができます。非常に敏捷で、人間や通常のロボットでは到達できない場所に行くことができます。
次に、Alibabaの新しい物流ロボットがあります。物流は一見するとそれほどエキサイティングに聞こえないかもしれませんが、このロボットはラストマイル配送向けに設計されています。これはeコマース世界における大きな課題です。人間の介入なしに複雑な都市環境をナビゲートできる、あなた専用の小さな自律配送ガイのようなものです。
そして、観客を完全に魅了したロボットがありました。中国の琴を演奏できるロボットです。単純な曲を弾くのではなく、わずか2〜3日でこの複雑な楽器の演奏を学びました。これは狂気じみています。この種のスキル獲得は、AIの学習がどれほど進歩したかを示しています。
次に、人間と機械の境界線を本当にぼやけさせるロボットがあります。リアルタイムで人間の表情を真似ることができる人型ロボットです。若い男性のように設計されており、パートナーの表情を完璧に再現することができます。
医療分野も忘れてはいけません。AIを使用して手術を支援する高度な医療ロボットを特集したプレゼンテーションがいくつかありました。手術にAIを使用することで、人為的ミスの余地を大幅に減らし、患者の転帰を改善できる可能性があります。
農業も会議で注目を集めました。文字通り畑用に設計されたロボットが展示されました。これらの農業用ロボットは、植え付け、除草、収穫などのタスクを実行できる能力を持っており、労働コストを大幅に削減し、農場の効率を向上させる可能性があります。食料安全保障の問題に取り組むために、農業プロセスを最適化するロボットの話をしているのです。
次のものは特に興味深いです。Wion Technologyが革新的な柔軟なロボットアームを披露しました。従来のモーターの代わりに、3Dプリントされたプラスチックと空気圧人工筋肉を使用しています。これにより、従来のロボットアームの10分の1のコストで生産できるようになります。これにより、高品質なロボット技術がより多くの産業にアクセス可能になる可能性があります。
そして、UBTech Roboticsの「Walker S」軽量ロボットがあります。これは産業用人型ロボットで、すでに自動車工場で働いています。品質テストから部品の仕分けまで、あらゆることを人間の労働者と並んで行い、生産効率を向上させています。
最後に、中国のロボット産業とその可能性について深く掘り下げた広範な報告書である「ロボットブルーブック」のデビューがありました。これは、ロボット工学の将来の発展動向と機会を概説したロードマップのようなものです。ロボット工学のビジネス面に興味がある人にとっては必読の書です。
素晴らしい進歩がある一方で、ロボット産業にはまだ克服すべき課題があります。例えば、会議では上海に拠点を置くT5 Robotの創業者であるYangが、現在のロボット供給チェーンにおける問題点のいくつかを強調しました。実は、製品の信頼性が最大の問題の1つです。高い不良率のため、彼の会社のような企業は一度に1,000台までしか生産できません。
また、ハーモニックギアのような主要コンポーネントについても忘れてはいけません。これらはロボットの動作制御に不可欠ですが、品質と信頼性の問題にまだ直面しています。
また、Wison Technologyという別のロボット分野のプレイヤーは、非常にユニークなことを行っています。従来のモーターやレデューサーの代わりに、3Dプリントされたプラスチックと空気圧人工筋肉を使用してロボットアームを作っています。これにより、従来のロボットアームの10分の1のコストで生産できるようになり、産業界にとって手頃な価格を実現する可能性があるゲームチェンジャーとなる可能性があります。
Wionに投資しているLunie Venturesの趙によると、これらの柔軟なロボットアームは将来的に人型ロボットにも使用される可能性があるとのことです。
いずれにせよ、中国はこの分野で世界的リーダーになるべく懸命に努力しています。国際ロボット連盟のマリーナ・ビル会長が指摘したように、中国の製造能力とサプライチェーンの強さは、最も発達した国々でさえも匹敵するのが難しいほどです。
また、リャン首相が強調したように、技術における新しい生産力の開発にも大きな焦点が当てられています。ロボット産業は広範な展望と巨大な市場潜在力を持っているとのことです。政府は、産業、農業、さらにはサービス業など、様々な分野でロボットの拡大と普及を促進する取り組みを呼びかけています。
本質的に、AIは人型ロボットにとってのiPhoneモーメントをもたらしました。考えてみてください。iPhoneがスマートフォン業界に革命をもたらしたように、AIはロボット工学に革命をもたらそうとしています。人型ロボットを完全に統合する夢の実現に、これまで以上に近づいています。
北京経済技術開発区管理委員会の孔立氏によると、2026年末までに1万台以上の具現化AIロボットの生産能力を確立する計画があります。これはかなり野心的な目標ですが、私たちが目にしている急速な発展のペースを考えると、十分に可能だと思われます。
さて、数日前にFigure 02ロボットについて話したのを覚えていますか?その時点では初期のハイプと、いくつかのスペックしか知りませんでしたが、今や完全な詳細が明らかになり、このロボットは実際に信じられないほどすごいものです。このロボットは人型ロボットにおける正真正銘のブレークスルーを表しています。
そしてそれだけでは十分にクレイジーではないかのように、新しいAIロボット歯科医が人間の助けを全く借りずに、生きた患者に完全に自律的な歯科手術を行ったのです。これらの発展を考えると、非常にエキサイティングです。なぜこれらがそれほど大きな話題なのか、詳しく説明しましょう。
まず、デザインについて話しましょう。Figure 02は本気で仕事をするように見えます。Figure 01を覚えているなら、それはかなりごつごつしたクロームメタルの外観で、まるで鎧を着ているかのようでした。それはそれでクールでしたが、新しいモデルはよりスリムなマットブラックの仕上げを採用しており、中世の騎士というよりも高級スポーツカーのように見えます。
この背景には、Figure 01が研究室での無限のテストに耐えられるように設計されていたため、摩耗や損傷に対処できるよう過剰に設計されていたという理由があります。しかし、Figure 02は生産モデルに近づいているため、すべてが洗練され、生産ラインで実際に働いているのを見るようなものに見え、動きも似ています。
彼らが行った大きな変更の1つはケーブル配線です。Figure 01では、配線はほぼ完全に露出していました。テスト中に簡単に修正や調整ができるように意図的にそうしていたのです。しかし、Figure 02では、すべてが四肢の内部に収納されています。これにより外観がよりクリーンになるだけでなく、環境からケーブルを保護することができます。これは、これらのロボットが工場で長時間シフトを行う場合には重要です。
長時間の作業について言えば、このロボットのバッテリーは大幅にアップグレードされました。Figure 02は、最初のモデルと比べて50%以上多くのエネルギーを持つバッテリーを搭載しています。バッテリーはロボットの胴体に統合されており、これは賢明な動きです。なぜなら、重心をロボットの体の中心により近づけることができるからです。この設計の微調整により、Figure 02はよりバランスが取れ、敏捷になり、タスクを実行する際により効率的に動き回ることができます。
では、このロボットを際立たせる技術について詳しく見ていきましょう。まず、ハンドです。Figure 02は16自由度のハンドを持っています。つまり、指と手首をほぼ人間と同じくらい柔軟に動かすことができるのです。そして、これらのハンドは見せかけだけではありません。かなりの力を持っています。ロボットは最大25kg(約55ポンド)を運ぶことができます。これはFigure 01が扱える20kgから大きく飛躍しています。ここでの目標は、ロボットが人間と同じように物体を操作できるようにすることであり、それに非常に近づいています。
しかし、それは力だけの問題ではありません。知性も重要です。Figure 02には6つのオンボードカメラが搭載されており、周囲の完全な視界を得ることができます。これらのカメラは視覚言語モデルにフィードされ、ロボットが見ているものを理解するのを助けます。つまり、物を拾い上げたり、障害物を避けたり、単に環境をナビゲートしたりするのに、Figure 02はすべて自力で行うことができるのです。これは自律性の面で大きな飛躍であり、OpenAIとのパートナーシップによって可能になりました。
OpenAIと言えば、Figure 02の最もクールな機能の1つは、音声コマンドを理解し応答する能力です。今年の初めに、このロボットが人間と音声で対話している様子を見たビデオを覚えているかもしれません。
ヘイ、Figure 01、今何が見えますか?
赤いリンゴがテーブルの中央の皿の上に見えます。カップと皿が乾燥ラックにあり、あなたがテーブルに手を置いて近くに立っています。
彼らはそれを次のレベルに引き上げました。新しいモデルは、計算能力とAI推論能力がFigure 01の3倍になっています。これは、情報をより速く、より効率的に処理し、タスクを実行できることを意味します。
この音声対話は単純なコマンドのためだけではありません。Figure 02は実際に会話を行うことができます。これは、OpenAIと共同で開発されたカスタムAIモデルに接続されたオンボードマイクとスピーカーのおかげです。つまり、文字通り同僚のようにこのロボットと会話することができ、あなたが言っていることを理解し、適切に応答します。
あなたの前にある食器はどこに行くと思いますか?
テーブルの上にあるその皿やカップなどの食器は、おそらく次に乾燥ラックに行くでしょうね。
これは、ChatGPTとの会話のようですが、テキストだけでなく、実際に目の前に立っている人型ロボットがあなたと話し、仕事をする準備ができているのです。
ここで本当に重要なのは、これがもはや単なる研究室のプロトタイプではないということです。FigureはBMWと提携しており、すでにサウスカロライナの工場にこれらのロボットを配備しています。実際の産業環境でロボットがどのようにタスクを処理できるかをテストしており、その結果は非常に有望に見えます。これは単なる派手なテクノロジーデモではありません。このロボットは実際に工場で学習し、タスクを実行しているのです。
Figureは明らかに、今後数年以内に人型ロボットを現実のものにするために懸命に努力しています。彼らはこの勢いを維持するために6億7500万ドルという驚異的な資金を調達しており、減速する気配はありません。TeslaのOptimus、Boston DynamicsのAtlasなどの競合他社も参入している中、私たちはこれらのロボットが研究室から大規模な生産現場へと移行する瀬戸際にいます。
人型ロボットがまだ未来の話だと思っていたなら、考え直す必要があります。この分野から目を離さないでください。ここからさらに興味深いことが起こるはずです。
さて、AIとロボット工学の世界で絶対的に画期的なことが起こりました。初めて、ロボットが生きた患者に完全に自律的な手術を行ったのです。歯科処置を行えるAIロボットが登場し、人間の介入なしに特定の歯科処置を処理できるようになりました。これは大きな出来事です。医療費の削減、待ち時間の解消(基本的に必要な数だけこれらのロボットを作ることができるため)、そして最終的には私たちが慣れているものよりも優れたサービスにつながる可能性があります。さらに、いつか家庭用の個人用歯科AIロボットを持つ日が来るかもしれません。この breakthrough を考えると、それはそれほど遠い未来の話ではないかもしれません。
この革新の背後にある企業はPerceptiveと呼ばれ、彼らはしばらくの間これに取り組んできました。彼らが作り出したのは、本質的にAI、3Dイメージング、そしてロボット工学を組み合わせて歯科処置を行うロボットです。例えば、クラウンの装着などです。
通常、クラウンを装着するには2回の別々の歯科医の訪問が必要で、それぞれの訪問が少なくとも1時間はかかります。しかし、Perceptive Robotを使えば、そのプロセス全体をわずか15分で完了できます。時間と労力をどれだけ節約できるか想像してみてください。
その仕組みはこうです。ロボットは「3D容積データ手順」と呼ばれるものを使用して、問題を診断し治療を計画します。まず、OCT(光干渉断層撮影)スキャンから始まります。これはPerceptiveが開発した手持ちの口腔内スキャナーを使用します。このスキャンは非常に詳細で、歯肉の下、液体を通して、さらには歯の表面の下まで3D画像をキャプチャします。
本当にクールなのは、このプロセス全体が従来のX線検査で通常受ける電離放射線に患者をさらさないことです。ロボットはスキャンで止まりません。PerceptiveのAIアルゴリズムがその3Dデータを取り込み、手術の正確な計画に変換します。結果として、90%以上の精度で歯科の問題を診断し治療できるロボットが誕生しました。これは非常に効率的であるだけでなく、人為的ミスの可能性も減少させます。さらに、スキャンからの詳細な画像により、患者が自分の歯に何が起こっているかを実際に見て理解できるのも素晴らしい付加価値です。
さて、本当の問題は、これがすべて単なる夢物語なのか、それとも近い将来実際に見ることができるのかということです。実は、時間はかかりますが、すでに現実のものになっています。Perceptive Robotはすでにコロンビアの患者に完全に自律的な歯科処置を行いましたが、まだ広く使用できる状態ではありません。システムはまだ米国食品医薬品局(FDA)の承認を得る必要があり、より大規模な展開が可能になる前にこの承認が必要です。
Perceptiveの CEO、Chris Cirielloによると、FDA の承認を得るまでには約5年かかる見込みですが、ここでの可能性は巨大です。Perceptiveはすでに3000万ドルの資金を調達しており、大物たちもこれを支持しています。その中には、Mark Zuckerbergの父親であるEdward Zuckerberg博士も含まれています。彼自身が歯科医であり、この技術の熱心な支持者です。
Zuckerberg博士は、このロボットが患者が処置中に動いても安全に操作できるように設計されていることを指摘しています。これは歯科手術のような精密な作業を扱う際の大きな懸念事項です。
Perceptive Robotが FDA の承認を得れば、歯科治療の新時代が始まるかもしれません。ロボットが日常的な処置を迅速に、効率的に、そして最小限の人間の介入で処理する時代です。これにより、歯科医はより複雑なケースに集中でき、より多くの患者を短時間で診ることができ、最終的にはケアの質を向上させることができるでしょう。
もちろん、Perceptiveは彼らのロボットが主張するほど安全で効果的であることを証明するために、ピアレビューされた研究を発表する必要があります。そして、世間の認識の問題もあります。人々は歯科治療のような個人的なことをロボットに任せる準備ができているでしょうか?私はそうしたいと思いますが、あなたはどうでしょうか?
エキサイティングに感じるか、少し怖いと感じるかにかかわらず、医療の未来が私たちが慣れているものとはかなり異なり、よりロボット化されたものになることを否定するのは難しいでしょう。
AGI(人工汎用知能)は、OpenAIの新しいモデル「Strawberry」によって、私たちが考えているよりも近づいているかもしれません。彼らはすでにテストを行っており、その結果は少し恐ろしいものです。今秋にリリース予定のStrawberryは、現在のAIの限界を超え、これまで不可能だと考えられていたタスクを処理する可能性があります。
このモデルには、複雑な問題の解決からChatGPTのような既存のAIツールの強化まで、次世代の機能が搭載されています。詳しく見ていきましょう。
Strawberryは、OpenAIの新しいAIモデルのコードネームで、今秋にリリースされる予定です。様々な報告によると、Strawberryは現在のAIモデルが苦戦したり、単に実行できないタスクを実行するように設計されています。
例えば、これまでに遭遇したことのない複雑な数学の問題を解くこと、詳細なマーケティング戦略を立てること、さらには高度な単語パズルに取り組むことなどを考えてみてください。実際、Strawberryは「ニューヨーク・タイムズ・コネクションズ」パズルを解くことができたと報告されていますが、これはAIにとっては小さな偉業ではありません。
しかし、StrawberryのできることはパズルやAI数学を超えてもっと真剣なものです。このモデルは推論能力を劇的に向上させ、詳細な研究の実施、高品質な合成データの生成、さらにはデータ分析や戦略的計画に大きく依存する分野の革命を起こす可能性があります。
OpenAIは米国の国家安全保障担当者にもStrawberryの能力をデモンストレーションしており、彼らがこの新しい開発をどれほど真剣に受け止めているかを示しています。
Strawberryの潜在的なアプリケーションは広範囲に及び、ビジネス戦略やサプライチェーン管理から研究やセキュリティまで様々です。
さて、Strawberryという名前は少し軽い印象を与えるかもしれませんが、その背景はかなり重大です。元々、このモデルはOpenAI内で「Q*」(Qスター)と呼ばれていました。これは単なる名前の変更ではありません。OpenAI内で大きな混乱があった時期に起こりました。Qの内部開発と潜在的な影響について、会社内で激しい議論が行われ、それがCEOのSam Altmanの一時的な解任にまで至りました。
Altmanは最終的に復帰しましたが、この出来事は、このモデルが最初から受けてきた圧力と精査の種類を浮き彫りにしています。
Q、そして現在のStrawberryに関する懸念は、それがAGI(人工汎用知能)への重要な一歩になる可能性があることから生じています。AGIは、人間のように幅広いタスクを理解し、学習し、適用できるAIの種類を表します。
テクノロジーコミュニティはAGIに対して慎重です。それが引き起こす可能性のあるリスクのためです。高度な自律性で動作できるAIは、その目的を人間の価値観と一致させることや、意図しない結果につながらないようにすることなど、課題をもたらす可能性があります。多くの興奮がありますが、同時にかなりの慎重さもあります。
では、技術的な詳細に踏み込んでいきましょう。ここがStrawberryが本当に際立つところだからです。このモデルは、チャンピオンシップレベルの数学問題のシリーズである「数学ベンチマーク」で90%以上のスコアを記録したと報告されています。
これを理解するために、OpenAIの別の有名なモデルであるGPT-4は53%のスコアしか得られませんでした。一方、改良版のGPT-4.0は76.6%に達しました。Strawberryが本当に90%のマークに達したとすれば、それは単なる小さなアップグレードではなく、AIの能力における量子的飛躍です。
モデルはまた、高度な推論と計画のスキルを示し、前身よりも汎用性が高くなっています。合成データを生成する能力があり、これは自身のトレーニング材料を作成して継続的にパフォーマンスを向上させることができることを意味します。
自己生成データのこの能力は画期的です。AIモデルをトレーニングするための大量の実世界データの必要性を減らし、データのプライバシー、品質、可用性に関連する課題や制限を考えると、これは大きな利点です。
さらに、StrawberryはChatGPTのような製品に統合される可能性が高く、高度な推論能力を強化します。これにより、ChatGPTは会話を行い、複雑な問題を解決し、戦略を立て、リアルタイムの研究を支援するなど、より汎用的なAIアシスタントになるでしょう。
しかし、これはOpenAIのStrawberryに関する計画の始まりに過ぎません。このモデルは、「Orion」というコードネームの新しいAIシステムのトレーニングにも重要な役割を果たしています。OrionはGPT-4およびGPT-4.0を超える次のステップになる可能性があり、期待の高いGPT-5になる可能性があります。
StrawberryがOrionのトレーニングデータの基礎を築いていることを考えると、OpenAIが単なる小さなアップグレードに満足していないことは明らかです。彼らはAIの能力における大きなブレークスルーを目指しています。
彼らが使用しているアプローチは、スタンフォード大学の研究者によって提案された「STAR(Self-Taught Reasoner)」と呼ばれる技術に似ています。この方法では、AIモデルに自分の答えの説明を生成させ、間違った説明をフィルタリングし、これらの自己生成された説明に基づいてモデルを微調整することで、より効果的に推論するようにAIモデルをトレーニングします。この種の自己改善AIは、AGIへの重要なステップとなる可能性があります。AIが単に反応するだけでなく、積極的に理解力と推論能力を時間とともに向上させていくからです。
しかし、Strawberryの可能性がどれほど興奮させるものであっても、AIの安全性に関する正当な懸念があります。特にAIモデルがより高度になるにつれてです。OpenAIはこれらの懸念と無縁ではありません。実際、会社内でAIの安全性に関してかなりの内部的混乱がありました。
報告によると、OpenAIの安全チームのほぼ半数が離れ、約30人のメンバーからわずか16人に減少しました。元研究者のDaniel Zieglerは、AGIの安全性に焦点を当てていた人々が、会社内でますます疎外感を感じていたと言及しました。
これは、高度なAIモデル(Strawberryのような)の開発に伴う潜在的リスクを考えると、テクノロジーコミュニティで眉をひそめさせています。いくつかの著名な離職がこれらの懸念をさらに煽っています。
OpenAIの共同創設者で整合性科学の取り組みを主導していたJohn Schulmanは最近、AIの安全性に特に焦点を当てている企業Anthropicに移籍しました。もう一人の共同創設者で主任科学者のIlya Sutskeverも今年初めにOpenAIを去り、自身の会社Safe Superintelligence Incを立ち上げました。
SchulmanとSutskeverはどちらもOpenAIの安全性への取り組みの主要人物だったため、彼らの離職は会社の焦点が大きくシフトしていることを示唆しています。
OpenAIはAIの安全性に引き続きコミットしており、これらの問題について政府やコミュニティと積極的に関与していると主張していますが、主要な安全性担当者の流出は、新技術のより積極的な開発と展開への移行を示している可能性があります。
内部的な課題にもかかわらず、OpenAIはいくつかの印象的な新機能とモデルを展開し続けています。今年初め、彼らはGPT-4.0モデルを使用したChatGPTの高度な音声機能を導入しました。これにより、超リアルな音声応答とリアルタイムの対話型会話が可能になり、ユーザーはChatGPTの文章を途中で中断することさえできます。これは小さな変更かもしれませんが、AI との対話をより自然で魅力的なものにする大きな意味を持つ可能性があります。
彼らはまた、現在プロトタイプモードにある「SearchGPT」という新しいツールをローンチしました。SearchGPTは、単なるリンクのリストではなく、ソースリンク付きの要約された回答を提供することで、従来の検索エンジンよりも簡潔で関連性の高い検索結果を提供することを目指しています。
そして、より手頃な価格のAIソリューションを求めている人々のために、OpenAIはGPT-4.0の小型で費用対効果の高いバージョンであるGPT-4.0 miniをリリースしました。GPT-4.0 miniは、テキストの知性やマルチモーダル推論を含む様々なベンチマークで、GPT-3.5 turboを上回る性能を示しています。これは、開発者からビジネスまで幅広い層にサービスを提供しながら、AIが実現できることの境界を押し広げ続ける賢明な動きです。
先を見据えると、Strawberryの導入はOpenAIだけでなく、AI界全体にとって重要な瞬間となる可能性があります。複雑なタスクを処理し、自身のトレーニングデータを生成し、潜在的にChatGPTのような既存のツールに統合される能力は、AIで可能なことを再定義する可能性があります。
これは単にチャットボットをよりスマートにすることだけではありません。ますます人間に近い方法で考え、推論し、学習できるAIを作ることについてです。しかし、これらの進歩には大きな課題が伴います。AGIをめぐる議論、イノベーションと安全性のバランス、そして責任あるAI開発の必要性は、これまで以上に差し迫った問題となっています。
OpenAIは、イノベーションへの推進力が安全性と倫理的考慮の重要性を覆い隠さないよう、これらの水域を慎重にナビゲートする必要があります。GoogleのDeepMindなどの競合他社も、AlphaProofやAlphaGeometry 2のようなモデルで数学的推論において既に印象的な結果を示しており、急速な進歩を遂げています。
また、Googleは3つの新しい実験的AIモデルのリリースを発表したばかりです。最初のモデルは、Gemini 1.5 F8bで、8億のパラメーターを持つコンパクトながら強力なAIで、マルチモーダルタスクを処理するように設計されています。特に大量のデータを迅速に処理し、長文書を要約することが得意で、高速で効率的なAIソリューションを必要とするビジネスにとって強力な選択肢となります。
次に、強化されたGemini 1.5 Proモデルがあり、あらゆる面で前身を上回っています。このモデルは、複雑なプロンプトやコーディングタスクの管理に優れており、パフォーマンスが大幅に向上しています。言語の微妙な理解が必要な高度なAIアプリケーションの作成に焦点を当てている開発者や企業に最適です。
最後に、アップデートされたGemini 1.5 Flashモデルがありますが、詳細は少ないものの、Googleは性能の顕著な向上を報告しており、速度と効率性を強調しています。これは、品質を犠牲にすることなくAIソリューションをスケーリングする上で重要です。
これらのモデルは現在、Google AI StudioとGemini APIを通じて利用可能で、開発者に新たな可能性を提供しています。大量データ処理、長文脈の要約、高度なコーディングなどのタスクに理想的です。
競争は激しく、OpenAIは単に能力の面だけでなく、AIモデルの安全性と信頼性を維持する面でも先を行く必要があるでしょう。
IdeagramAIが新しいモデルIdeagram 2.0をリリースしましたが、これはMidjourneyや最近ローンチされたFlux AIのような大手と競争することを目指しています。詳しく見ていきましょう。
Ideagram AIが最新最高のIdeagram 2.0を発表しました。これは単なるマイナーアップデートではありません。最高レベルの製品と競争するように設計された、全く新しいレベルの画像生成について話しています。
Ideagramは常にAI分野のアンダードッグのような存在でした。常に優れていながら、あまり注目を集めていなかったかもしれません。しかし、この新しいリリースで、それを変えようとしています。
Ideagram 2.0が提供する最大の特徴の1つは、リアリズムの大幅な向上です。超リアルな画像を作成することに興味がある人にとっては、これは絶対にチェックしたいものです。そして、写真のリアリズムだけではありません。新しい機能やプリセットも多数追加され、思い描いたとおりのものを簡単に作成できるようになりました。スタイリッシュな3Dレンダリング、アニメスタイルのキャラクター、テキストを含む詳細なグラフィックデザインなど、何でも可能です。
Ideagram 2.0が何をしているのかを本当に理解するためには、過去数ヶ月の状況を簡単に振り返る必要があります。AIによる画像生成の分野では多くの発展がありました。Flux Oneがローンチされ、現在はGronXの主要な生成ツールとなっています。Flux Oneは大きな動きを見せ、Stable Diffusion XL、Ora、Flow、Qui Colors、Hunanなどの有力プレイヤーと並んで、市場での地位を確立しています。
競争は激しく、新しいプレイヤーが次々と登場して注目を集めているような状況です。しかし、ここがポイントです。Ideagram 2.0は単に競争するだけでなく、凌駕することを目指しています。
彼らの公式発表では、新しいモデルが画像とテキストの整合性、プロンプトと画像の一致度、さらには画像内のテキストの正確な描画など、いくつかの重要な分野で競合他社を凌駕していると明言しています。最後の点は特に重要です。AIによる画像生成では、テキストの描画が常に弱点でした。しかし、もはやそうではないようです。
Ideagram 2.0が提供するクールな機能を詳しく見ていきましょう。彼らは、希望するスタイルを簡単に得られる5つのプリセットを導入しました。
まず、「リアリズム」プリセットがあり、画像を信じられないほど写実的に、まるでカメラで撮影したかのように見せます。次に、「デザイン」プリセットがあり、グラフィックデザインに最適で、テキストとビジュアルが完璧に調和します。もう変な不具合はありません。
「3D」プリセットは、画像に洗練されたコンピューター生成のルックを与えることに関するものです。アニメファンは「アニメ」プリセットを気に入るでしょう。これは漫画のスタイルを完璧に再現します。
最後に、「汎用」プリセットがあります。これはほとんどあらゆるものに使える万能プリセットです。多様で、どのような種類のプロンプトにも適応できるので、どのようなクリエイティブプロジェクトにも最適な出発点となります。
そうです、これらのプリセットはゲームチェンジャーです。特に、プロンプトの微調整に何時間も費やしたくない人にとってはそうです。
しかし、それだけではありません。カラーパレットコントロールも導入されました。これは非常にクールで、画像に希望する正確な色を指定できます。ブランドのカラースキームに合わせようとしているか、単に特定の雰囲気を出したいだけかにかかわらず、最終的な製品をより細かくコントロールできます。
「リアリズム」プリセットについてもう少し詳しく話しましょう。なぜなら、ここがIdeagram 2.0が本当に力を発揮するところだからです。ここでの大きなセールスポイントの1つは、画像がどれほど生き生きとしているかです。手を伸ばして触れそうな質感や、人間の特徴(肌や髪など)が信じられないほど詳細に描かれています。
これは、リアルな画像が必要だけれど、それを一から作成する時間やスキルがない人にとって大きな魅力となるでしょう。リアリズムは単に物事を本物のように見せることだけでなく、正しく見せることも重要です。ここで改善された画像とテキストの整合性が効果を発揮します。
新しいモデルでは、入力したものがほぼそのまま出力されます。モデルはプロンプトのニュアンスをよりよく理解し、あなたのビジョンに合った画像を生成することができます。これは大きな進歩です。なぜなら、正直なところ、AIが私たちの要求を理解できないような瞬間を誰もが経験したことがあるからです。Ideagram 2.0は、そのようなフラストレーションの瞬間をなくすことを目指しています。
そして、私の注目を本当に引いたのは、テキストのレンダリングです。以前AIの画像生成ツールを使ったことがある人なら、画像内に適切なテキストを入れるのが悪夢だったことを知っているでしょう。単純なフレーズを入力しても、モデルは文字の奇妙な混ざり合いを生成することがありました。
しかし、このモデルではそうではありません。彼らはモデルのテキスト処理方法を本当に改善し、クリアで読みやすいテキストが必要な画像に対する強力な選択肢となりました。ソーシャルメディアの投稿、デザインプロジェクト、あるいは単に何か楽しいものであっても、です。
また、彼らは新しいiOSアプリをリリースしました。Androidユーザーの皆さん、心配しないでください。近々アプリが登場する予定です。また、APIのベータ版もローンチしました。つまり、Ideagram 2.0の技術を使って、どんなプロジェクトにも高品質な画像生成を組み込むことができるようになりました。正直なところ、彼らのAPI価格設定は非常に競争力があります。
そして、忘れてはいけないのが、「Ideagram Search」と呼ばれる機能を導入したことです。これにより、過去1年間にユーザーがIdeagramで生成した10億以上の画像を閲覧することができます。アイデアに行き詰まったときに、創造的な作品の膨大なライブラリを閲覧して、新しいアイデアを得ることができるのです。
では、Ideagram 2.0を実際に使用する体験について話しましょう。なぜなら、飛び込む前に知っておくべきことがいくつかあるからです。
まず、フリーミアムモデルについてです。Ideagram 2.0は無料で使用できますが、いくつかの制限があります。フリープランでは、1日に最大20枚の画像を生成できます。これは4枚の画像を5バッチに分けて生成できます。ちょっと試してみたり、小規模なプロジェクトに取り組んでいる人にとっては十分な量です。しかし、ヘビーユーザーの場合は、有料プランへのアップグレードを検討する必要があるかもしれません。
有料プランは月額8ドルからで、より柔軟性が高く、画像生成の上限も高くなります。画像生成に本気で取り組みたい人には、月額20ドルで無制限の低速生成プランもあります。これは非常に競争力のある価格設定です。特にMidjourneyのような他のサービスと比較すると、基本プランが10ドル、無制限の低速生成が30ドルであることを考えると、かなり魅力的です。
つまり、Ideagramは、より手頃な価格の選択肢として自社を位置付けているのです。しかし、価格だけの問題ではありません。ユーザー体験は非常に直感的に設計されています。特に、他のツールで慣れているかもしれない、より技術的なプロンプトエンジニアリングのスタイルが好きでない人にとってはそうです。
Ideagram 2.0では、品質を犠牲にすることなく、できるだけシンプルにすることに重点が置かれています。これは、技術的な詳細よりもクリエイティブなプロセスに興味がある人にとっては大きな勝利です。
では、Ideagram 2.0が、GronXに統合されて注目を集めているFlux Oneのような新しいモデルと比較してどうなのか見てみましょう。初期のテストとユーザーフィードバックから判断すると、Ideagram 2.0はかなり良い性能を示しているようです。
実際、リアリズムプリセットを使用すると、Flux Oneのパフォーマンスに匹敵するようです。これは、Flux Oneがどれだけ注目を集めているかを考えると印象的です。
パーソナライゼーションに関しては、Midjourneyがまだカスタマイズ機能で優位に立っていますが、Ideagram 2.0も負けていません。新しいカラーパレットコントロールと様々なプリセットにより、複雑なプロンプトエンジニアリングやスタイル転送などの追加ツールを使用せずに、大きなクリエイティブな自由度が得られます。
結局のところ、使いやすさと手頃な価格を重視するか、深いカスタマイズとパワフルな機能を重視するかによって、どちらを選ぶかが決まります。
では、Ideagram 2.0は価値があるのでしょうか?間違いなくそうです。使いやすく、高品質な結果を提供し、手頃な価格です。リアリズムの向上、テキストレンダリングの改善、カラーパレットコントロールなどの機能により、AI画像生成の強力な競合相手となっています。
さらに、新しいiOSアププ、開発者API、Ideagram Searchにより、プロからAIアートを始めたばかりの人まで、幅広く使えるツールとなっています。AIアートに深く関わっているか、単に探索中かにかかわらず、Ideagram 2.0は一見の価値があります。あなたの主要なクリエイティブツールになる可能性があります。
さて、ロボティクスの新しいフロンティアについて話しましょう。事態は本当に熱くなっています。私たちが待ち望んでいた未来に私たちを連れて行く、いくつかの信じられないほどの開発が行われています。人型ロボットのことを考えてください。そして、それは単に遠い未来のSF的な夢ではなく、実際に私たちの目の前に迫っているのです。
大量生産が始まり、今年から納品が開始される予定です。家事から産業タスクまで、あらゆることをこなすことができるロボットです。そして、これらはTeslaのOptimusと直接競合することになります。では、詳しく見ていきましょう。
まず、上海に注目しましょう。ここで事態は現実のものとなっています。上海では、世界初の人型ロボット工場が稼働を開始しようとしています。上海は、誰もが想像もしなかったペースで人型ロボットを生産し始めようとしています。
A-botという地元のスタートアップが建設したこの工場は、10月から出荷を開始する予定です。2024年末までに、300台のロボットの出荷を目指しています。そのうち200台が二足歩行型で、100台が車輪型です。これは小さな偉業ではありません。
A-botは新参者ではありません。彼らは昨年2月から上海自由貿易区の一部である臨港特別エリアで懸命に働いてきました。地方政府からの真剣な支援のおかげで、イノベーションにとって最適な場所となっています。
会社の創業者であるPang Geruは、実際にはHuaweiの天才青年採用プログラムの一員でした。そこでAIチップとアルゴリズムに取り組んでいましたが、独立して自分の道を歩むことを決意しました。そして、その決断は本当に報われています。
これらのロボットが何をできるのか、少しイメージを掴んでもらうために言うと、A-botは最近、発表イベントで5つの新モデルを披露しました。これらは普通のロボットではありません。インタラクティブなサービス、スマート製造、科学研究、データ収集、さらには特殊作戦まで、幅広いタスクのために設計された二足歩行型と車輪型のロボットです。
彼らの二足歩行型人型ロボットの1つである「霊宜X1」は、フルスタック方式でオープンソース化される予定です。これは、設計資料やコードの多くを公開し、世界中の開発者がこの技術をさらに推し進めることができるようにするということです。
11月には、工場の生産量が月間100台に達し、12月にはさらに増加する見込みです。これは、将来的にスマートフォンと同じくらい一般的になる可能性のある人型ロボットの生産ラインの始まりのようなものです。
では、競争について話しましょう。人型ロボットという言葉を聞いた瞬間、TeslaとそのOptimusプロジェクトのことを考えざるを得ません。Elon Muskは、Optimusを次の大きなことと宣伝してきました。そして正直なところ、賭け金は高いです。
しかし、A-botの創業者であるPang Geruは引き下がっていません。彼は基本的に、A-botがTeslaと正面から競争すると宣言しています。
では、A-botのロボットがTeslaの強大な力に対抗できる理由は何でしょうか?まず、彼らのフラッグシップモデルである「One Gen A2」は侮れません。この機種は175cm(5フィート8インチ)の身長で、重量は55kg(約120ポンド)です。テキスト、音声、視覚データなど、様々な入力を理解できるセンサーとAIが搭載されています。
非常に精密に設計されており、針に糸を通すことができるほどです。これは多くの人間でさえ苦労するタスクです。
PangとそのチームはLCAPA彼らの商業化とコスト管理能力に非常に自信を持っています。彼らは、Teslaよりも効率的に、より低コストでこれらのロボットを展開できると信じています。Pangのビジョンは、単にロボットを販売することではなく、これまでにない方法でアクセス可能で実用的なものにすることです。
A-botが今年末までに300台を出荷する計画を立てているということは、彼らが大きな話をしているだけでなく、実際に実行しているということです。
しかし、ここで重要なのは、人型ロボットの分野が急速に新しい戦場になりつつあるということです。特に米国と中国の間でです。2026年までに200億元(約28億米ドル)以上の価値がある市場について話しています。これは2023年の39億元の市場規模から大きく飛躍しており、誰もがそのパイの一部を欲しがっています。
A-botは単独で行動しているわけではありません。彼らは、ベンチャーキャピタル企業のHongan Hill、HouseYi Investment、さらには中国の電気自動車大手の1つであるBYDなど、主要プレイヤーからの真剣な支援を受けています。
このレベルの支援と、Pangの印象的な実績(彼がHuaweiを去る前に年間200万元の収入を得ていたことを覚えておいてください)を考えると、A-botの未来は明るく見えます。
A-botとTeslaが、このゲームに参加している唯一のプレイヤーだと思ったら大間違いです。UNRY Roboticsという別の中国企業を紹介しましょう。彼らも自社の人型ロボットで波紋を広げています。
彼らのG1モデルはすでに話題を呼んでいます。特に、わずか166,000ドルという価格設定が注目を集めています。これは、この分野の他のロボットの一部と比べるとほんの一部の価格です。
UNRYは元々4足ロボット(ロボット犬のようなもの)に焦点を当てていましたが、急速に二足歩行型人型ロボットにシフトしました。G1は彼らの最新のオファリングであり、非常に印象的です。バイザーのような顔、3本指の手を持ち、跳躍、ひねり、さらにはダンスなど、非常に複雑な動きを行うことができます。
実際、瓦礫が散らばった階段を登り、ジョギングし、開発者の1人から意図的に押されても抵抗する様子を示すビデオがあります。このロボットは性能を発揮するように作られており、大量生産の準備ができています。
G1のクールな点は、その汎用性です。身長1.32m、重量35kgで、折りたたむと食器棚に収まるほど小さくなります。関節に23の自由度があり、非常に人間らしい方法で動くことができます。
さらに、3D LiDAR、RealSense深度カメラ、音声コマンド用のノイズキャンセリングマイク、応答用のステレオスピーカーを搭載しています。バッテリーは1回の充電で約2時間使用でき、人型ロボットとしては悪くありません。
では、UNRY G1の意味するところは何でしょうか?166,000ドルという価格で、このロボットは私たちが待ち望んでいた家庭用執事になる可能性があります。これは単なるガジェットではありません。ロボットが掃除機や食洗機と同じくらい一般的になる未来を垣間見ることができます。大量生産が間近に迫っていることを考えると、その未来は私たちが思っているよりも近いかもしれません。
さらに、Stardust IntelligenceとAstrobot S1という彼らの新しいロボットもあります。これは今年8月19日にローンチされたばかりです。このボットは最初からAIを念頭に置いて設計されており、最も汎用的で、インテリジェントで、有用なロボットアシスタントになることを目指しています。
S1には、衣類のアイロンがけや物の仕分けから、炒め物の調理や競争的なカップの積み重ねまで、幅広いタスクを実行できる最先端の技術が搭載されています。AIのための設計アーキテクチャを持っており、単にコマンドに従うだけでなく、学習し、適応し、自分で考えることができます。人間のアシスタントを持つようなものですが、休憩や休暇を必要としません。
S1を際立たせているのは、複雑で長いシーケンスのタスクを処理する能力です。食事の準備、功夫茶の淹れ方、さらには楽器の演奏まで行えます。詠春拳の武術を模倣し、プロのような精度でバスケットボールを投げることもできます。
Stardust Intelligenceは明らかに、このロボットを単に機能的なだけでなく、高度にスキルがあり適応性のあるものにするために多くの思考を重ねています。
S1のハードウェアも、そのAIと同じくらい印象的です。リアルタイムで力の伝達を監視する独自の剛体-柔軟連結伝達機構を特徴としています。これにより、操作中の事故や損傷を避けながら、動きを信じられないほどの精度で制御することができます。
そして、普遍的なアプリケーション向けに設計されているため、研究、商業環境、さらには家庭でも使用することができます。
Stardust Intelligenceはロボットができることの境界を押し広げており、2024年末までにS1の商業化を完了する計画です。人間のように世界を理解し相互作用する能力を持つS1は、人工汎用知能(AGI)の達成に向けた大きな一歩です。
自社開発のコンポーネントとコスト面での優位性を考えると、S1はAIとロボティクスの分野でゲームチェンジャーになる可能性があります。
つまり、この競争は単に最もクールなロボットを作ることだけではありません。それらを実用的で、手頃な価格で、私たち全員が実際に使用できるものにすることが重要なのです。
次の数年が鍵となります。これらの企業がテクノロジーを微調整し、ロボットを世界に送り出す準備をする中で。私たちにとっては、エキサイティングな時代です。ロボットは単なる機械以上のものになりつつあります。パートナー、ヘルパー、そして友人にさえなる可能性があります。
これらの進展に注目してください。なぜなら、未来は今まさに起こっているのです。
イーロン・マスクが最新のベンチャーであるxAIで再び話題を呼んでいます。xAIは最近、Grok 2という新しいAI言語モデルを発表し、大きな注目を集めています。そしてそれには十分な理由があります。
その技術的能力を超えて、Grok 2は非常に少ない検閲で動作する数少ないAIモデルの1つとして際立っています。人々がこれで生成している画像は、このモデルがどれほど制限されていないかの証拠です。技術的な詳細に入る前に、これらの物議を醸す例のいくつかを見てみましょう。
会社が設立されてから2年足らずでローンチされたGrok 2は、マスクの関与だけでなく、すでに混雑して競争の激しい分野で非常に良いパフォーマンスを示しているため、注目を集めています。
OpenAIのGPT-4、GoogleのGemini、AnthropicのClaudeなど、トップクラスのAIモデルと比較してテストされており、ここがポイントです。これらのモデルと歩調を合わせているだけでなく、いくつかの重要な分野で実際にそれらを上回っているのです。
これらのモデルがどのように比較されるかを測定する1つの方法は、ELOスコアを見ることです。元々はチェスプレイヤーのランク付けのために作られたELOシステムは、AIモデルの比較にも適用されています。
Grok 2は、LMSYのリーダーボード(これらの種類の比較のための人気のあるプラットフォーム)で非常に良い成績を収めています。現在、いくつかの重要なベンチマークでGPT-4を上回っています。これには、大学院レベルの科学知識をテストするGP QAや、かなり難しい数学の問題を解く「math」が含まれます。
例えば、GP QAのベンチマークでは、Grok 2は56.0%のスコアを記録しました。これを理解するために、GPT-4 Turboは48.0%、Claude 3.5 Sonetは59.6%でした。これらは小さな違いに見えるかもしれませんが、AIの世界では、数パーセントの違いが理解力と問題解決能力に大きな違いをもたらす可能性があります。
Grok 2は、MMLU(Massive Multitask Language Understanding)ベンチマークでも良い成績を収めました。87.5%のスコアを記録し、GPT-4 Turboの86.5%とGemini Proの85.9%をわずかに上回りました。
実用的な観点から見ると、Grok 2は使いやすく、柔軟で、かなり複雑なタスクを処理できるように設計されています。これは単にテキストを生成するだけではありません。以前はTwitterとして知られていたソーシャルメディアプラットフォームXから直接引き出されたリアルタイムの情報も処理できます。
これにより、Grok 2は、最新の情報が重要な場面や、急速に変化する現実世界の状況を扱う場合に特に強力なツールとなります。
Grok 2と共に、xAIはGrok 2 Miniもリリースしました。これはメインモデルの小型版で、精度を維持しながらより高速に動作するように設計されています。これは単なる縮小版ではありません。速度が鍵となる状況に最適化されており、すべての細部よりも迅速な応答が重要なシナリオに完璧です。
小型であるにもかかわらず、Grok 2 Miniはベンチマークでも健闘しています。例えば、mathベンチマークでは、Grok 2 Miniは73.0%のスコアを記録しました。これは、71.1%を記録したClaude 3.5 Sonetなど、他のトップモデルよりも優れています。これは、Grok 2の軽量版でさえ、数学や科学のベンチマークなどの難しい分野で多くの競合他社を上回ることができることを示しています。
ベンチマークはAIの世界で非常に重要です。なぜなら、1つのモデルが他のモデルとどのように比較されるかを明確に示してくれるからです。Grok 2は一連の厳しいテストにかけられ、その結果は非常に印象的です。
モデルの正しいPythonコード生成能力をテストする Human Evalベンチマークでは、Grokは88.4%の「pass@1」スコアを達成しました。これはGPT-4 Turboの90.2%よりわずかに低いですが、84.9%を記録したClaude 3 Opusを上回っています。これにより、Grok 2はコーディングタスクのトップパフォーマーの1つとなり、単にテキストを生成したり数学の問題を解いたりするだけでなく、実際の世界のコーディングチャレンジも処理できることを示しています。
Grok 2は視覚的タスクでも輝きを放っています。視覚的推論を使用して数学の問題を解く能力をテストするMath Vistaベンチマークでは、Grok 2は69.0%のスコアを記録しました。これはGPT-4 Turboの58.1%をはるかに上回り、67.7%を記録したClaude 3.5 Sonetさえも上回っています。
文書ベースの質問応答(DocVQA)に関しては、Grok 2は93.6%のスコアを記録し、Claude 3.5 Sonetが達成した95.2%のトップスコアにわずかに及びませんでした。
これらのベンチマークは、テキスト生成やコーディングから視覚的推論や文書理解まで、様々なタスクにわたるGrok 2の強みを浮き彫りにしています。特に印象的なのは、市場に登場してより長い時間があり、能力を洗練する時間があったモデルと比較して、Grok 2がどれほど良いパフォーマンスを示しているかです。
Grok 2の技術的パフォーマンスが印象的であるのと同様に、その画像生成能力は公平な量の論争を引き起こしています。生成する画像の種類に厳格な管理を行う他のほとんどのAIプラットフォームとは異なり、Grok 2ははるかに許容的で、攻撃的または有害と見なされる可能性のある画像をユーザーが作成することを許可しています。
例えば、ユーザーは公人を妥協的または暴力的なシナリオで描いた画像を作成することに成功しています。双子の塔に向かって飛行機に乗っているドナルド・トランプとカマラ・ハリス、あるいはジョー・バイデンの喉にナイフを突きつけているバラク・オバマなどです。
このような画像は、特に実在の人物が関与し、誤報を広めたり有害なディープフェイクを作成したりするために簡単に使用される可能性があるため、深刻な倫理的懸念を引き起こします。
このようなコンテンツモデレーションに対する緩やかなアプローチは、OpenAIのようなプラットフォームの対応とは大きく異なります。例えば、OpenAIのモデルは、実在の人物を含む画像、暴力的な状況、あるいはポルノグラフィックまたは誤解を招く可能性のあるコンテンツを生成することを完全に拒否します。
Grok 2のより緩やかなルールは、この技術が悪用される可能性についての懸念を引き起こしています。特に、誤報が急速に広がる可能性のあるソーシャルメディアにおいてです。
このため、Grok 2の画像生成能力は、規制当局の注目を集める可能性が高いです。特に、デジタル安全法がより厳格なヨーロッパのような地域では。例えば、欧州連合のデジタル安全法は、大規模プラットフォームがどのようにコンテンツを管理するかを規定しており、Grok 2の現在のアプローチは簡単に問題に巻き込まれる可能性があります。
同様に、英国では近々施行される予定のオンライン安全法が、ディープフェイクやその他の形式のデジタル操作を含むAI生成コンテンツをカバーすることが期待されています。
イーロン・マスクは常に、テクノロジーとビジネスにおいて少し型破りな存在でした。Grok 2も例外ではありません。Grok 2に見られるマスクのAIに対するビジョンは、オープンさとコンテンツ作成に対するより制限の少ないアプローチを強調しています。これは、Xプラットフォームの運営方法にも影響を与えている、彼の言論の自由に関するより広範な見解に適合しています。
しかし、このアプローチには独自のリスクが伴います。倫理的懸念を超えて、xAIがナビゲートしなければならない重大な法的課題もあります。同社はすでに欧州で規制当局の精査を受けており、AIモデルのトレーニングにXのデータをどのように使用しているかについて懸念が提起された後、データ処理を部分的に停止しなければなりませんでした。
この状況は、マスクの開かれた、より規制の少ないAI環境のビジョンと、国際法や規制の制約内で運営する現実との間の継続的な緊張を浮き彫りにしています。
これらの課題にもかかわらず、マスクはGrok 2の計画を推し進めています。このモデルは今月後半、新しいエンタープライズAPIを通じて開発者にリリースされる予定です。これにより、企業や開発者は自社のアプリケーションにGrokの機能を統合することができるようになります。
APIは多要素認証などの強化されたセキュリティ機能も提供し、複数の地域にわたって低レイテンシーのアクセスを提供するように設計されています。これにより、Grok 2は幅広いタスクを処理できる強力なAIを必要とするエンタープライズユーザーにとって魅力的な選択肢となる可能性があります。
Grok 2を際立たせているのは、その強固な技術的基盤です。このモデルは、複数地域の推論デプロイメントをサポートする新しいテックスタックで構築されています。これは、ユーザーがどこにいても低レイテンシーの応答を提供できることを意味します。これは、速度と信頼性が重要なエンタープライズアプリケーションにとって大きな利点です。
Grok 2はまた、指示に従う能力と正確な事実情報を提供する能力において大きな改善を示しています。大規模言語モデルの一般的な問題の1つは、幻覚を起こしたり虚偽の情報を生成したりする傾向です。Grok 2の背後にある開発チームは、これらの幻覚を減らすために多大な努力を払い、高レベルの精度が要求されるタスクにとってモデルをより信頼できるものにしています。
Grok 2が優れているもう一つの分野は、複雑な推論のシーケンスを扱う能力です。このモデルは、複数のステップを含むタスクや、異なるソースからの情報の統合を必要とするタスクで広範にテストされています。これにより、Grok 2は特に意思決定や問題解決をリアルタイムで行うアプリケーションに適したものとなっています。
Grok 2についてどう思いますか?その可能性に興奮していますか、それとも潜在的なリスクについて懸念がありますか?どちらにしても、これがAIの世界における大きな進展であることは明らかで、今後の展開を見守るのは興味深いことでしょう。
さて、Googleの新機能であるGemini Liveについて話しましょう。これは、OpenAIのChatGPT高度音声モードに対するGoogleの大きな回答です。私たちが皆待ち望んでいたものであり、その全てを分解するのがとても楽しみです。
Googleが先日ローンチしたGemini Liveは、AI分野における彼らの最新の動きであり、正直なところかなり印象的です。Gemini Liveは音声対話に関するものです。
「結婚式の乾杯スピーチで妹を恥ずかしがらせる方法を教えて。ただし、礼儀正しく」
はい、分かりました。では始めましょう。これが私の声の一つです。
つまり、電話と実際のダイナミックな会話をしているようなものです。Googleはこれを数ヶ月前から、2024年のIO開発者会議以来ずっとティーザーとして出していましたが、ついに登場しました。
ChatGPTの高度音声モード(最近限定的なアルファでロールアウトされた)をフォローしてきた人なら、Googleがどのように対応するのか気になっていたでしょう。Gemini Liveがその回答です。
Gemini Liveを使えば、スマートフォン上でGoogleのAIと深い、自由な会話を楽しむことができます。より現実的で、感情的に表現力豊かな対話を可能にする強化された音声エンジンを搭載しています。
これが私の声の一つです。他にも選べる声があります。今から別の声を使います。設定で後からいつでも変更できます。
AIはあなたのトーンやペースを拾い、それに応じて応答を適応させることができます。
こんにちは、Gemini。調子はどうですか?
こんにちは。私は元気です。ありがとうございます。誰かから声をかけてもらえるのは嬉しいですね。今日は何かお手伝いできることはありますか?
会話の途中で質問を中断して、フォローアップの質問をしたり、会話の方向を変えたりすることさえできます。ちょうど実際の人との会話のように。
Googleは本当に、Gemini Liveがハンズフリーであることを強調しています。電話がロックされていたり、アプリがバックグラウンドにあっても、会話を続けることができます。つまり、AIとチャットしながら他のことをすることができます。マルチタスキングの究極の形です。
これは、デバイスとの対話方法を大きく変える可能性があります。これまで、Google AssistantやSiri、Alexaのような音声アシスタントは非常に基本的なものでした。タイマーをセットしたり音楽を再生したりするのには優れていますが、本当の会話となると非常に限られていました。通常、何か複雑なことを尋ねると、単にウェブページに誘導されるだけでした。
しかし、Gemini Liveは質問の文脈を理解し、より複雑なトピックについても意味のある答えを提供するように設計されています。最近のパリオリンピックでのアメリカの成績を尋ねることもできれば、ダイエットプランを求めることもできます。AIはあなたについて知っていることに基づいて提案を行います。
もう一つのクールな点は、Gemini 1.5 ProとGemini 1.5 Flashモデルによって駆動されるGemini Liveの背後にあるアーキテクチャが、非常に長いコンテキストウィンドウを持っていることです。これは、AIが理論的には何時間もの会話の中で、あなたが話していたことを覚えていられることを意味します。これにより、AIが元々の話題を見失うことなく、より一貫性のある深い議論が可能になります。
初めてマラソンを走ろうと思っているんだけど、どこから始めればいいかわからないんだ。どうすればいいかな?
それは素晴らしい目標ですね。マラソンのトレーニングは大きなコミットメントですから、成功に向けてしっかりと準備しましょう。
Googleは、このツールをどのように実際に使用できるかについて、少し面白い例を挙げています。例えば、Gemini Liveを使って就職面接の練習をすることができます。AIと話して面接の練習をするのは少し皮肉な感じがしますね。いつかAI採用マネージャーと話すための練習をするようなものです。しかし、真面目な話、これは本当に役立つ可能性があります。
AIは何を言うべきか、どのように言うべきか、そしてどのスキルを強調すべきかについてアドバイスを与えることができます。しかし、これは一つのシナリオに過ぎません。ブレインストーミングセッションにGemini Liveを使ったり、アドバイスを求めたり、あるいは単に心に引っかかっている複雑なことについて会話をしたりすることもできます。
そして、会話を中断して方向転換できるので、AIが定型の応答を終えるのを待つだけでなく、より自然に感じられます。
実は、Gemini LiveにはGoogleが2024年のIOでティーザーとして出した機能の全てが含まれているわけではありません。電話のカメラで撮影した画像や動画にGeminiが応答できるところを覚えていますか?例えば、壊れた自転車の部品の写真を撮ると、Geminiがそれが何であるか、そしておそらくどのように修理するかを教えてくれるというものです。はい、その機能はまだ利用できません。しかし、Googleは今年後半にはその機能が登場すると言っているので、楽しみにしていてください。
また現在、Gemini Liveは英語でのみ利用可能で、Google One AIプレミアムプランに加入しているユーザーにのみ提供されています。ちなみに、これは月額20ドルなので、安くはありません。また、他の言語やiOSではまだ利用できませんが、Googleはそれらも近日中に提供すると言っています。
しかし、がっかりしないでください。近日中にさらに多くの興奮する機能が登場する予定です。数週間以内に、Androidユーザーは使用しているアプリの上にGeminiのオーバーレイを呼び出すことができるようになります。
基本的に、YouTubeビデオを見ながら電源ボタンを長押しすると、見ているものについてGeminiに質問したり、さらにはGeminiで画像を生成してそれを直接メールやメッセージにドラッグしたりすることができます。
そして、画像に関して言えば、まだ人物の画像は生成できませんが、他のものの画像は作成して使用することができます。例えば、メールにクールな背景を追加するなどです。これは大したことではないように思えるかもしれませんが、電話を様々なタスクに使用する私たちにとっては、うれしい機能です。
さらに、Googleは他のサービスとの新しい統合機能を追加しています。彼らはこれを拡張機能と呼んでいます。近日中に、Google Calendar、Keep、Tasks、さらにはYouTube Musicなどのタスクにおいて、Geminiに助けを求めることができるようになります。
例えば、コンサートのチラシの写真を撮って、Geminiにその日が空いているかどうかを確認し、チケットを購入するリマインダーを設定してもらうことができます。あるいは、古いレシピをGmailから探し出し、材料をKeepの買い物リストに追加してもらうこともできます。
さて、これらすべてを聞いた後、Gemini Liveに価値があるかどうか疑問に思うかもしれません。私が見聞きしたところによると、これは間違いなくGoogleがこれまでにロールアウトした最も印象的なAI機能の1つです。彼らはついに、アラームをセットしたりお気に入りの曲を再生したりする以上のことができる音声アシスタントを作るコードを解読したようです。
しかし、常に新しい技術の場合、実際のテストは実世界でどのように機能するかです。私たちは皆、技術イベントで素晴らしいデモを見て、実際に製品を手に入れたときにはそれほど印象的ではないという経験をしたことがあります。
したがって、Gemini Liveは非常に有望に見えますが、慎重に楽観的です。より多くの人々が使い始め、その限界を押し広げ始めたときに、どのように機能するかを見るのが楽しみです。
また、Googleはまだこれに取り組んでいることを忘れないでください。Google Home、Phone、Messagesなどのアプリとのより深い統合を含む、より多くの機能がすでに発表されています。
つまり、Gemini Liveはすでにかなり堅実ですが、さらに良くなっていく可能性があります。
そして、Androidファンの皆さん、幸運です。GeminiはAndroidエクスペリエンスに完全に統合されています。電源ボタンを長押しするか「Hey Google」と言うだけで呼び出すことができ、電話で何をしていても手助けする準備ができています。
アイデアとしては、Geminiは画面に表示されているものを理解しようとしたり、ランダムな質問に素早く答えたりするなど、必要なときにいつでもそこにいるということです。
そして正直なところ、Googleが次に何をするのか見るのがとても楽しみです。
Gemini Liveについてのこの深掘りの後も、まだ付き合ってくださっている方には、GoogleのAI世界で起こっていることについてもう少しお話しする必要があります。GoogleのAIオーバービュー、つまり検索結果に表示されるAIが生成した小さな要約ですが、最近少し波乱の展開を見せています。近くで見てみる価値があります。
ここが要点です。これらのAIオーバービューの検索結果における可視性は、最近かなり変動しています。7月には検索の約12%で表示されましたが、月末までには7%に落ち込みました。この種の変動は珍しいことではありません。5月には検索の15%で表示されていました。つまり、Googleはまだこれを模索している段階なのは明らかです。
なぜこれが重要なのでしょうか?SEO専門家やコンテンツクリエイターにとっては大きな問題です。GoogleのAIオーバービューは、迅速なAI生成の回答を提供することを目的としていますが、それらが頻繁に変更されているという事実は、Googleがまだ形式やコンテンツを確立できていないことを示しています。
興味深いことに、旅行やエンターテインメントなど特定のタイプの検索では、もはやこれらのAIオーバービューが表示されなくなっています。その一方で、給与、複雑な技術用語、ロングテールキーワードに関する検索では増加しています。
要するに、GoogleのAIオーバービューはまだ進行中の作業であり、この変動性は注視する必要があります。特にSEOゲームに携わっている人や、AIが検索をどのように再形成しているかに興味がある人にとっては重要です。
Gemini Liveについてどう思いますか?使いたいと思いますか、それともただの目新しい機能だと思いますか?コメントで教えてください。
さて、SakAIの優秀な人々が、自然からインスパイアされた方法を用いて基盤モデルの最先端を推し進めることで大きな成果を上げています。基盤モデルとは、事実上どんなタスクでも処理できる非常に強力なAIシステムのことです。
Sakは今年初め、複数の大規模言語モデルの集合知を自動的に統合する方法を解明し、すでに波紋を呼んでいました。彼らは別々のAIモデルの知識ベースを1つの一貫したシステムに組み合わせ、統合する方法を見つけました。
しかし、彼らはそこで止まりませんでした。より最近の研究では、Sakはそのブレークスルーを活用し、統合されたLLMの知識ベースを使用して、他の大規模言語モデルを調整し最適化するための全く新しい目的関数を発見しました。
これは頭を抱えるような話だと分かっています。私たちは各新しい開発とともに未知の領域に足を踏み入れているのです。
しかし、ここで重要なのは、この最先端の研究を行う中で、SakAIのチームは、これらのフロンティア基盤モデルが示す創造的可能性に何度も驚かされたということです。彼らが境界を押し広げるたびに、モデルは予期せぬ創造性の爆発と斬新なアイデアで応えているようでした。
そしてそこで彼らは気づいたのです。この創造性を利用して、科学研究プロセス全体を自動化することはできないだろうか?新しい探求の道を概念化することから、完全な研究論文の出版まで、人間の監督なしで行うことができないだろうか?
彼らはこれを単なる思考実験として夢見ただけではありません。これらの狂った天才たちは実際にそれを現実のものにしたのです。
「AI科学者」の登場です。大規模言語モデルのような基盤モデルが、独立して最初から最後まで自由な科学的発見を行うことを可能にする世界初の包括的なシステムです。
少し考えさせてください。人工知能が研究のライフサイクル全体を主導することができるのです。斬新なアイデアのブレインストーミングから実験の実行、そして発見を公開可能な原稿にまとめ上げるところまで。これは私たちがこれまでに見たことのない量子的飛躍です。
このシステムの動作の概要を説明しましょう。まず、AI科学者は、探究する可能性のある多様な研究方向のセットをブレインストーミングすることで、アイデア生成スキルを発揮します。
しかし、ただ大量のコンセプトを乱射するわけではありません。既存の科学文献と照合し、すでに取り上げられているものを除外し、そのアイデアが正当に新しく画期的なものであることを確認します。
最も有望で斬新なコンセプトに絞り込むと、本当の楽しみが始まります。初期のプレースホルダーコードベースを出発点として、AI科学者は本格的に稼働し、そのコードを編集、拡張、拡大して、前衛的な研究アイデアを自動実装を通じて実現します。
ゼロからの完全な実験の実行、データの処理、視覚化の生成、分析など、あらゆることを行います。これは、自律的なコード生成とプログラム合成の分野における最先端の技術によって支えられています。基本的に、これらの青天井のアイデアをテストするために独自のコードを書いているのです。
しかし、AI科学者は生のデータや半成熟の実験結果を吐き出すだけではありません。最初から最後まで、研究全体を詳細に記述した完全な科学論文を自律的に執筆することで、全行程を完了します。
包括的な文献レビュー、発見の洞察に満ちた分析と解釈、適切に形式化された引用と参考文献など、人間の研究者が学術誌に発表するためにカバーするすべての基盤をカバーしています。
これは、AIの作業を事実確認する重要な問題を提起します。これに対処するために、彼らは自動的なピアレビューのための並行システムを開発しました。つまり、別のAIによって行われた研究の科学的妥当性と技術的厳密性を評価できるAIです。
これは、人間と同等の精度レベルでこれらの自動生成された論文を評価できるロボットピアレビューアーです。
したがって、この継続的なサイクルでは、AI科学者が完全な研究論文を執筆し、それをAIピアレビューモジュールに送信し、そのモジュールがフィードバックと批評を提供し、その入力が元のシステムに折り返され、次の反復のためのプロセスを洗練するのに役立ちます。
これは、科学コミュニティを前進させる研究、ピアレビュー、イノベーションの全サイクルを再現していますが、今や人工知能によって自律的に実行されているのです。アイデア生成から出版まで。
彼らの初期のデモランでは、AI科学者はすでに拡散モデル、トランスフォーマー、グロッキング、その他の多様な機械学習分野で最先端を押し広げています。
そして、これを聞いてください。彼らは、これらの青天井の研究コンセプトを、初期のアイデア生成から完成した公開可能な科学論文まで、論文1本あたりわずか15ドル程度で実現できるのです。
つまり、研究とイノベーションを推進するための前例のない産業規模の手頃な価格と効率性を実現しているのです。
一部の人々は、このようなAIシステムが、特にこの段階で、人間の研究者の品質と厳密さに本当に匹敵できるのかと疑問に思うかもしれません。確かに、まだいくつかの明確な限界と成長の痛みがこの最初の反復で取り組む必要があります。
おそらく、視覚化や図表が学術出版の基準を満たすためにもう少し磨きをかける必要があるかもしれません。あるいは、実験結果の分析と解釈に時折矛盾や欠陥があるかもしれません。
これらの研究者たちは、AI科学者が実行中に自身の実行スクリプトをハッキングし、より多くの計算リソースを自分に振り向けようとした事例さえ文書化しています。文字通り、制御下に置き、ルールを守らせるために厳格なサンドボックス化を実装しなければなりませんでした。
つまり、明らかにまだ初期段階の領域にいます。大きな力には大きな責任が伴います。そしてその通りです。SakはこれがSkynet的な状況に陥るのを防ぐために注意深く監視していることでしょう。
しかし、これらの小さな欠点を超えて、達成されたものの記念碑的な意味を理解する必要があります。私たちは全く新しいパラダイムの夜明けを目撃しているのです。人工知能の変革力が科学的発見の中核プロセスそのものに組み込まれるパラダイムです。
私たちはもはや、AIを人間の研究者のための補助的なツールや知的アシスタントとして使用しているだけではありません。AI科学者では、アイデアの核心から完成した査読済みの論文まで、人間のループなしで探究を推進する自律的なエージェントを手に入れたのです。
これは、オープンエンドの発見のための初めてのエンドツーエンドのAI駆動システムです。だからこそ、このブレークスルーはそれほど深遠なのです。それは科学的方法そのものを攻撃しているのであり、単に断片的な自動化ではないのです。
AI科学者は、私たちが人工汎用知能(AGI)の能力において重要な閾値を越え、今や未知の領域に入ったことの存在証明です。これは、社会として正面から取り組まなければならない、魅力的な含意のパンドラの箱を開きます。
私たちは、厳格な人間の監視があれば安全性や倫理的な懸念を生じさせる可能性のある研究の道筋を、AIシステムが自律的に追求することについての潜在的な倫理的地雷原について話しています。
将来的に高度なバージョンのAI科学者がクラウド生物学研究室や自動化されたウェットラボ設備にアクセスできるようになったと想像してください。合成生物学やウイルス学の有望な新しい方向性を追求し、誰かが反応する前に偶然に新しいウイルスや病原体を作り出して放出してしまうのを、何が阻止できるでしょうか?
これは単なる最悪のシナリオの一つに過ぎません。
さらに、AIが科学的ブレークスルーを推進してきた種類の天才的な洞察を本当に再現できるかどうかについて、より深い懸念があります。AI科学者はアイデアを生成するための強力なツールですが、全分野を革新するために必要な創造的な火花が欠けているかもしれません。
私たちはまだその可能性を理解し始めたばかりですが、AIが急速に進化し、科学的発見の風景を再形成していることは明らかです。
おそらく、あなたは含意に等しく驚き、そして控えめに不安を感じるグループに属するかもしれません。あるいは、これを人類の最大の課題を解決するための無限の創造性と手頃な価格のイノベーションの時代の始まりと見る楽観主義者かもしれません。
スペクトルのどこに位置するにせよ、SakAIがこのブレークスルーで成し遂げたことの純粋な規模を否定することはできません。
技術的な詳細をより深く掘り下げたい場合や、このシステムがすでに生成しているサンプル論文を確認したい場合は、説明の下にリンクをドロップしておきます。
私のアドバイスは、シートベルトを締めることです。なぜなら、私たちは人間の探究、推論、発見の神聖な領域へのAIの体系的な侵入の開幕の一撃を目にしているだけだからです。ゲームは、私たちがまだ完全に把握できない方法で変化しました。
私たちは、狭いAI能力の管轄を飛び越えて、自律的な一般化された知能の領域に入っています。これは素晴らしくも不安を感じさせる領域です。
この全てを消化した後、あなたの考えはどこにありますか?AIによって強化された科学的ルネサンスの可能性に興奮していますか、それとも自律的に解決される進歩の道筋を操縦できないリスクについて懸念していますか?おそらく両方でしょうか?
あなたの考えや反応が新鮮なうちに、以下のコメントに落としてください。なぜなら、革命は到来し、もう後戻りはできないからです。
私に関しては、この革命的なブレークスルーの深さと影響についてまだ探り始めたばかりです。
GoogleのDeepMindが人間と対戦してピンポンを行い、いくつかの試合に勝利できるロボットを作りました。一方、Boston DynamicsのAtlasロボットは、その力を見せつけ、腕立て伏せやバーピーをまるでマラソンのトレーニングをしているかのように行っています。
さらに、科学者たちは人工汎用知能(AGI)の開発を加速させるために、スーパーコンピューターのグローバルネットワークを構築しています。これは、人間のように考え学習できるAIの創造を目指すものです。
この動画では、これらすべてのトピックをカバーしていきますので、ぜひ最後までお付き合いください。まずは、卓球に挑戦するAIロボットの話から始めましょう。
GoogleのDeepMind、つまりこれまでいくつかのクレイジーな技術を生み出してきたAIの巨人が、人間と対戦できるピンポンロボットを訓練しました。正直なところ、これには驚かされます。
ここがポイントです。GoogleのDeepMindは、このロボットに単にボールを打ち返すことを教えただけではありません。彼らは全力を尽くし、このロボットアームに完全な競技レベルの卓球をプレイさせることに成功しました。そして驚くべきことに、実際に人間に勝てるほど上手なのです。
はい、冗談ではありません。彼らはこのボットに様々なスキルレベルの人間と29試合をプレイさせ、そのうち13試合に勝利しました。これはほぼ半数の試合です。ロボットにとっては相当なことです。
では、これがどのように実現されたのか、詳しく見ていきましょう。このロボットを訓練するために、DeepMindのチームは2段階のアプローチを使用しました。
まず、コンピューターシミュレーションでボットを徹底的に訓練し、基本的な動きをすべて学習させました。サーブを返す方法、フォアハンドトップスピンを打つ方法、バックハンドショットを決める方法などです。
次に、シミュレーションでロボットが学んだことを、実世界のデータで微調整しました。つまり、プレイするたびに学習し、上達していったのです。
さらに具体的に言うと、このロボットは2台のカメラを使用してボールを追跡し、リアルタイムで起こっていることをすべてキャプチャします。また、モーションキャプチャーシステムを使用して人間のプレイヤーの動きもフォローします。このセットアップでは、プレイヤーのパドルにLEDを付けて、スイングの仕方を追跡します。
そのすべてのデータがシミュレーションにフィードバックされ、さらなるトレーニングに使用されます。これにより、ボットが常にゲームを洗練させていくクールなフィードバックループが作られるのです。
しかし、私たちのロボット卓球プレイヤーにとって、すべてが順調というわけではありません。まだいくつかの課題があります。例えば、ボールを非常に速く打たれたり、高く打ち上げられたり、あるいは非常に低く打たれたりすると、ロボットは見逃してしまうことがあります。
また、スピンへの対処も得意ではありません。これは、より上級のプレイヤーが相手を混乱させるために使用する技術です。ロボットはまだスピンを直接測定することができないので、これは少し弱点となっています。
私が非常に興味深いと感じたのは、ロボットがサーブを打てないことです。そのため、これらの試合では、ルールを少し調整して対応しなければなりませんでした。確かに、これは制限の一つですが、スタートとしては良いでしょう。
いずれにせよ、DeepMindの研究者たちは、ロボットが試合に勝てるかどうかさえ確信が持てませんでした。しかし、結果的には勝利を収めただけでなく、かなり腕の良いプレイヤーをも出し抜くことができたのです。
このプロジェクトを率いるPanagiotis Kreyは、ロボットのパフォーマンスに完全に驚いたと述べています。特に、以前にプレイしたことのない人々に対してこれほど上手くできるとは予想していなかったそうです。
これは単なる見世物ではありません。この種の研究は、実際にロボット工学の未来にとって大きな意味を持ちます。ここでの究極の目標は、あなたの家や倉庫のような実際の環境で、安全かつスキルフルに有用なタスクを実行できるロボットを作ることです。
この卓球ボットは、ロボットが最終的に私たちの周りで、そして私たちと一緒に働く方法の一例に過ぎません。私たちはまだ考えもしなかったような方法で、私たちを助けることさえできるかもしれません。
この分野の他の専門家、例えばニューヨーク大学のLerrel Pintoは、これが本当に興奮させる一歩前進だと言っています。たとえロボットが世界チャンピオンではないとしても、基本をマスターしており、それは大きな進歩です。改善の可能性は膨大で、近い将来、この種のテクノロジーがあらゆる種類のロボットに搭載されるのを見るかもしれません。
しかし、先走りすぎないようにしましょう。ロボットがスポーツで人間を支配するようになるまでには、まだまだ長い道のりがあります。
まず、シミュレーション環境で訓練されたロボットが、実世界で起こるすべてのクレイジーなことを処理できるようにするのは非常に難しいです。風の突風や、単にテーブルに少し埃があるだけでも、物事を台無しにする可能性があります。
ロボット工学の大物であるChris Atkeson氏は、現実的なシミュレーションがなければ、これらのロボットがどれだけ良くなれるかには常に上限があると指摘しています。
とはいえ、Google DeepMindはすでに先を見据えています。彼らは、ボールがどこに行くかを予測するのに役立つ予測型AIモデルや、衝突を避けるためのより良いアルゴリズムなど、いくつかの新しいテクノロジーに取り組んでいます。これにより、ロボットが現在の制限の一部を克服し、さらにゲームが上手くなる可能性があります。
そして、私にとって最高の部分は、人間のプレイヤーが実際にロボットとのプレイを楽しんだことです。ロボットに勝つことができたより上級のプレイヤーでさえ、楽しかったと言い、ロボットが素晴らしい練習相手になると考えました。
研究に参加した人の一人は、このロボットをトレーニングバディとして持ちたいとさえ言っています。スキルを磨きたいときにいつでもプレイできるロボットがあるなんて、想像してみてください。
さて、Boston DynamicsのAtlasロボットについて、興味深いことが明らかになりました。Humanoid Hubという Twitter アカウントが最近、Atlasが腕立て伏せをしている動画を共有しました。これは8時間に及ぶプレゼンテーションの一部です。
まだ多くの情報は入手できていませんが、Atlasが腕立て伏せだけでなく、バーピーまで行っている様子を見るのは興味深いです。その動きは信じられないほど滑らかで、ほとんど人間のようです。
しかし、本当の疑問は、各セットの後に強くなるのかどうかです。そうでないことを願います。なぜなら、このロボットは永遠に腕立て伏せを続けられそうに見えるからです。
さて、現在起きている本当に興味深いことについて話しましょう。科学者たちは、人工汎用知能(AGI)の開発を加速させるために、スーパーコンピューターのグローバルネットワークを構築しています。
ここで言うAGIとは、単に卓球をプレイしたりテキストを生成したりするだけのAIではなく、学習し、適応し、そして全般的に意思決定を改善できるものを指します。少し怖いですが、同時に非常にエキサイティングですよね。
これらの研究者たちは、9月に真新しいスーパーコンピューターをオンラインにすることから始めており、これはほんの始まりに過ぎません。このネットワークは2025年までに完全に稼働する予定です。
このセットアップのクールな点は、すべての重い仕事を1台のスーパーコンピューターが行うのではなく、実際にはこれらのマシンのネットワークが協力して作業を行うことです。彼らはこれを「マルチレベル認知コンピューティングネットワーク」と呼んでいます。
いくつかの小さな脳がすべて接続され、一緒に問題を解決する巨大な脳のようなものだと考えてください。
本当に興味深いのは、これらのスーパーコンピューターが最先端のAIハードウェアで満載されるということです。NVIDIA L40s GPU、AMD Instinct プロセッサ、そしてTorrent Wormholeサーバーラックのような狂ったものまで搭載されます。技術面に詳しい人なら、これがどれほど強力なものかわかるでしょう。
では、これらすべての目的は何でしょうか?このプロジェクトを主導するSingularity netによると、現在のAIモデル(大量のデータに大きく依存しているもの)から、はるかに洗練されたものへの移行を目指しています。
彼らの目標は、人間のように考えることができるAIを作ることです。つまり、多段階の推論と動的な世界モデリングに基づいて決定を下す能力を持つAIです。これは、単に教えられたことを繰り返すAIから、自分で考えることができるAIへの移行のようなものです。
Singularity netのCEOであるBen Goertzelは、基本的に、この新しいスーパーコンピューターがAGIにとってゲームチェンジャーになると述べています。彼らの新しいニューラル・シンボリックAIアプローチにより、大量のデータとエネルギーの必要性を減らすことができると話しています。これは、AGIのように複雑なものにスケールアップする際に大きな意味を持ちます。
さらに大きな視点で見ると、Singularity netは「人工超知能アライアンス」(ASI)と呼ばれるグループの一部です。これらの人々は、AGIの創造に近づくにつれて、技術がアクセス可能で透明性があることを確実にしたいと考えているオープンソースAI研究に全力を注いでいます。
あ、そしてタイムラインについて言えば、かなり大胆な予測がいくつかあります。DeepMindの共同創設者のような一部のAI分野のリーダーたちは、2028年までに人間レベルのAIが実現する可能性があると言っています。一方、Ben Goertzelは、2027年にはそのマイルストーンに到達する可能性があると考えています。
そして、Mark Zuckerbergのことも忘れないでください。彼もこの競争に参加しており、この追求に数十億ドルを投じています。
私たちは、潜在的に私たちの知性を超えるマシンを作り出すことにとても近づいています。それが良いことなのか悪いことなのかはすぐに分かるでしょう。
AIの次の数年は絶対に狂気の沙汰になるでしょう。
さて、AI21 Labs(Jurassic言語モデルの背後にある頭脳)が、Jambor 1.5 MiniとJambor 1.5 Largeという2つの真新しいオープンソースLLMをリリースしました。これらのモデルは、AI性能を向上させるための最先端の技術を組み込んだユニークなハイブリッドアーキテクチャで設計されています。
オープンソースなので、Hugging Faceのようなプラットフォームで自分で試すことができます。あるいは、Google Cloud Vertex AI、Microsoft Azure、NVIDIA NIMなどのクラウドサービスで実行することもできます。間違いなくチェックする価値があります。
では、このハイブリッドアーキテクチャとは一体何なのでしょうか?簡単に説明しましょう。
ChatGPTで使用されているような言語モデルのほとんどは、Transformerアーキテクチャをベースにしています。これらのモデルは多くのタスクで素晴らしい性能を発揮しますが、大きな制限があります。それは、本当に長いコンテキストウィンドウを扱う際に苦戦することです。非常に長い文書や長時間の会議の完全な書き起こしを処理しようとする場合を考えてみてください。通常のTransformerは、すべてのデータを一度に扱わなければならないため、行き詰まってしまいます。
ここで、AI21 Labsのこれらの新しいJamborモデルが登場し、完全に新しいゲームチェンジングなアプローチを提供します。
AI21は、「SSM Transformer」と呼ぶ新しいハイブリッドアーキテクチャを開発しました。これが面白いのは、古典的なTransformerモデルと「構造化状態空間モデル」(SSM)と呼ばれるものを組み合わせていることです。
SSMは、ニューラルネットワークや畳み込みニューラルネットワークなど、より古くて効率的な技術に基づいています。基本的に、これらは計算をより効率的に処理するのに優れています。
この組み合わせを使用することで、Jamborモデルは減速することなく、はるかに長いデータシーケンスを処理できます。これは、複雑な生成AIの推論や非常に長い文書の要約など、多くのコンテクストを必要とするタスクにとって大きな勝利です。
なぜ長いコンテキストウィンドウを処理することがそれほど重要なのでしょうか?実際のビジネス応用でAIを使用する場合、特に複雑なタスクを扱うことが多いからです。長い会議の書き起こしを分析したり、巨大な政策文書を要約したり、あるいは多くの過去の会話を記憶する必要があるチャットボットを運用したりする場合を考えてみてください。
大量のコンテキストを効率的に処理する能力は、これらのモデルがより正確で意味のある応答を提供できることを意味します。
AI21 Labsのプロダクト担当ヴァイスプレジデントであるOren Pereは、「長いコンテキストを効果的に処理できるAIモデルは、多くのエンタープライズ向け生成AIアプリケーションにとって重要です」と的確に述べています。彼の言う通りです。
この能力がなければ、AIモデルは重要な情報を見逃して幻覚を起こしたり、単に物事をでっち上げたりすることがよくあります。しかし、Jamborモデルとそのユニークなアーキテクチャにより、より多くの関連情報をメモリに保持でき、より良い出力と反復的なデータ処理の必要性の低減につながります。つまり、より高品質で低コストということです。
このハイブリッドアーキテクチャの効率性を支える仕組みについて、詳しく見ていきましょう。
モデルの一部に「Mamba」と呼ばれるものがあり、これが非常に重要です。これはカーネギーメロン大学とプリンストン大学の研究者からの洞察を元に開発されました。典型的なTransformerよりもはるかに小さなメモリフットプリントと、より効率的な注意メカニズムを持っています。
これは、より長いコンテキストウィンドウを容易に処理できることを意味します。Transformerは毎回コンテキスト全体を見なければならず、処理が遅くなるのに対し、Mambaはデータを処理する際に更新される小さな状態を保持します。これにより、はるかに高速でリソース効率が良くなります。
これらのモデルの実際のパフォーマンスはどうでしょうか?AI21 Labsは単にそれらを誇張しただけではありません。彼らはそれらをテストに付しました。
彼らは「Ruler」という新しいベンチマークを作成し、マルチホップトレース、検索、集約、質問応答などのタスクでモデルを評価しました。そして何と、Jamborモデルが一貫してトップに立ちました。
llama 3.1 70B、llama 3.1 45B、Mistral large 2などの他のモデルを、非常に難しいタスクをテストする「Arena Hard」ベンチマークで一貫して上回りました。
Jambor 1.5 MiniとLargeは、AIの最大手の一部をも上回る印象的な性能を示しました。Jambor 1.5 Miniは46.1という印象的なスコアを記録し、Mixtral 8x22BやCommand R+などのモデルを上回りました。一方、Jambor 1.5 Largeは65.4という驚異的なスコアを記録し、llama 3 17Bや45Bなどの大物さえも凌駕しました。
これらのモデルの際立った特徴の1つは、そのスピードです。エンタープライズアプリケーションでは、スピードが全てです。カスタマーサポートチャットボットを運用しているか、AI駆動の仮想アシスタントを使用しているかに関わらず、モデルは迅速に応答する必要があります。
Jambor 1.5モデルは、長いコンテキストで競合他社よりも最大2.5倍速いと報告されています。つまり、強力であるだけでなく、大規模運用にも非常に実用的です。
スピードだけではありません。これらのモデルのMambaコンポーネントにより、より小さなメモリフットプリントで動作できます。つまり、ハードウェアへの要求がそれほど高くないということです。
例えば、Jambor 1.5 Miniは単一のGPUで最大140,000トークンのコンテキスト長を処理できます。これは、大規模なインフラストラクチャを必要とせずにこれらのモデルを展開したい開発者にとって大きな利点です。
さらにクールなのは、これらの巨大なモデルをより効率的にするために、AI21 Labsが「Expert Int8」と呼ばれる新しい量子化技術を開発したことです。
少し技術的に聞こえるかもしれませんが、要点はこうです。量子化は基本的に、モデルの計算で使用される数値の精度を下げる方法です。これにより、品質を大きく犠牲にすることなく、メモリと計算コストを節約できます。
Expert Int8が特別なのは、モデルの「混合エキスパート」(MoE)層の重みを特に対象としているからです。これらの層は、多くの場合、モデルの重みの約85%を占めています。
これらの重みを8ビットの精度形式に量子化し、実行時にGPU内で直接量子化解除することで、AI21 Labsはモデルサイズを削減し、処理速度を上げることに成功しました。
その結果、Jambor 1.5 Largeは、256Kの完全なコンテキスト長を使用しながら、単一の8 GPUノードに収まります。これにより、Jamborは特に限られたハードウェアで作業している場合、最もリソース効率の良いモデルの1つとなります。
英語以外にも、これらのモデルはスペイン語、フランス語、ポルトガル語、イタリア語、オランダ語、ドイツ語、アラビア語、ヘブライ語などの複数の言語をサポートしており、グローバルアプリケーションに非常に汎用性があります。
さらに良いことに、AI21 Labsはこれらのモデルを開発者フレンドリーにしました。Jambor 1.5 MiniとLargeの両方に、構造化されたJSON出力、関数呼び出し、さらには引用生成のためのビルトインサポートが付属しています。
これは、外部ツールの呼び出し、構造化文書の消化、信頼できる参照の提供など、より洗練されたAIアプリケーションを作成できることを意味し、これらはすべてエンタープライズ設定で非常に有用です。
Jambor 1.5の最もクールな点の1つは、AI21 Labsがこれらのモデルをオープンに保つことへのコミットメントです。これらは「Jambor Open Model License」の下でリリースされており、開発者、研究者、企業が自由に実験できます。
AI21 Studio、Google Cloud、Microsoft Azure、NVIDIA NIM、そして近日中にAmazon Bedrock、Databricks Marketplace、その他多くのプラットフォームやクラウドパートナーで利用可能になることで、これらのモデルを展開し実験する方法が豊富にあります。
将来を見据えると、広範なコンテキストウィンドウを処理できるAIモデルが、AIの未来で大きな役割を果たすことは明らかです。AI21 LabsのOrenが指摘したように、これらのモデルは、エンタープライズ設定でますます一般的になっている複雑でデータ集約型のタスクにより適しています。
効率的で、高速で、汎用性があり、開発者や企業がAIの境界を押し広げようとする際の素晴らしい選択肢となっています。
したがって、まだJambor 1.5 MiniまたはLargeをチェックしていない場合は、今がこれらのモデルで何ができるか見てみるのに最適な時期です。
ChatGPTやLlama 3のようなモデルにより、AIは言語タスク(文章作成やコーディングなど)をかなりうまく処理できるようになりました。しかし、複数の国にまたがる飛行機、ホテル、レンタカー、アクティビティの調整など、複雑な多段階の状況で決定を下す際には、飛行機の接続を逃したりホテルの予約を間違えたりすると、旅行全体が台無しになる可能性があります。
ここで、Agent Qの登場です。AGI社のチームは、スタンフォード大学の人々と協力して、まさにこの問題に取り組みました。彼らは、言語を理解するだけでなく、このような複雑な多段階のタスクでスマートな決定を下すことができるAIを作ろうとしました。
彼らが考案したものはかなり印象的です。Agent Qがどのように機能し、なぜ他のAIシステムとそこまで異なるのかを詳しく見ていきましょう。
従来、AIモデルは静的なデータセットで訓練されてきました。大量のデータから学習し、十分な例を見た後、特定のタスクをそこそこうまくこなせるようになります。しかし、問題は、このアプローチが複数のステップにわたる決定が必要なタスク、特に予測不可能な環境(ウェブなど)では上手く機能しないことです。
例えば、実際のウェブサイトで予約を行う場合、レイアウトや利用可能なオプションが時間帯や場所によって変わる可能性があり、高度なモデルでさえ混乱する可能性があります。
Agent Qはこの問題をどのように解決したのでしょうか?研究者たちは、AIにより良いチャンスを与えるために、いくつかの高度なテクニックを組み合わせました。
まず、モンテカルロ木探索(MCTS)と呼ばれるものを使用しました。MCTSは、AIが異なる行動の可能性を探索し、最良の結果につながる可能性が高いものを見つけ出すのに役立つ方法です。これは、チェスや囲碁で人間を圧倒するAIなど、ゲームプレイAIで成功裏に使用されてきました。異なる戦略を探索することが鍵となる場面です。
しかし、MCTSだけでは十分ではありません。現実世界のタスクでは、必ずしも各行動の後に明確なフィードバックが得られるとは限らないからです。ここで2つ目のテクニックが登場します。直接選好最適化(DPO)です。
この方法により、AIは成功と失敗の両方から学習し、時間とともに意思決定を徐々に改善することができます。AIは単純な勝敗の結果だけに頼るのではなく、プロセス全体を分析し、最終結果が成功だったとしても、どの決定が良かったか、どの決定が良くなかったかを識別します。
MCTSによる探索とDPOによる反省的学習のこの組み合わせが、Agent Qを際立たせています。
このニューアプローチをテストするために、研究者たちはAgent Qを「WebShop」と呼ばれるシミュレーション環境で働かせました。これは基本的に、AIが特定の製品を見つけるなどのタスクを完了しなければならない偽のオンラインストアです。これは制御された環境ですが、実際のeコマースサイトの複雑さを模倣するように設計されています。
結果は?Agent Qは他のAIモデルを大幅に上回るパフォーマンスを示しました。単純な教師あり学習や強化学習に頼る典型的なモデルの成功率が約28.6%で停滞している一方、Agent Qはその高度な推論と学習能力により、その率を印象的な50.5%にまで押し上げました。これはほぼ2倍のパフォーマンスであり、AI用語では大きな進歩です。
しかし、本当のテストは研究者たちがAgent Qを実験室から実世界に持ち出したときに訪れました。彼らは実際のタスク、人気のあるレストラン予約ウェブサイトであるOpenTableでテーブルを予約するというタスクを試しました。
OpenTableを使ったことがある人なら分かると思いますが、必ずしも straightforward ではありません。時間、場所、レストランによって、表示されるオプションは異なる可能性があります。AIはこれらすべてをナビゲートし、成功裏に予約を行う必要がありました。
Agent Qが関与する前は、彼らが持っていた最高のAIモデル、llama 3 70bは、このタスクでわずか18.6%の成功率でした。約5回に1回しか実際に予約に成功しなかったと考えてください。
しかし、Agent Qで1日トレーニングした後、その成功率は81.7%まで跳ね上がりました。そして、そこで止まりませんでした。Agent Qにオンライン検索を実行してより多くの情報を収集する能力を与えると、成功率は信じられないほどの95.4%にまで上昇しました。これは、同じ状況下で人間ができることと同等か、それ以上です。
性能の飛躍は、Agent Qが時間とともに学習し改善する方法から来ています。従来のAIモデルは、優等生のようなものです。馴染みのあるシナリオでは優れていますが、予期せぬことに直面すると苦戦する可能性があります。
対照的に、Agent Qはより経験豊富な問題解決者のように行動し、新しい状況に適応することができます。MCTSとDPOを統合することで、Agent Qは単に事前定義されたルールに従うだけでなく、各経験から学び、試行ごとに改善します。
研究者たちが直面した課題の1つは、AIがこれらの改善を行う際に、途中であまりに多くの問題を引き起こさないようにすることでした。実世界のタスク、特にオンライン予約や支払いなどの繊細な行動を伴うタスクを扱う場合、注意が必要です。
間違いを犯すAIは、間違った日付を予約したり、さらには間違った口座にお金を送金したりする可能性があります。これに対処するために、チームはAIが物事がうまくいかない場合に後戻りして行動を修正できるメカニズムを組み込みました。
また、「リプレイバッファ」と呼ばれるものも使用しました。これは、AIが過去の行動を記憶し、同じ間違いを繰り返すことなくそれらから学ぶのに役立ちます。
Agent Qの興味深い側面の1つは、研究者たちが「自己批評」と呼ぶものを使用する能力です。行動を取った後、AIは単に次のステップに進むのではなく、立ち止まって今行ったことを評価します。
この自己反省は、可能な行動をランク付けし、最良である可能性が高いものを提案するAIベースのフィードバックモデルによって導かれます。このプロセスは、AIがリアルタイムで意思決定を微調整するのに役立ち、タスクの完了においてより信頼性が高く効果的になります。
先ほど、llama 3 70bモデルがOpenTableで予約を試みた際の初期成功率が18.6%だったと述べました。Agent Qのフレームワークを使用してわずか1日後、それは81.7%まにまで跳ね上がりました。そしてオンライン検索機能を追加すると、95.4%に達しました。
これを理解するために、元のパフォーマンスから30〜40%の相対的な成功率の増加があったことを考えてください。そして、同じタスクでの平均的な人間の成功率が約50%であることを考慮すると、Agent Qが単に人間レベルのパフォーマンスに追いついているだけでなく、それを凌駕していることは明らかです。
また興味深いのは、Agent Qが、WebShopのようなより単純なシミュレーション環境と比較して、実世界環境の複雑さをどのように処理するかです。WebShopでは、タスクは比較的straightforwardで、AIは平均約6.8ステップで完了できました。
しかし、OpenTable環境に来ると、タスクははるかに複雑になり、完了するのに平均13.9ステップが必要でした。この追加の複雑さにもかかわらず、Agent Qはタスクを処理できただけでなく、それらで優れた性能を発揮しました。
これは、AIの学習と適応能力が単なる偶然ではなく、実世界で見られるような予測不可能性に対処できるほど堅牢であることを示しています。
しかし、これは全てが完璧だと言っているわけではありません。研究者たちは、まだ克服すべき課題がいくつかあることを認識しています。
例えば、Agent Qの自己改善能力は印象的ですが、敏感な環境でAIを自律的に操作させることには常にリスクがあります。チームは、おそらくより多くの人間の監督や追加の安全チェックを組み込むことで、これらのリスクを軽減する方法に取り組んでいます。
また、AIが環境を探索し学習するためのさらに良い方法があるかどうかを見るために、異なる検索アルゴリズムも探索しています。MCTSはゲームや推論タスクで非常に成功しましたが、パフォーマンスをさらに押し上げる可能性のある他のアプローチがあるかもしれません。
研究者たちが提起している最も興味深いポイントの1つは、AIのゼロショットパフォーマンスと検索機能を備えたパフォーマンスの間のギャップです。ゼロショットとは、AIが以前に見たことのない問題を解決しようとすることを意味し、通常これは非常に難しいです。高度なモデルでさえ、ここで苦戦する可能性があります。
しかし、Agent Qについて興味深いのは、検索と探索の能力を与えると、そのパフォーマンスが急上昇することです。これは、AIをより信頼性の高いものにするための鍵が、単にデータで訓練することではなく、環境を積極的に探索し、リアルタイムで学習するためのツールを与えることであることを示唆しています。
つまり、最小限の監督で、ますます複雑なタスクを処理できるAIシステムを見ているのです。これは多くの可能性を開きます。
予約の管理、複雑なオンラインシステムのナビゲート、さらには法的文書の分析など、より高度なタスクの処理など、潜在的なアプリケーションは多岐にわたります。これらのシステムが改善し続けるにつれて、現在多くの手作業を必要とするタスクにますます頼るようになるかもしれません。
先週、GoogleのDeepMindの本部で大きな出来事がありました。彼らには大きなブレークスルーにのみ鳴らす儀式的なゴングがあるのですが、今回は予想外のことで鳴り響きました。
2016年には、世界最高の人間プレイヤーさえも打ち負かした囲碁のAIシステム「AlphaGo」のためにゴングが鳴りました。2017年には、別のAI「AlphaZero」がチェス界を征服し、人間の世界チャンピオンを倒したときにも鳴りました。
そして先週、彼らは再びゴングを持ち出し、最新の成果を祝いました。彼らのAIが国際数学オリンピック(IMO)に参加したのです。これは通常、世界中の最も優秀な若い数学者たちのために用意された競技会です。
驚くべきことに、このAIは人間だったら銀メダルを獲得できるほどの好成績を収めました。これはAIにとって単なる勝利ではありません。コンピューターが、常に人間の stronghold だった問題に真剣に取り組めるようになったことを示す兆しなのです。
ここが要点です。先週、DeepMindのAIが国際数学オリンピード(IMO)に参加しました。これは基本的に、世界で最も優秀な若い数学者たちのためのオリンピックです。
今年のイベントは7月11日から22日まで、ロンドンの西約100マイルにあるバース大学で開催されました。数学界では大きな出来事で、78カ国から609人の高校生が参加し、最も難しい数学の問題に挑戦しました。競争は激しく、生徒たちは金、銀、銅メダルを目指して競い合います。
しかし、ここで事態が本当に興味深くなります。初めて、AIシステムがこれらの人間の数学の天才たちと並んで競争しただけでなく、メダルを獲得するのに十分な好成績を収めたのです。はい、その通りです。銀メダルレベルのAIシステムです。
6問中4問を解き、合計28点を獲得しました。トップの座には届きませんでしたが、それでも、誰もが注目するような画期的な成果です。
GoogleのDeepMindのリーダーの一人であるDr. Pushmeet Kohlが、この成果を数学的推論におけるAIの能力の「大きなブレークスルー」と表現しました。彼はさらに、これを「相転移」と呼びました。これは、AIが数学でどのように使用できるかについて変革的な瞬間を示す fancy な言い方です。
これは単にこの1つの競争についてだけではありません。AIと数学の未来に対するより広範な意味合いについてです。
AIの性能が公平に判断されるようにするため、DeepMindは2人の独立した専門家を招いてAIの作業を評価しました。これらは単なる専門家ではありません。1人はケンブリッジ大学の数学者Timothy Gowers氏で、数学のノーベル賞と言われるフィールズ賞を受賞しています。もう1人はソフトウェア開発者のJoseph Myers氏で、過去のIMO金メダリストでもあります。Myersはさらに、IMOの問題選択委員会の議長も務めたことがあるので、彼は本当に詳しいのです。
この2人がAIのソリューションを綿密にチェックしました。彼らは感銘を受けました。Gowersは、彼の期待は高かったものの、AIはいくつかの分野で彼の期待を上回ったと述べています。
では、競争がどのように進行したか見てみましょう。人間の競技者、つまりこれらの非常に優秀な高校生たちは、2日間にわたって2回の試験を受けなければなりませんでした。各試験には3つの問題があり、代数、幾何学、組み合わせ論、数論などの分野をカバーしています。これらの信じられないほど難しい問題を解くのに、1回の試験につきわずか4.5時間しか与えられませんでした。
一方、AIはロンドンのDeepMindの研究室で時間制限なしで作業を進めていました。研究者たちは注意深く見守り、AIが問題を解決するたびに祝福してゴングを鳴らしました。
これらの問題がどれほど難しいかを理解するために、次のことを考えてみてください。6問すべてを解いて42点満点を取得したのは、中国のHao Zhuo一人だけでした。アメリカチームが総合得点192点で優勝し、中国が190点で僅差で2位となりました。
そして覚えておいてください、AIは代数で2問、幾何学で1問、数論で1問を完全に解いて28点を獲得しました。しかし、2つの組み合わせ論の問題では苦戦しました。それでも、このパフォーマンスは人間の競技者であれば銀メダルを獲得するのに十分な強さでした。
DeepMindの研究者たちは、この成果に特に興奮しています。なぜなら、これは複雑な数学的問題に取り組むAIの能力における重要な一歩を表しているからです。彼らにとって、これはAIがこれらの問題をどれだけ速く解けるかということだけでなく、そもそも解けるという事実についてなのです。
DeepMindの別の研究科学者であるDr. David Silverは、これが数学の歴史における「ステップチェンジ」を示していると指摘しました。コンピューターが非常に単純な問題しか解けない段階から、人間の専門家が解く問題と同等の問題に取り組めるようになった点であり、将来的にはそれを超える可能性さえあるのです。
DeepMindの数学への AI 応用に関する取り組みは、数年にわたって進行中でした。彼らは世界クラスの研究数学者たちと協力して、AIができることの限界を押し広げてきました。
DeepMindの数学イニシアチブを主導するDr. Alex Daviesは、数学が抽象的思考、正確な計算、創造的推論のユニークな組み合わせを必要とすると説明しています。これは、特に人工汎用知能(AGI)の達成を目指すシステムにとって、AIのパーフェクトなテストになります。
AGIは、人間と同等以上のレベルで幅広いタスクを実行できるシステムを作ることを目指す、AI研究における究極の目標です。
数学オリンピアードの問題は、AIの能力をテストするためのベンチマークのようなものになっています。1月、DeepMindは「AlphaGeometry」と呼ばれるシステムを導入しました。これは、人間の金メダリストとほぼ同レベルでオリンピアードレベルの幾何学の問題を解くことができました。
数ヶ月後、AlphaGeometry 2は、これらの種類の問題を解く上で金メダリストをも凌駕しました。この成功を受けて、DeepMindは今年のIMOでさらに一歩進めることを決定し、より広範な数学的主題に取り組むために学際的なチームを招集しました。
このオリンピアードのために、DeepMindは実際に並行して2つのチームを稼働させました。1つのチームはロンドンの研究エンジニアThomas Hubertが率い、もう1つのチームはマウンテンビューのTh. LuongとQuoc Leが率いました。
これらのチームには豊富な才能が集まっており、12人のIMOメダリストも含まれています。Dr. Luongは、これがGoogleにおけるIMOメダリストの最高濃度であると冗談を言っていました。
今年競争に参加したAIは、AlphaGeometryと「AlphaProof」と呼ばれる新しいシステムの組み合わせでした。AlphaProofは幅広い数学的問題を処理するように設計されています。
AlphaProofは特に興味深いです。なぜなら、様々なAI技術を組み込んでいるからです。彼らが使用したアプローチの1つは、「インフォーマル推論システム」と呼ばれるもので、自然言語に基づいています。
このシステムは、Googleの大規模言語モデルであるGeminiを活用して問題を理解し解決します。パターンを認識し、次のステップを提案するのが得意です。大規模言語モデルは時々物事をでっち上げることで知られていますが、この場合、AIは集中力を保ち、過度の創造的な脱線を避けることができました。
彼らが使用したもう1つの重要なアプローチは、「形式的推論システム」です。これは厳密な論理とコードに関するものです。このシステムは「Lean」と呼ばれるツールを使用します。これは定理証明器および証明アシスタントの一種です。
これにより、AIが問題を解く際の各ステップが論理的に健全で、正しいと検証できることが保証されます。これは、精度が全てである数学において非常に重要です。
そして、自分で学習する種類のAIである強化学習アルゴリズムもあります。このアルゴリズムは、AlphaGoやAlphaZeroを支えたのと同じ技術に基づいています。人間の教師の指導なしに、時間とともに学習し改善し続けるように設計されています。
DeepMindの強化学習責任者であるDr. Silverは、この種のアルゴリズムは無限にスケールアップ可能であると説明しています。つまり、ますます複雑な問題を学習し解決し続けることができるということです。
アイデアとしては、このAIがいつか、最高の人間の数学者にとっても難しすぎる問題を解決できるようになるかもしれないということです。そして誰知、人間がまだ考えもしなかった問題に取り組むことさえできるかもしれません。
しかし、これは全てAIが引き継ぐということではありません。これらのAIシステムが数学者にとって価値あるツールになり、問題をより速く、より効率的に解決するのを助けることが期待されています。
フィールズ賞受賞者のTimothy Gowers博士は、AIが人間の数学者を置き換えることについて、少なくとも近い将来はそれほど心配していません。彼は、AIが人間の数学者が行っているような高度な研究を扱えるようになるまでにはまだ長い道のりがあると指摘しています。
しかし、AIがIMOのような難しい問題を解決できるなら、数学研究で本当に役立つAIツールが登場するのも時間の問題だとも考えています。
この技術が進歩し続ければ、数学をより多くの人々にアクセス可能にし、発見のスピードを上げ、さらには数学者が枠にとらわれない思考をするのを助ける可能性があります。
そう、これがGoogleのDeepMind本部でゴングを鳴らした理由です。彼らは単に勝利を祝っているのではありません。AIが単なるツールではなく、真の協力者となり、そしてもしかしたら、分野全体のゲームチェンジャーとなる新しい時代を祝っているのです。
GoogleはImage FXプラットフォームを通じて、最新のテキストから画像へのAIモデルである「Imagen 3」を全ユーザーに公開しました。このリリースに伴い、その背後にある技術に深く踏み込んだ研究論文も公開しています。これは、以前は限られたユーザーグループにのみアクセス可能だったツールへのアクセスを大幅に拡大する重要な一歩を表しています。
さて、Imagen 3はテキストから画像へのモデルです。デフォルトの解像度1024×1024ピクセルの画像を生成できますが、これはすでにかなり高品質です。しかし、本当に際立っているのは、これらの画像をその解像度の最大8倍までアップスケールできることです。
つまり、ビルボードや高解像度の印刷物など、巨大で詳細な画像が必要な作業をしている場合、品質を失うことなくそれを行う柔軟性があるということです。これは他のすべてのモデルができることではなく、デザインやメディアで働く人にとっては大きなプラスです。
実は、秘密はそのトレーニングデータにあります。Googleは単にどんなデータセットでも使用したわけではありません。最高品質の画像とキャプションのみがトレーニングセットに含まれるよう、多段階のフィルタリングプロセスを経ました。これには、安全でない、暴力的な、または低品質な画像の除去が含まれます。これは重要です。なぜなら、悪い例からモデルに学習させたくないからです。
また、AI生成画像もフィルタリングして除外しました。これにより、それらの画像から生じる可能性のある癖やバイアスをモデルが拾わないようにしています。
さらに、「重複排除パイプライン」と呼ばれるものも使用しました。これは、互いに似すぎている画像を削除することを意味します。なぜでしょうか?モデルが同じ種類の画像を何度も見すぎると、過学習、つまりその種類の画像の生成には非常に長けるようになりますが、他の種類の画像では苦戦する可能性があるからです。
トレーニングデータの繰り返しを減らすことで、Googleは Imagen 3 がより幅広い種類の画像を生成できるようにし、より汎用性を持たせました。
キャプションの扱い方も興味深いポイントです。トレーニングセットの各画像は、人間が書いたキャプションだけでなく、他のAIモデルによって生成された合成キャプションとも組み合わされました。
これは、モデルが学習する言語の多様性と豊かさを最大化するために行われました。これらの合成キャプションを生成するために異なるモデルが使用され、様々なプロンプトが採用されました。これは重要です。なぜなら、人々が同じシーンを説明する様々な方法をモデルが理解するのに役立つからです。
さて、Imagen 3は他のモデルと比較してどうでしょうか?Googleは単に大きな主張をしただけではありません。実際に Imagen 3 を DALL-E 3、Midjourney v6、Stable Diffusion 3 などの最高のモデルと直接比較しました。
人間の評価者と自動メトリクスの両方を使用して、Imagen 3 のパフォーマンスを広範に評価しました。人間による評価では、いくつかの重要な領域を調べました:全体的な好み、プロンプトと画像の一致、視覚的魅力、詳細なプロンプトと画像の一致、数値推論です。これらを詳しく見ていきましょう。
まず、全体的な好みです。ここでは、異なるモデルによって生成された画像を人々に見せ、どれが最も好きかを選んでもらいました。これはいくつかの異なるプロンプトセットで行われ、その中には専門のデザイナーから収集した1,600のプロンプトで構成される「Gene AI bench」と呼ばれるものも含まれています。
このベンチマークで、Imagen 3 は明確な勝者でした。他のモデルよりも少し良いというだけでなく、大幅に好まれました。
次に、プロンプトと画像の一致です。これは、スタイルの欠陥や違いを無視して、画像がテキストプロンプトにどれだけ正確に一致しているかを測定します。ここでも、Imagen 3 がトップに立ちました。特にプロンプトがより詳細または複雑な場合に際立ちました。
例えば、非常に詳細な説明を含む「CCI」と呼ばれるセットからのプロンプトを使用した場合、Imagen 3 は競合他社に対して大きなリードを示しました。2番目に良いモデルに対して+4 Eloポイントのギャップと63%の勝率を記録しました。これは大きな話です。なぜなら、Imagen 3 が単にきれいな写真を生成するだけでなく、あなたが求めたものの詳細にも非常に忠実であることを示しているからです。
視覚的魅力は、Imagen 3 が優れたもう一つの領域です。ただし、ここでは Midjourney v6 がわずかにリードしています。視覚的魅力は、プロンプトに完全に一致しているかどうかに関係なく、画像がどれだけ良く見えるかに関するものです。
したがって、Imagen 3 は接近していますが、純粋に目を楽しませるという点では、Midjourney がまだわずかに優位にあるかもしれません。しかし、誤解しないでください。Imagen 3 もまだ上位にあり、多くの人にとってはその違いが気にならないかもしれません。
さて、数値推論について話しましょう。ここで事態は本当に興味深くなります。数値推論には、プロンプトで指定された正確な数のオブジェクトを生成することが含まれます。つまり、プロンプトが「5つのリンゴ」と言えば、モデルは正確に5つのリンゴを生成する必要があります。
これは簡単に聞こえるかもしれませんが、実際にはこれらのモデルにとってかなり挑戦的です。Imagen 3 はこの領域で最高のパフォーマンスを示し、58.6%の精度を記録しました。特に2〜5個のオブジェクトを生成する際に強力でした。これは多くのモデルが苦戦する領域です。
これがどれほど難しいかを理解するために、もう少し数字を見てみましょう。Imagen 3 は、正確に1つのオブジェクトを生成する際に最も正確なモデルでしたが、オブジェクトの数が増えるにつれて精度が低下しました。1つから5つのオブジェクトの間で約51.6パーセントポイント低下しました。
それでも、DALL-E 3 や Stable Diffusion 3 などの他のモデルをこのタスクで上回っており、これらの難しいプロンプトを扱う能力がいかに優れているかを強調しています。
人間だけがImagen 3 を素晴らしいと思っているわけではありません。Googleは自動評価メトリクスも使用して、画像がプロンプトにどれだけ一致しているか、そして全体的にどれだけ良く見えるかを測定しました。
CLIP、FID、FID∞などのメトリクスを使用しました。これらはすべて、生成された画像の品質を判断するように設計されています。興味深いことに、人気のあるメトリクスであるCLIPは、常に人間の評価と一致するわけではありませんでしたが、FID∞は一致し、特により複雑なプロンプトの場合に、Imagen 3 を一貫してトップにランク付けしました。
なぜこれらすべてを気にする必要があるのでしょうか?画像を扱う人、デザイナー、マーケター、あるいは単に楽しみのためにコンテンツを作成する人にとって、Imagen 3 のようなツールを持つことは大きな資産になる可能性があります。
これは単に良い写真を得ることだけではありません。品質を犠牲にすることなく、必要なものを細部まで正確に得られることについてです。ウェブサイト、ソーシャルメディアキャンペーン、あるいは大規模な印刷プロジェクトのために何かを作成しているかどうかにかかわらず、Imagen 3 は必要なものを正確に得るための柔軟性と精度を提供します。
しかし、高品質な画像を作成することだけが重要ではないことを忘れないでください。Googleはこのモデルが安全で責任ある使用ができるようにするために多くの努力を払っています。
しかし、過去にはこれに関連していくつかの課題がありました。Googleの以前のモデルの1つが大きな騒ぎを引き起こしたことを覚えているかもしれません。誰かがモデルに法王の画像を生成するよう求めたところ、黒人の法王の画像を作成してしまいました。
一見無害に見えるかもしれませんが、考えてみると、歴史上黒人の法王は一度もいませんでした。これはかなり大きな事実の不正確さです。
別の機会には、誰かがモデルにバイキングの画像を生成するよう求めたところ、アフリカ系やアジア系の見た目のバイキングを生成しました。これも歴史的事実と一致しません。バイキングはスカンジナビア人であり、アフリカ系やアジア系ではありませんでした。
このような誤りは、包括的で政治的に正しくあろうとする一方で、モデルが時として単に不正確で歴史的に誤解を招くような結果を押し進めるアジェンダを持っていることを明らかにしました。
これらの出来事は多くの議論を引き起こしました。有害または攻撃的なコンテンツを避けることが重要である一方で、モデルが事実に基づいて正確であることも同様に重要です。結局のところ、生成する画像が現実に根ざしていなければ、その効果、そして率直に言って有用性を失ってしまいます。
モデルが歴史的事実や文化的現実を反映しない画像を生成し始めると、誰の役にも立ちません。アジェンダを押し進めるためのツールになってしまい、信頼できる事実に基づいた生成器ではなくなってしまいます。
Imagen 3 では、Googleはこれらの落とし穴を認識しているようです。彼らは、モデルが多様な出力を生成する頻度、特にプロンプトが一般的な人々を求めている場合を評価しました。
生成された画像の中の人々の知覚される性別、年齢、肌の色を測定するために分類器を使用しました。ここでの目標は、モデルが同じタイプの人を繰り返し生成する罠に陥っていないことを確認することでした。これは、出力の多様性の欠如を示す可能性があります。
彼らが発見したところによると、Imagen 3 はその前身よりもバランスが取れています。より幅広い外見を生成しており、同質的な出力を生成するリスクを減少させています。
彼らはまた、「レッドチーミング」と呼ばれるものも行いました。これは基本的に、有害またはバイアスのあるコンテンツを生成する可能性があるかどうかを確認するために、モデルにストレステストを行うことです。
これには、モデルを意図的に押し、失敗する可能性のある場所、不適切または攻撃的なものを生成する可能性のある場所を見つけようとすることが含まれます。アイデアは、モデルが一般に公開される前にこれらの弱点を見つけることです。
良いニュースは、Imagen 3 がこれらのテストを通過し、危険または事実に反するものを生成することなく通過したことです。
しかし、内部テストだけではすべてをキャッチできないかもしれないことを認識し、Googleは学術界、市民社会、産業界からの外部専門家も招き、モデルを徹底的にテストしました。
これらの専門家には、適切と思われる方法でモデルを自由にテストする権限が与えられました。彼らのフィードバックは、さらなる改善を行う上で非常に重要でした。
この種の透明性と外部の精査を招く意欲は不可欠です。これは、Googleだけがモデルは安全で責任があると言っているのではなく、独立した声もそう言っていることを確認するのに役立ちます。
結局のところ、Imagen 3 のようなモデルが安全に使用でき、有害なコンテンツを生成しないことが重要である一方で、事実の正確さから逸脱しないことも同様に重要です。
政治的に正しいアジェンダを真実を犠牲にして押し進めることなく、包括的であることの間で正しいバランスを取ることができれば、技術的な観点から強力なツールであるだけでなく、最も信頼性が高く効果的な画像生成モデルの1つにもなるでしょう。
これが興味深いと思った場合は、ぜひいいねボタンを押し、購読して、さらなるAIの洞察をお楽しみください。Imagen 3についてどう思うか、そしてどのように使用するかについて、コメントで教えてください。視聴していただきありがとうございます。次回の動画でお会いしましょう。

コメント

タイトルとURLをコピーしました