
5,463 文字

ChatGPTが輸出可能な深層研究PDFという大幅なアップグレードを受けました。アリババのQuench Chatもその研究機能を大幅に向上させました。そしてSalesforceは、企業の大きな悩みを解決する小型ながら強力なAI、X-Gen Smallを発表しました。FreepickのFlight 7Bは、より速く、より鮮明で、より軽量になりました。
一方、GoogleのGeminiはスマートフォンから車、時計、テレビ、XRヘッドセットへと拡大しています。TikTokはAI Aliveを導入して写真にアニメーションを追加しました。そしてテスラのOptimus人型ロボットは、ダンスを踊り、実世界のタスクに対応できるようになりました。AIは再びレベルアップしており、その詳細をすべて紹介します。では、詳しく見ていきましょう。
まず最初はGemini、GoogleのAIアシスタントです。Geminiはすでにアンドロイドスマートフォンで非常に人気がありますよね?しかしGoogleはさらに進んで、より多くのデバイスにGeminiを拡張しています。まもなくWear OSを搭載したスマートウォッチでGeminiを利用できるようになります。なぜでしょうか?例えば、料理中に手が小麦粉で覆われていて、スマートフォンが手の届かない場所にあるとします。
それでも自然にGeminiに話しかけて、即座に助けを得ることができます。「ロッカー43を使っていることを思い出させて」と伝えたり、ワークアウト中にスマートフォンを取り出さなくても、友人が言及したレストランについて尋ねることもできます。そして、それはあなたの時計だけではありません。GeminiはAndroid Autoにも搭載される予定です。これは本当にクールです。
運転中、Geminiは自然な会話を理解するので、正確なコマンドを心配する必要はありません。郵便局への途中で公園近くの充電ステーションを見つけたり、受信メッセージを要約したり、あなたの返信を別の言語にその場で翻訳したりすることもできます。
そのうち、Gemini Liveが通勤中にニュースの要約や本の概要を読み上げてくれるかもしれません。そして、テレビも取り残されません。今年後半、GeminiはGoogle TVに展開され、年齢に適したアクションムービーを見つけたり、子どもたちが宇宙について果てしない質問をするときに完璧なYouTubeビデオを表示したりするのに役立ちます。さらに、GeminiはSamsungと共同開発した新しいプラットフォーム、Android XRに参加し、よりリアルな体験を提供します。
つまり、Samsungが最初のヘッドセットを発売すると、地図、ビデオ、地元のヒントに囲まれて休暇を計画し、簡単に完全な旅程を作成できるかもしれません。次にTikTokに話を移しましょう。彼らもAIシーンに参入し、AI Aliveと呼ばれるものを立ち上げました。この機能は、TikTokストーリーで静的な写真をダイナミックでイマーシブな動画に変換します。
例えば、素晴らしい夕日の写真を撮ったとします。AI Aliveはそれを動く風景に変え、色の変化、漂う雲、波の音などを加えます。グループ自撮りでさえ、友達の微妙な表情を見せる、生き生きとしたアニメーション化された思い出になります。そして心配しないでください、安全性が大きな優先事項です。
すべての作成物は複数のモデレーションチェックを受け、透明性のためにAIで生成されたラベルが付き、メタデータが埋め込まれているため、プラットフォーム外でダウンロードされた場合でも、コンテンツがAIで生成されたものかどうか常に明確です。さて、こちらは面白いものです。テスラも人型ロボットOptimusが詳細なダンスルーティンを実行している新しいビデオを公開しました。
ダンス自体は工場の運営に特に重要ではありませんが、Optimusの向上した敏捷性、正確な動き、リアルな動きの範囲を明確に示しています。テスラのロボティクス部門の責任者であるMilan Kovacによると、ロボットのダンスの動きは強化学習を使用したシミュレーションを通じて完全に訓練されたものです。
視聴者は安全ケーブルが取り付けられていることに気づくかもしれませんが、それはロボットがバランスを失った場合の潜在的な損傷を防ぐためだけのものです。パフォーマンス中、Optimusは完全に自立しています。今年初め、テスラはOptimisの第3世代を発表し、以前のモデルから大幅にアップグレードされました。
現在、22の自由度を持つ手を備えており、以前のバージョンの11からの大幅な改善により、複雑な物体を把握し、ツールをより効率的に扱うなどの繊細なタスクが可能になりました。さらに、新しいモデルには自己充電機能が含まれており、Optimusは手動介入なしに自身の電力を管理できるようになり、継続的な産業および家庭での応用に不可欠です。
テスラの高度なAIアルゴリズムも大幅にアップグレードされ、ロボットは事前にプログラムされた指示だけに頼るのではなく、自然に新しいタスクを学習できるようになりました。イーロン・マスクは以前、今後1〜2年以内にテスラの工場に何千台ものこれらのロボットを配備する計画について言及しています。彼らの主な役割は、反復的、危険、または単調なタスクを処理することで、生産効率と職場の安全性を大幅に向上させるでしょう。
さらに、マスクとテスラは産業アプリケーションを超えて野心を持っており、Optimusがまもなく日常生活で芝生の手入れ、食料品の取得、犬の散歩、さらには子守りなどの家事を手伝う場所を見つけるかもしれないと示唆しています。もちろん、この最先端のテクノロジーは安くはありません。各Optimusロボットは約2万ドルかかりますが、テスラはより幅広い市場に到達するためにより手頃なレンタルやリース・オプションを検討しています。
次に、アリババのQuenhat AIもスマートになり、新しい深層研究機能を立ち上げました。この新機能により、歴史的詳細、理論的概念、または実世界のアプリケーションであれ、あなたが興味を持っているほぼすべてのトピックについて深く掘り下げることができます。最初の質問をした後、Quenは正確に何に興味があるかを指定するよう促し、最も関連性の高い情報に絞り込むのに役立ちます。
もし不確かであったり、ただ何か面白くて新しいものがほしい場合は、独自の洞察や予期せぬ事実であなたを驚かせることもできます。あなたのクエリが設定されると、Quinnは様々な情報源から詳細な情報を収集し、あなたがコーヒーを飲んだり、ちょっと一息つくだけの間に、広範で徹底的なレポートをまとめます。
結果は、あなたが戻ってきたときに準備ができている、きちんとパッケージされた有益な内訳です。素早い学習セッション、仕事のプロジェクト、あるいは単なるランダムな好奇心を満たすのに最適です。QuenChatそのものは、2023年4月に最初に発表されたアリババクラウドのより広範なQuen一連の高度な大規模言語モデル(LLM)の一部です。
このプラットフォームはマルチモーダル機能、柔軟なアクセシビリティ、高いパフォーマンス、さまざまなビジネスおよび個人用途のための強力なサポートで知られています。この最新のアップデートにより、アリババはユーザーが包括的な研究にアクセスする方法をさらに合理化し、貴重な時間を節約し、生産性を向上させることを目指しています。詳細な仕事のタスクに取り組んでいる場合でも、興味のある新しい分野を探索している場合でも、複雑な主題の理解を深めている場合でも。
深層研究といえば、OpenAIはChatGPTの独自の深層研究機能に重要なアップグレードを最近行いました。ユーザーはChatGPTが詳細で構造の整ったレポートをどんなトピックについても、真剣な研究タスクから旅行計画、航空会社の顧客レビューのチェックに至るまで、まとめられることを常に評価してきました。
しかし、これまではこれらのレポートを整理したり、きれいにエクスポートするのが容易ではなかったため、管理が面倒でした。OpenAIの新しいアップデートはその問題に直接対処しています。今や、深層研究レポート全体を整形されたPDFとして直接エクスポートできます。これらのPDFは基本的なものではありません。画像、表、リンクの引用、および使用されたすべてのソースへの明確な参照を含む、プロフェッショナルに構造化されています。
このエクスポート機能はすでにChatGPT Plusの加入者に世界中で利用可能であり、ユーザー体験を大幅に合理化しています。これは微妙な追加のように思えるかもしれませんが、詳細な研究の整理を簡素化する実用的なアップグレードです。ビジネスタスク、学校のプロジェクト、または単に個人情報をより効果的に管理する場合でも。
さて、ビジネス面では、Salesforceは企業AIを実装する際に多くの企業が直面する重要な課題、急騰するGPUコストとデータプライバシーの問題に対処しています。これに対処するため、彼らはX-Gen Smallと呼ばれる新しいAIモデルを導入しました。これは、コスト効率が高くても強力なAIソリューションを必要とする企業向けに特別に最適化されています。
より大きなリソースを必要とするモデルに常にスケールアップする代わりに、Salesforceは逆方向に進み、小型ながら非常に効率的で、それでも十分なパフォーマンスを備えたAIを作成しました。ここでの重要な戦略は、Salesforceが「小さいが長い」と呼ぶものです。基本的にモデルのサイズを縮小してハードウェア要求を減らす一方で、コンテキスト処理能力を大幅に拡張します。
長い文書を扱う際に外部の検索メカニズムを必要とし、パフォーマンスが低下する可能性のある多くの大型モデルとは異なり、XGen Smallは外部依存なしで広範な内部情報をスムーズに処理し、推論コストを大幅に削減します。SalesforceはX-Gen Smallを詳細かつ複数のステップからなるパイプラインを通じて開発しました。
数兆トークンの膨大なコーパスからの慎重なデータキュレーションから始め、コード、数学的テキスト、自然言語文書、高品質な専門情報を含む多様なコンテンツタイプのバランスを取りながら、データを厳密にフィルタリングし、微調整しました。その後、彼らはスケーラブルなTPUベースの事前トレーニングと高度な長さ拡張技術を使用し、モデルが最大128,000トークンという非常に長いコンテキストでも高いパフォーマンスを維持できるようにしました。
事前トレーニング後、X-Gen Smallは監督指導による微調整と大規模な強化学習を通じてさらに改良され、実用的な推論能力が向上しました。結果として、複雑な企業タスクに適した多目的モデルが生まれ、コード全体のリポジトリの分析から長い研究論文の解釈まで、精度、コンテキスト認識、スピードを犠牲にすることなく行えます。
FreepicもFlight 7Bと呼ばれる最新のAIリリースで注目を集めています。これは彼らの大型の元のFlightバージョンから直接蒸留された高度な画像生成モデルです。しかし、ここで興味深いのは、より大きなバージョンと比較してパラメータが約30%少ないにもかかわらず、新しいモデルは同じように詳細な画像をより速く、そしてメモリ効率が大幅に向上した状態で生成できることです。
Repickは、アーキテクチャを合理化しながら、より大きなモデルの品質を維持するために知識蒸留として知られる方法を使用しました。これは、元のモデルの鮮明さや視覚的な正確さを失うことなく、迅速な生成を得られることを意味します。彼らはまた、DiffusersやComfy UIなどの人気のあるツールと完全に互換性があることを確認し、ユーザーに既存のワークフローにシームレスに統合する柔軟性を提供しています。
同社は、より長く、より説明的なプロンプトを使用することで最高の結果が得られると提案しています。短く、曖昧なプロンプトでは最適ではない出力につながる可能性があります。さらに、1メガピクセル以上の解像度で画像を生成すると、全体的な画像の忠実度と明瞭さが大幅に向上します。そして重要なことに、彼らは著作権を安全に保護するSFW(安全な職場向け)生成特性を維持し、生成されたコンテンツが専門的かつ創造的な環境に適した信頼性のあるものであることを保証しています。
正直に言って、AI業界は日を追うごとに速く動いているように感じますが、これらの進歩が実用的で、役立ち、そして純粋に楽しいものになっていくのを見るのはエキサイティングです。あなたはどう思いますか?どのアップデートがあなたの注目を最も引きましたか?下にあなたの考えを書き込んでください。この更新を楽しんでいただいたなら、いいねボタンを押すのを忘れないでください。そしてまだ登録していなければ、購読するのも忘れないでください。
今日はお付き合いいただきありがとうございました。また次回お会いしましょう。
コメント