AIにおける非構造化データソリューションのニーズに量子がどう応えるか

17,637 文字

How Quantum Solves AI’s Need for Unstructured Data Solutions

This episode is sponsored by Oracle.Oracle Cloud Infrastructure, or OCI is a blazing fast and secure platform for your i...

世界のデジタルアーカイブの非常に大きな割合が量子の機器に保存されています。例えば議会図書館や、史上初めて映画やテレビが記録され、その後デジタル化された最大級の映像アーカイブなどがそうです。これらは時には100年アーカイブ、500年アーカイブと呼ばれますが、私たちは何世紀も持続する技術を設計しています。
単一の顧客が14エーカーものそうした機器を持っています。彼らはテープを選択しました。サイズが非常に大きいため、できるだけコストを抑えたかったのです。テラバイトあたりのコストを最小限に抑えるためにテープを選び、月まで往復8回できる量のテープを使用しています。
AIは突然至る所に現れ始めています。自動運転車から分子医学、ビジネス効率化まで。もしあなたの業界にまだ導入されていないとしても、すぐにやって来るでしょう。しかしAIには大量の速度とコンピューティングパワーが必要です。では、コストの急上昇を抑えながらどう競争力を維持すればいいのでしょうか。
クラウドの次世代へのアップグレードが必要な時期が来ています。Oracle Cloud Infrastructure (OCI)は、インフラ、データベース、アプリケーション開発に加え、すべてのAI機械学習ワークロードのための、高速で安全なプラットフォームです。OCIはコンピュートで50%、ネットワーキングで80%コストを削減できるため、大きな節約が可能です。すでに何千もの企業がOCIにアップグレードしており、MGMリゾーツ、スペシャライズドバイクス、ファイアワークスAIなどが含まれます。
現在Oracleは、OCIに移行する新規米国顧客に対して、現在のクラウド料金を半額にするオファーを提供しています。最小限の財務コミットメントが必要です。御社がこの特別オファーの対象となるかどうかは、oracle.com/onai でご確認ください。
量子は大量の非構造化データを扱う人々のためのインフラを構築しています。私たちはエンドツーエンドのアーキテクチャとしてのデータストレージインフラを、多くのモダリティで扱っています。AIの作業や編集、非構造化データの処理作業、あるいはアーカイブや長期間のデータバックアップなど、非構造化データのライフサイクル全体におけるすべてのモダリティを扱っています。
量子という社名は、確かに量子コンピューティングとは何の関係もありません。しかしデータストレージで量子という用語は使われているのでしょうか。いいえ、量子は元々70年代後半から80年代初頭にディスクドライブ会社として設立され、創設者たちが量子という名前を選びました。実際、私たちの会社は名前を変更する時期に来ているかもしれません。なぜなら、現在私たちがやっていることは、10年前と比べても全く異なるものだからです。
私たちは過去6年間で完全にポートフォリオを再構築し、エンドユーザーと、私たちが取り組むユースケースは5年前とも大きく異なっています。
ストレージ業界、またはストレージに関する質問は、私が関わってきた中で常に興味深いものでした。かつて私はlabelboxという会社とよく話をしていました。彼らはデータのラベリングのためのプラットフォームを持っており、その多くはビデオでした。私は彼らによく尋ねていました。つまり、私たちはすでにデータの山を持っており、さらに多くのデータを生成していますが、このデータはすべてどこに行くのでしょうか。
数年前、私はある記事を書きました。その研究で分かったことは、多くのデータが最終的にテープドライブに転送され、いわゆるコールドストレージになっているということでした。しかし、まずはデータが作成された後どこに行くのか、お話しいただけますか。確かにデータベースはありますが、必ずしもデータを保持しているわけではありません。それらは索引のようなものですよね。
はい、現在の技術において、特に生成AIにおいて本当に興味深い部分です。構造化データから始めましょう。それほど面白くありませんが、電話番号や人名、請求記録などのことを指します。これらは通常データベースに入り、そのデータベース内で一生を過ごします。請求書が支払済みかどうかなど、編集や更新されることはあります。
しかし非構造化データは全く異なります。非構造化データは、例えば2時間の劇場映画かもしれませんし、人間のゲノムかもしれませんし、人間の頭部のCTスキャンかもしれません。そのCTスキャンには10万枚の画像が含まれているかもしれません。これらはデータベースには入らず、ファイルとして存在する傾向があります。また、構造化データとは異なり、それらのファイルはワークフローの一部として生きており、人々がそれらを操作し、作業を行います。
例えば、医師の診察でX線画像が撮られた場合、その画像は最初にX線機器に付属のストレージに存在します。その後、そのファイルはオフショアに移動され、夜間に別の国の医師がそのX線を研究します。そしてそのデータは強化され、X線画像には注釈が付けられます。つまり、このX線は誰のものか、患者は男性で、この年齢と体重で、この症状があり、これが分析結果だということが示されます。そうしてファイルは成長し、メタデータを持ち始めます。
その後、ファイルは別の国の医師のもとに戻され、手術に向けてすべてフラッシュストレージのような非常に高速なストレージに保存されます。しかし2週間後、4週間後には、もはやそれほど高速なストレージである必要はなくなり、ハードドライブベースのシステムに移動されるかもしれません。そして、あなたが言ったように、数ヶ月が経過すると、テープに移動される可能性があります。病院でテープに移されるかもしれませんし、クラウドのテープに移されるかもしれません。Amazon のGlacierのようなものはテープで構築されており、ほとんどのクラウドがそうしているように、テープを使用しています。
あるいは、テープを使用せずに永久にハードドライブに保存するGoogleのような別のクラウドに移動するかもしれません。しかし、それは移動し、量子が本当に執着しているのは、いつそれを移動させ、どこに移動させるかということです。究極的には、データを保存するだけでは不十分だということを見出しました。データだけでなく、メタデータ、それを取り巻くすべての強化データを保存する必要があり、データを移動するためのルールを提供するツールを提供する必要があります。
例えば、X線画像が3ヶ月経過し、誰も見ていない場合、それがクラウドやテープシステム、あるいは何らかのアーカイブシステムに自動的に移動するトリガーとなるかもしれません。または、非常に安全になるように3〜4箇所に移動し、3〜4つのコピーを持つかもしれません。そのポリシーエンジンが必要で、メタデータエンジンが必要で、データ移動技術が必要です。そして、救急室からその医療画像の分析を通じて、あなたの生涯、そしておそらくあなたの生涯の後までその医療画像を保存することまで、それらのモダリティが必要です。
これが非構造化データを非常に興味深いものにしているのは、それがこのような生命を持っているからです。そしてその生命をさらに興味深いものにしているのは、そのライフサイクルのほぼすべてのステップにAIが存在していることです。例えば、医師がX線を確認する前に、骨折や他の状態についてのAI分析があるかもしれません。ますますAIのステップが増えており、それがインフラストラクチャとツールをより興味深いものにしています。さらに重要なのは、これらの非常にモダーンな作業をサポートするには、単なるストレージ以上のものが必要になるということです。
さて、私がビデオを撮影してクラウドにアップロードする場合、物理的にそれらの0と1は、例えばGoogleのクラウドのハードドライブに書き込まれます。しかし時間とともに、私が料金を支払っている場合、より長期的なストレージにオフロードされます。最終的にはどこかのテープドライブに行き着くということですね。では、テープドライブ上にある最も古いデジタル化されたデータはどのくらい古いのでしょうか。そしてそれはどのくらい持続するのでしょうか。これは、どのくらいのスペースを必要とするのでしょうか。
世界のデジタルアーカイブの非常に大きな割合が量子の機器に保存されています。例えば議会図書館や、史上初めて映画やテレビが記録され、その後デジタル化された最大級の映像アーカイブなどがそうです。これらは時には100年アーカイブ、500年アーカイブと呼ばれますが、私たちは何世紀も持続する技術を設計しています。
これは1つの機器に何世紀も保存されるということではなく、世代を超えてアップグレードされるように設計されているということです。ハードドライブに何かを保存するかもしれませんが、複数のコピーを保持し、それらのコピーをより新しいものにアップグレードし始めます。古いコピーは古い機器、古いプロトコルで廃棄される傾向があります。
40年、50年私たちと共にいる顧客がいます。私たちは時には10年ごと、15年ごとに絶えずアップグレードしています。アーカイブシステムの中には30年間動作するように設計されているものもあります。通常3年で完全に減価償却され、5年後にはほぼ必ず廃棄されるコンピュータ機器では、30年代の寿命を持つストレージ機器を持つことは非常に珍しいことです。そして30年後、または15年から30年後に、世代交代によるアップグレードを始めますが、それは何百年、何百年と持続するように設計されています。
物理的に、その多くはどこにあり、量子の機器ではどのような媒体にあるのでしょうか。私たちの技術のほとんどは3つのモードで動作します。フラッシュ、ディスク、テープ、実際には4つのモードです。フラッシュ、ディスク、テープ、そしてクラウドです。世界最速のファイルシステムであろうと、安価で深いアーカイブであろうと、私たちのほぼすべての製品がこれらのモダリティを持っています。
もちろん、それらはデータセンターに存在します。データ主権を持ち、データを完全に管理したいと考える顧客が多くいます。自分のデータがどの国にあるのか、どの法律の下にあるのかを知りたいと考えています。これは多くの国にとって本当に大きな問題になっています。データがどこにあるかだけでなく、どの法律の下にあるのかということです。
外国の、米国の法律や他の誰かの法律の下にあるデータを持つことは、一部の人々にとって本当に問題になる可能性があります。そのため、機器を所有し、その場所を知り、どの法律の下にあるのかを知り、完全な管理を持ちたいと考える顧客が多くいます。一方で、データをクラウドに置く顧客もいます。その場合、通常は量子の技術を使用しており、主に私たちの安価で深いテクノロジー、または極めて高速なファイルシステムを求めているのがクラウドの顧客です。
それはクラウドとオンプレミスの間に分散しています。私たちの製品は、クラウド事業者から国立研究所、軍事、政府、そして大企業まで、あらゆる人々に購入されています。そしてデータがどの国にあるかという質問は、物理的に、このデータが保存されているテープドライブ、ディスクドライブ、フラッシュドライブなどの媒体がどこにあるかということを話しているのです。それをどのように追跡しているのでしょうか。
システムを自分で所有している場合は問題ありません。より大きな問題は、データをクラウドプロバイダーに置いた場合です。多くのクラウドプロバイダーは、そのデータが決して自国を離れないことを保証できません。そして、データが自国を離れた場合、それを管理する法律が自国の法律になることを保証できません。愛国者法のような法律は多くの人々を心配させています。特に特定の銀行データや政府データは、そのデータの主権を知りたいと考えています。
そのため、多くの国が独自のソブリンクラウドを作成し始めているのを目にします。ドイツには複数のソブリンクラウドがあり、フランス、イタリー、インド、中国など、多くの国々が自国のためのクラウドを作り始めています。これにより、どの法律の下にあるのかを知り、物理的にも国境を越えないこと、もし越える場合は非常に明示的であることを確認できます。
そして、クラウドに何かをアップロードする場合、必ずしもすべてのデータが1つのドライブや1つの場所に存在するわけではありません。ほとんどそうではないですよね。データを保護する方法は、それを縮小して多くの場所にコピーすることです。
それがRAIDやイレージャーコーディングにおいても、ほぼすべてのデータストレージがどのように機能するかの核心技術です。データをできるだけ小さくして、多くの場所、多くの場所、異なる機器、異なるハードドライブ、異なるコンピュータ、異なる場所に分散させることで、何か悪いことが起こっても、どこかに必ず1つのコピーがあるようにするのです。
そしてクラウドがそうする場合、彼らは私たちが望まない国やわからない場所にコピーがあることを心配しています。しかし、データは常に一緒に保たれていると思っていました。データそのものが断片化され、それらの断片が様々な場所に保存されているケースがありますよね。
はい、多くのアルゴリズムがデータをシャードします。つまり、ファイルを破片に分割し、それらの破片を至る所に大量に配置し、再組み立てするという技術です。これはオブジェクトストレージでよく使用される技術です。
そして物理的に、誰かが常に何かを測定していると思いますが、世界の既存のデータ全体がどれくらいの大きさなのかを示すような指標はありますか。指数関数的に成長していますよね。
はい、データが成長している理由は、完全に高忠実度になったからというだけではありません。今日の映画は20年前の映画よりも多くのストレージを使用します。より高解像度で撮影され、毎秒のフレーム数が多く、4Kカメラや8Kカメラの忠実度が高いからです。
しかし、それに加えて、企業は私たちが持っていないデータを分析することは決してできないということを理解し始めています。そしてクラウド上のパブリックデータを分析することは、差別化された方法で行うことが非常に困難です。そこで企業は、私の戦略は世界の誰も持っていない自社のデータを保持し、自社のデータと顧客のデータを分析し、それを自社のビジネスをより成功させる方法で分析することだと言っています。
以前は7年や10年データを保持した後に処分する戦略がありましたが、今では人々は「ああ、そのデータを振り返って見ることは二度とできないかもしれない」と気付き始めています。そのため、人々は一種のデータホーダー（データを溜め込む人）になっています。まだ分析できないかもしれませんが、できるようになることはわかっているので、すべての財務データ、すべての監視カメラデータ、すべての製品データ、持っているすべてのデータを保持したいと考えています。なぜなら、そこから洞察が得られるからです。
そのため、これがAIへの最初のステップだと思います。通常、AIを行うための最初のステップはAIを行うことではなく、自分のものを保持し、それを整理することです。単に大量のものを持っているだけでは本当に役に立ちません。これは何なのか、これは誰の監視カメラビデオなのか、どこのものなのかということです。
そこでデータの強化と、あなたが言及したラベリングやメタデータタギングが必要になります。私は巨大な古いものの倉庫を整理し始める必要があります。そのため、ほぼすべての現代の分析を行う組織が3つのモダリティを持つことになります。クレイジーに高速な領域、作業と整理の領域、そして永久に物事を保持するための巨大な安価で深い倉庫です。
1つの領域は、セクシーな部分であるモデルの開発やトレーニングを行う場所です。しかし、大部分の作業は、この中間領域で行われます。そこでは、整理、クリーニング、同じフォーマットにすること、カテゴリー化を行います。そして再び、すべての古い作業、完了した作業は、この種の、私が永久アーカイブと呼ぶものに入ります。
企業は10年や20年後に物事を捨てていたため、永久アーカイブを検討したことはありませんでした。しかし今、人々は本当にITインフラストラクチャの中核部分として、100年、500年のデータアーカイブを持つことが必要だと考え始めています。
そして、そのようなデータアーカイブについて、量子は異なるモダリティ間でデータを移動するためのツールやプラットフォームを開発していますが、データを物理的に保存するデータウェアハウスも持っているのでしょうか、それとも全く別のビジネスなのでしょうか。
はい、それは多少異なるビジネスです。私たちは大規模言語モデルや分析作業のための世界最速のファイルシステムを作っています。それらはすべてフラッシュシステムで、メタデータタギングや、数十億、数百億のファイルを持つことができる非常に大きな名前空間など、多くの機能を持っています。
それらは大規模にスケールし、スーパーポッドや分析エンジンを飽和させるように設計されています。私たちはそれらの中間レンジシステムと、この種の安価で深いアーカイバル、つまり永久アーカイブシステムを作っています。
そして、顧客と協力して彼らが何をしているのかを理解し、どれだけの高速性が必要か、どれだけの中間レンジが必要か、どれだけのアーカイブが必要か、そしてデータを移動し、タグ付けし、保護するためにどのようなツールが必要かを理解します。
時には、このデータをクラウドや他の場所、オフサイトで保護したいと考える場合もあり、私たちはそのエンドツーエンドのインフラストラクチャを構築するのを手伝います。しかし、あなたが話していたような分析ソフトウェアやKube分析ソフトウェアの作成は行わず、データストレージ、データ移動、データキュレーション、そしてそれらすべてを管理するソフトウェアに焦点を当てています。
私が特に魅了されるのは、あなたが説明する「安価で深い」長期アーカイバルストレージです。私は視覚的な人間なので、イメージしようとしています。
ある単一の顧客は14エーカーものそうした機器を持っています。彼らのインフラストラクチャでは、サイズが非常に大きいため、できるだけコストを抑えたいと考え、テープを選択しました。テラバイトあたりのコストを最小限に抑えるためにテープを選び、月まで往復8回できる量のテープを使用しています。すごいですね。
そして、テープを探し、取り出し、戻して機械に載せる何らかのロボットシステムがあり、データを取り出したい場合はそれを使用するのですね。
はい、その通りです。100年アーカイブについて考えるとき、おそらくそのアーキテクチャの最も魅力的な部分はソフトウェアです。そこにデータを配置し、その場所を追跡し、どのように経年劣化しているかを追跡し、テープの化学物質は劣化しているか、より新しいシステムに移行すべきかを判断するソフトウェアです。
物事を検索するのを助け、メタデータタグを付けるので、そのアーカイブに行って「50歳以前に亡くなったフットボール選手のすべてのCTスキャン」を探すことができます。それは単なるファイルのダンピンググラウンドではなく、実際にはカードカタログ、つまり中にある全てについての非常に豊かなメタデータなのです。
これは過去30年間、映画制作者と一緒に働いて学んだことです。彼らは全てを保持します。スターウォーズやインディ・ジョーンズ、ゴッドファーザーなど、お気に入りの映画から一つのものも捨てることはありません。しかし、初期の頃に彼らが発見したのは、その豊かなメタデータタギングを構築していなかったということです。
時には何億もの、時には何十億ものファイルを、これらの映画フランチャイズから得ることになり、スクロールして何かを見つける以外にはほとんど不可能でした。私たちが学んだのは、「はい、これはスターウォーズのクリップですが、この年に撮影され、これらの俳優が出演し、このシーンで何が起こっているか、彼らが何を言っているか」というキュレーションが必要だということです。そのため、スターウォーズフォルダにあるファイルよりもはるかに豊かなものになります。
そして、そのためのソフトウェアは自動化されているのですね。データを入力すれば…
はい、私たちは人々が言うことをすべてテキストに変換し、検索可能にするソフトウェアを作っています。ビデオに誰が出演しているかを知るために顔認識を統合し、あのチョークのスレートのようなものがある場合、スレートを読んで何と書かれているかを判断できます。
どのカメラが使用されたか、どの音声録音品質があるかを判断でき、それを自動化できます。そして、人間がそれを確認し、「監督はこのアングルが好きではなかった」とか、誰かが「監督はこのアングルが好きだったけど、照明が酷かったので多くの作業が必要だった」と言うことができます。
同様に、ゲノムについても想像できます。この遺伝子が非常に興味深い理由は何か、これは非常に興味深いケースであり、医師や何らかの医師、または研究者がそれに注釈を付け始めるかもしれません。そのため、AIによって生成されたメタデータと人間が追加したメタデータの組み合わせが、これらのアーカイブと検索可能なアーカイブを構築し始めます。
そして、14エーカーの組織の中には、私はそれが大きなテープリールのラックとラックだと想像していますが、サイズはどのくらいなのでしょうか。全く見当がつきません。テープの世界では…
再び、私が説明している技術は、フラッシュ、ディスク、テープで動作することを知っていますが、テープ側については、カートリッジです。非圧縮で18テラバイトを保存する40ドルのカートリッジで、圧縮して複製すると更に多くなります。
適切に管理すれば30年持続し、5〜6台のハードドライブの寿命に相当します。そのため、非常に長寿命で、シーケンシャルな場合は非常に高速です。そして非常に安価なアーキテクチャです。
私たちは、標準的なラックに2,000以上のテープを収納できる新しいディープアーカイブボックスを発売したばかりです。信じられないかもしれませんが、単一のラックで30ペタバイト以上を保存できます。それらは本当に巨大なアイテムです。本当に巨大なのです。
カートリッジ自身はどのくらいの大きさですか？
うわー、4〜5インチくらいですね。
そして、例えばその14エーカーの中には、ラック上に何千万ものテープが詰め込まれており、小さなロボットがそれらをドライブに移動させているのですね。
さて、私たちは2024年にいて、このものは50年代からおそらく蓄積されてきました。さらに50年後には…これが私の頭を悩ませるのですが…私たちは、至る所にこのような巨大なデータセンターのテープストレージがある世界に住むことになるのでしょうか。
多分。しかし、1つ知っておくべきことは、より小さな場所により多くのデータを保存することが、どんどん上手くなっているということです。エアリアルデンシティですね。一部屋分のストレージが必要だったデータが、今では単一の微小なDNAの断片に保存できることを考えてみてください。
そのテクノロジーは商業化するのが非常に難しいですが、現在私たちが知っている方法で、合成DNAや刻印されたガラスなど、より安価な方法や圧縮された方法で膨大な量のデータを保存できることを示しています。
そのため、私が想像するのは、私たちが保存するデータが大きくなるにつれて、それを保存する媒体はどんどん小さくなっていくということです。これは常にそうでした。ハードドライブを見てください。かつては「10メガビットのハードドライブを持っている」とか「10ギガのハードドライブを持っている」と言っていましたが、今ではそれがどうした、というような感じです。
とにかくそれらはどんどん大きく、大きく、大きく、大きくなっていきます。しかし物理的にはそれほど大きくなっていません。まだこのくらいの大きさのハードドライブを手に入れることができ、20年前と比べて何百倍も大きくなっていますが、物理的にはそれほど大きくなっていません。そのため、私たちは引き続きそれらを圧縮していくと思いますが、データセンターがより多くの電力を消費し、より多くの物理的なスペースを使用することも安全に想定できます。
これは魅力的ですね。では、量子はお客様とどのように協力するのですか？
通常、彼らがどのような作業をしているかを理解することから始まります。映画を作っているのか、薬を開発しているのか、分析作業を行っているのか、どのような分析作業なのか。そして通常、それはワークフローです。データはここで生まれ、ここに移動し、ここに移動し、ここに移動し、一連のステップを経ます。
ポストモダンな工場のように、それは本当にデータ工場です。ゲノムがゲノムシーケンサーから出力され、工場の次のステップは研究者が特定の作業を行い、分析が実行され、学びが見つかります。そして、それはこの工場を通り抜けます。
映画は工場で作られます。カラー化され、音声編集され、クローズドキャプションが付けられ、多くのステップが加えられます。そこで、あなたのデータ工場はどのように見えるのかを理解し、その工場を運営するためのインフラストラクチャを提供します。世界記録を更新する超高速オールフラッシュファイルシステムから、中間レンジのオブジェクトシステム、そしてアーカイバルシステムまでです。
私たちはそれらすべてのモダリティを作っており、高速部分に多くのエネルギーを注いでいます。通常、速度レースに勝たなければ、アーカイバル部分や中間レンジ部分は得られません。
そこで、私たちは多くのエネルギーを注いでおり、Myriadという新しいシステムを発表しました。これは世界最速のSMBとNFSのベンチマークを記録しています。さらに高速を実現するために、GPUダイレクトを組み込み、グローバルネームスペースを組み込んだ、非常に高速な並列コンピューティングクライアントを追加しています。
そのため、Myriadファイルシステムに多くのエネルギーを注いでいます。これは非常にスケーラブルで非常に高速、そしてほぼ信じられないほどシンプルに使用できます。速度の最前線で勝つことで、他のワークフローの部分も獲得できると考えています。しかし、完全なワークフローを得るためには、その速度レースに勝たなければならないと思います。
これは競争の激しい業界なのでしょうか、それとも2〜3の大手プレイヤーがいるだけなのでしょうか？
いいえ、スタートアップから、IBM、HPE、日立のような長年のプレイヤーまで、非常に競争が激しいと言えます。長年のプレイヤーもいれば、新しいスタートアップもいます。そのため、かなりロバストなエコシステムで、顧客には多くの選択肢があります。
そのため、本当に常に製品の新バージョンを出し続ける必要があります。量子で私が最も誇りに思うことの1つは、1979年から存在し、独立企業として運営し続けている理由は、おそらくここでの革新の量、投資の量、私たちが持つユニークな技術の量だと思います。
私たちのサイズと年齢の企業でこれほどの革新を見ることは稀です。そして、グローバルなのか、それともUS市場に焦点を当てているのでしょうか？
いいえ、今日では150カ国以上のお客様をサポートしています。そのため、非常に大きなグローバルフットプリントを持っています。
その150のうちの多くは政府でなければなりません。なぜなら、150のうちの多くには多くの産業がないからです。
はい、政府の顧客が多くいます。政府のアーカイブから、疾病モデリング、水モデリング、都市計画モデリングまで、さまざまです。多くの政府がAIモデリングを研究の一部として行っています。高度なAIモデルを行っている多くの研究機関、世界中の薬剤開発にAIモデリングを使用している機関、ゲノミクスモデリングなどがあります。
そのため、私たちはそのような高度な科学的コンピューティングを探しています。そして、ほぼすべての国に映画、テレビ、スポーツ制作のために存在しています。ほぼすべての国にニュース局があり、エンターテインメントテレビがあります。
そして、このような機器の多くは、ソフトウェア側以外の物理的な機器、ストレージ媒体については、パートナーが製造しているのでしょうか、それとも量子が製造しているのでしょうか？
はい、ファイルシステム、オブジェクトストア、バックアップのためのすべてのソフトウェアは、どのようなハードウェア、どのようなサーバーハードウェアでも動作します。そのため、顧客は汎用ハードウェアで私たちから納品を受けることも、自分でハードウェアを購入することもできます。
インドや中国のような特定の国々は、地域のブランドを使用することを好みますが、他の国々はそれほど特定的ではありません。しかし、テープ機器については、それは量子が設計・製造する電気機械工学的なものであるため、私たちが製造しています。しかし、ファイルシステム、オブジェクトストア、バックアップ、それらは単に汎用ハードウェアで作る私たちのソフトウェアです。
そして、あなたが話したテープカートリッジについて、私たちは皆、第一世代のレコーダーからのビデオテープを持っていて、それを見ると全てピクセル化され、劣化しています。これをどのように管理するのでしょうか？
テープカートリッジが非常に興味深いのは、そして再度、量子から一切テープを使用していない何百万もの…申し訳ありません、何千もの顧客がいることを注意しておく必要があります。これは私たちの唯一の製品ではありません。
しかし、テープカートリッジは事実上、化学物質が噴霧されたセロファンの巻き取りです。データはそれらの化学物質の中に3次元的に保存されます。これは実際にはかなり驚くべきことです。
そのため、私たちはその化学物質を研究することができます。テープユニット内には、定期的にテープを観察し、化学基質の状態を確認するデバイスがあります。適切な湿度と温度の下では、30年持続する可能性があります。
私たちは常にそれを監視しており、劣悪な状態や経年劣化によって分解し始めていると判断した場合、データをより安全な場所に移動し、「古いテープは処分してください。私たちがすでに新しいものに移動したので心配いりません」と言います。
そして、再度、私たちが話したシャーディング、つまりデータを分割して分散させることについて、私たちが行っているのは、データを古い劣化したテープから新しいものへと分散させ、移動させ始めることです。
フラッシュやハードドライブでも同様のことを行っています。おそらくご存知かもしれませんが、フラッシュストレージも同様に経年劣化します。フラッシュを読み書きし続けると、それは摩耗します。同様に、ハードドライブも読み書きを繰り返すと、セクターが死に始め、ドライブの一部にブレミッシュが発生し、ドライブはパニックを起こし始めます。
同様に、フラッシュ、ディスク、テープのいずれであっても、その摩耗を研究し、摩耗が進むにつれて、より新しく安全な部品に移動させています。そのため、文字通り数ヶ月ごとに、死んだハードドライブ、死んだテープ、死んだフラッシュメモリSSDをすべて取り出し、新しいものに交換するだけで、データは自動的にバランスを取り、ロードされます。本当に考える必要もありません。時間とともに経年劣化したコンポーネントを運び去るだけでいいのです。
そして、フラッシュについて、あなたは事業がフロントエンドで可能な限り高速であることが本当の差別化要因だと言っていました。フラッシュストレージとは何か、どのように機能するのかについて話していただけますか？
はい、フラッシュストレージには多くの側面があります。しかし、非常に非常に高速な速度を得ることが重要で、古いハードドライブシステムを取り出し、「ハードドライブを取り出してフラッシュストレージを入れる」と言っても、ソフトウェアはまだそれをハードドライブとして扱うので、それは不可能です。
私たちの場合、フラッシュのためにシステムを一から書き直す必要があることがわかりました。そして、フラッシュが非常に高速であるため、フラッシュを多くの異なるサーバー間に分散させることができ、マシン間の接続が非常に高速であるため、サーバーは内部のフラッシュと隣接するフラッシュを区別できないということに気付き始めました。
これにより、巨大なフラッシュストレージ領域を構築することができ、フラッシュを搭載したサーバーを接続するだけで、非常に興味深いことができるようになります。
私たちが最初に行ったことの1つは、そのフラッシュシステムすべてをKubernetesに配置することでした。つまり、コンテナ内に存在するということです。そのため、ストレージシステムがコンテナであることを意味し、他のコンテナのようにそのコンテナをフェイルオーバーさせたり、他のコンテナのように簡単にインストールしたり、移動したりすることができます。
そして突然、私たちのストレージは他のクラウドワークロードのように振る舞い始めます。そして、それがオールフラッシュのKubernetesワークフローである場合、そのワークロードは異なるタイプのサーバーで実行できます。すべてのサーバーが同じベンダーからである必要はなく、ハードウェアに縛られることもありません。また、クラウドにも縛られません。
そのため、私のストレージシステムは異なるベンダーのハードウェアを越えて移動でき、異なるクラウドを越えて移動できますが、1つの単一の名前空間、単一の運用ユニットとして振る舞うことができます。そうすると本当に本当に興味深くなります。
ハードドライブシステムで多くの時間を費やしていた問題の1つは、2人が同時に同じファイルを編集した場合どうするか、同時に保存した場合どうするかということでした。私たちは非常に高速な速度を達成したため、それが発生する可能性は2つの弾丸が衝突する可能性のようになりました。信じられないほど稀で、キューイング、ブロッキング、ブロッキングおよび非ブロッキングトランザクションのようなものを行う必要がないことがわかりました。
システムを自由に動作させ、それらの速度の障壁を一切置かないようにすることができました。なぜなら、衝突の可能性は信じられないほど稀で、何兆回に1回発生したとしても、単にやり直すことができるからです。そしてシステムからそれらの障壁をすべて取り除いたとき、私たちが達成し始めた速度は途方もないものでした。
私たちはKubernetes内からネイティブなRDMAを行い始めました。これは以前誰も行っていなかったことです。そして、Kubernetesであるならば、なぜNVIDIAのプロセッサで実行できないのか、他のベンダーではなく、なぜNVIDIAのKubernetesインスタンス内で実行できないのかと考え始めました。
そして結果的に、私たちのフラッシュをクラウドやAIワークロードに、全く独特な方法で統合することができるようになりました。私たちはまだ、それで何ができるのかを理解し始めたところで、顧客はこのMyriadファイルシステムを手に入れ始め、それで何を達成できるのかを理解し始めています。
申し訳ありませんが、これは無知に聞こえるかもしれません。しかし、これが私がこのような会話を好む理由の一つです。あなたの説明からテープについては理解できました。ハードドライブは一般的に、レーザーで刻まれ読み取られる何らかの基板を持つディスクですよね？
はい、レーザーと磁石ですが、はい、プラッターを磁気的に帯電させています。
しかし、フラッシュは物理的に何なのでしょうか？
それはトランジスタです。数十億、数十億のトランジスタが電気的に帯電しています。磁気基板の代わりに、オンまたはオフに切り替わるトランジスタです。
なるほど、なるほど。はい、そのため電気が必要なのですね。不揮発性にするために多くの作業が必要でした。つまり、電源を切ってもそれらの設定を保持するにはどうすればよいのか、あるいはマシンを再起動してもすべてを失わないようにするにはどうすればよいのかということです。
本当に、不揮発性メモリを実現し、メモリにデータを保存し、電源を切って再び入れてもそのデータを保持できるようになったとき、私たちはそこにデータを保存し始めました。それは信じられないほど高速です。
しかし、これらのトランジスタを作るコストは、バリウムフェライトを噴霧したセロファンの一片を作るよりもはるかに高いと想像できます。そのため、私たちがこれで行っているのは、膨大な量のデータを予算が成長していない会社がどのように保存できるかという経済性を管理することの多くです。
私たちは常に、データは指数関数的に成長していると話しますが、誰の予算も同様には成長していません。そのため、ストレージプロバイダーとして私たちが行う多くのことは、データが指数関数的に成長し、それを分析する圧力が指数関数的に成長しているにもかかわらず、予算は本質的に横ばいであるという事実にどう対処するかの技術を考え出すことです。
分析を行うために、十分な高価なストレージをジャストインタイムモデルのように得て、できるだけ早くそこからデータを移動させる方法を見つける必要があります。時々しか見ないデータを、この信じられないほど高価な媒体に保存しないでください。セロファンに移すか、少なくともハードドライブに置いてください。
ハードドライブは依然としてテープと同様に、プラッター上に基板を持ち、より低コストの磁気化学物質で、非常に密度が高く、素晴らしいエリアル密度を持っています。そして依然として安価です。または場合によってはより安価です。
しかし、フラッシュの人々は特定のハードドライブの価格帯に価格を押し下げ始めていると思います。私たちの製品の中には、オールフラッシュのオファリングとハードドライブのオファリングが同じ価格のものがあります。
私たちのDXI製品は、バックアップターゲットです。「ヘイ、データをバックアップしているので、ハードドライブで十分だ」と思うかもしれません。しかし、本当にそうではありません。データをバックアップしていて、サイバーレジリエンスを本当に心配している場合、データのバックアップそのものはそれほど気にしません。
何か悪いことが起こった場合に素早く復元できることが重要です。私の銀行は素早く稼働を再開する必要があります。そのため、人々はバックアップアプライアンスにサイバーレジリエンスのために猛烈な速度を求めていることがわかりました。攻撃されることはわかっていますが、その攻撃から数秒で復元できることもわかっています。
そのため、私たちのDXI製品、T10やT20で、最も高速なオールフラッシュアプライアンスを販売しているのは、バックアップ分野なのです。人々は非常に高速な復旧時間を求めています。そして、それらの容量ポイントは実際にハードドライブを購入した場合とほぼ同じ価格だとわかっています。
そして、物理的にもはるかにコンパクトですよね？
はい、フットプリントが小さく、ハードドライブとほぼ同じ価格で、データをバックアップする時間だけでなく、復元する時間においても、巨大なパフォーマンスの向上が得られます。
そしてこのビジネスは、私が推測するに、データとともに成長しているはずです。これは巨大なビジネスに違いありません。
ビジネスは成長しています。しかし、人々が支払うテラバイトあたりの価格は下がっています。そのため、より多くのデータを保存していますが、私たちは常に価格を引き下げています。そのため、ストレージ業界では常に、昨日多くのお金を稼いだものが今日はそれほど稼げないとき、どのようにしてお金を稼ぐかを考えなければなりません。
常により良く、より良く、より良くなっていかなければなりません。また、私たちが管理しているのは、世界は以前ほどテープを使用していないということです。そのため、縮小している製品ラインと成長している製品ラインがあり、常にポートフォリオを管理しています。
後期採用技術と全く新しい技術があり、特定のものは急成長し、特定のものは減少しています。そしてそのポートフォリオを管理し、ポートフォリオのどこにお金を投資するかを決定しています。
私たちにとって、本当に多くを投資しているのは、これらの高速オールフラッシュファイルシステムです。Myriadファイルシステムは本当に私たちのR&D努力の多くを注いでいる場所です。また、オブジェクトストアにも投資しています。
オブジェクトストレージは本当に安価で深いテクノロジーであり、ファイルシステムは猛烈な高速性のためのものだと考えています。そして本当に、これら2つのソフトウェアが、モダンなアーキテクチャの制御要素です。ファイルベースとオブジェクトベースです。
すごい旅でしたね。私が触れなかったことで、リスナーに知ってほしいことはありますか？
いいえ、多くの分野をカバーしました。いつも良い話ができます。ありがとうございました。
AIは突然至る所に現れ始めています。自動運転車から分子医学、ビジネス効率化まで。もしあなたの業界にまだ導入されていないとしても、すぐにやって来るでしょう。しかしAIには大量の速度とコンピューティングパワーが必要です。では、コストの急上昇を抑えながらどう競争力を維持すればいいのでしょうか。
クラウドの次世代へのアップグレードが必要な時期が来ています。Oracle Cloud Infrastructure (OCI)は、インフラ、データベース、アプリケーション開発に加え、すべてのAI機械学習ワークロードのための、高速で安全なプラットフォームです。OCIはコンピュートで50%、ネットワーキングで80%コストを削減できるため、大きな節約が可能です。
すでに何千もの企業がOCIにアップグレードしており、MGMリゾーツ、スペシャライズドバイクス、ファイアワークスAIなどが含まれます。現在Oracleは、OCIに移行する新規米国顧客に対して、現在のクラウド料金を半額にするオファーを提供しています。最小限の財務コミットメントが必要です。御社がこの特別オファーの対象となるかどうかは、oracle.com/onaiでご確認ください。