メタのLlama 3.2は思ってるよりもずっとすごいで!

5,417 文字

Metas Llama 3.2 Is Much Bigger Than You Think!
Prepare for AGI with me - 🐤 Follow Me on Twitter 🌐 Checkout My website -

AIがもうこれ以上よくなれへんやろうって思てた矢先に、マーク・ザッカーバーグがまた新しいAIの発表してもうたんや。Llama 3.2が正式にお目見えしたんやけど、これがまたAIの世界に大きな進化をもたらしとるんや。
エッジデバイスにも搭載できる多様なモデルがあって、QualcommやMediaTekに最適化されてるし、オンデバイスAIの性能もめっちゃ高いねん。Llama 3.2は本当に限界を押し広げようとしとるわ。
でもそれだけやあらへん。メタはAIのエコシステム全体にもワクワクするようなアップデートをいっぱい出したんや。これは知っとかなアカンで。
せやから、まずはLlama 3.2のことについて話そか。Llama 3.2てなんやねんって?
Llama 3.2は言うたら、Llama 2の超パワーアップした未来の親戚みたいなもんや。もしくはLlama 3の完全版とも言えるかもしれへん。これは単なるアップグレードやのうて、めっちゃデカい飛躍なんや。
この新しいラインナップの中で一番でかい2つのモデル、11bと90bは実際に「見る」ことができるんや。「見る」言うたら、画像推論ができるってことや。
画像推論ってどういうことやねんて? 簡単に言うたら、こんな感じや。
例えば、あんたの小さな会社の1年間の売上グラフがあるとするやろ。「おい、Llama。どの月の売上が一番ええかったんや?」って聞いたら、Llama 3.2はそのグラフを人間みたいに見て、どの月が一番ええかったかをピタリと当ててくれるんや。
ただデータをペラペラ喋るんやのうて、グラフを見て本当に考えてるんや。グラフの読み方がめっちゃ上手な賢い友達みたいなもんやね。これがすごいのは、オープンソースのビジョンモデルで、こんなにええもんはほとんどないからや。
もっとクレイジーなんは、画面に表示されてる例や。画像理解のデモがあって、このモデルのビジョン機能を見せつけとるんや。
まず、Llama 3.2に画像をアップロードするんや。そしたら、その画像の説明が出てくるんや。モダンなオープンプランのレイアウトや、黒い革の家具、真ん中にある暖炉、抽象画なんかが強調されとる。全体的な雰囲気は温かくて、視覚的にインパクトがあるって書かれとるわ。
それから検出されたオブジェクトのリストが出てくるんや。ソファ、椅子、暖炉、コーヒーテーブル、観葉植物、絵画、サイドテーブルなんかやね。
ユーザーが暖炉のオブジェクトを選んで、デザインの代替案を探るんや。そしたら代替案の提案が出てくるんや。システムが色んな暖炉の代替案のリストを作って、それぞれに詳しい説明をつけてくれるんや。
例えば、「控えめなLEDの炎がついたミニマルな壁掛け式の電気暖炉」とか、「伝統的な魅力のある素朴な石張りのガス暖炉」なんかやね。
最後に、暖炉を選んだら、RAGモデルがモダンな暖炉の関連画像を探してくるんや。これらの提案はユーザーの選択に合わせて、代替案のビジュアルイメージを提供してくれるんや。
全体的に見て、これはビジョンモデルがAI体験をどれだけ向上させられるかを示しとると思うわ。これがオープンソースになったってことは、これからもっと多くの体験が我々の元にやってくるってことやね。
せやから、次はLlama 3.2っちゅうモデルのベンチマークを見てみよか。正直言うて、このベンチマークはちょっとびっくりするで。このサイズのモデルとしては本当に驚くべき結果や。オープンソースのモデルがこんなに早くクローズドソースのモデルに追いついてきてるのは、ほんまに不思議やわ。
まずは、メタ自身がこれらのモデルについて言うてることを見てみよか。彼らは言うとるんや。「我々の評価によると、Llama 3.2のビジョンモデルは、画像認識や様々な視覚理解タスクにおいて、Claude 3 HaikuやGPT-4 miniのような主要な基盤モデルと競争力があるんや」って。
3Bモデルは、指示に従うこと、要約、プロンプトの書き直し、ツールの使用などのタスクで、Gemma 2 2.6BやStabilityAI 3.15 miniのモデルを上回る性能を発揮しとるし、1Bモデルはそのサイズで言えばGemmaと競争力があるんや。
これらのモデルを初めて見たときは、それぞれのクラスでかなり印象的やと思ったわ。ここで言うクラスってのは、Llama 3.2モデルをGPT-4oやClaude 3.5 Sonnetのような最先端モデルと比較できへんってことや。だって、サイズがぜんぜん違うからね。
ここに視覚教示調整ベンチマークの表があるんやけど、これを詳しく見てみよか。特に11bと90bのLlama 3.2モデルに注目して、Claude 3 HaikuやGPT-4o miniのような同じサイズのモデルとどう比較されるかを深掘りしていくで。
もしこれらのベンチマークに馴染みがなかったら心配せんでええで。説明しながら進めていくから。
正直に言うと、よく見てみると、このベンチマークはちょっと紛らわしいところがあるんや。大きく誤解を招くようなもんやないけど、色使いのせいで、Llama 3.2が全てのベンチマークで他のモデルを上回ってるように見えるんや。でも、実際はそうやないんよ。
誤解せんといてな。このモデルは確かにすごいんやけど、ちょっと気をつけなあかんところがあるってだけや。
せやから、まずはMMU-Proってやつを見てみよか。これは視覚を使った数学的推論のことや。このベンチマークは、テキストと視覚データの両方を含む複雑なマルチモーダルな数学問題を推論する能力を評価するんや。
ここでLlama 3.2の90bモデルは45.2点を取っとるんや。これはClaude 3 Haikuの27.3点を大きく上回って、GPT-4o miniの42.3点をわずかに上回っとるんや。
これは重要な勝利やね。なぜかって言うたら、グラフや図表のような視覚要素が関わる数学的推論の扱いにおいて、Llama 3.2の優位性を示しとるからや。
これは特に教育ツールで役立つかもしれへんな。視覚的な数学問題を理解して説明することが重要な場面で、Llama 3.2はこの分野で競合を上回る性能を示しとるんや。
次に、もう一つの重要な分野であるMath Vistaを見てみよか。Math Vistaもまた、グラフや図表、さらには手書きの図形のような数学的な視覚を通じて推論するテストなんや。
ここでもLlama 3.2の90bモデルは57.3点を取って、Claude 3 Haikuの46.4点とGPT-4o miniの56.7点を上回っとるんや。GPT-4o miniも競争力は保っとるけど、それでもLlama 3.2がわずかに上回っとるんや。
この差は小さく見えるかもしれへんけど、金融や科学研究のようなハイステークスな分野では、複雑な視覚データを理解する上でのわずかな優位性が大きな影響を与える可能性があるんや。Llama 3.2の一貫した性能は、このタイプの推論タスクにより適しとることを示しとるんやね。
Llama 3.2の目立つ分野の一つが、Chart QAでの性能や。これは、視覚的なチャートやグラフに基づいて質問に答えるベンチマークなんや。90bモデルは85.5点を取って、Claude 3 Haikuの81.7点を快く上回っとるんや。驚くべきことに、GPT-4o miniはここでリストされてすらおらへんのや。
これは大きな勝利や。なぜかって言うたら、チャートを理解して解釈することは、現実世界のアプリケーションで重要なスキルやからや。ビジネス分析、科学研究、データの可視化を扱うあらゆる分野で、チャートデータを正確に分析し解釈する能力は極めて重要なんや。
Llama 3.2のより強力な性能は、可視化されたデータに関する質問により正確に答えられることを意味しとるんや。これは、これらの使用ケースで非常に価値があるってことやね。
AI2 Diagramベンチマークでは、Llama 3.2が再び先頭に立っとるんや。90bモデルが92.3点を取って、Claude 3 Haikuは86.7点や。GPT-4o miniはここでもスコアがリストされてへんのや。
このベンチマークは、技術的または科学的なイラストのような複雑な図表を理解することについてのもんや。Llama 3.2の性能は、視覚データを分析し推論する優れた能力を示しとるんや。
これは工学、医療、教育のような産業に大きな影響があるんや。図表を理解することが基本的なスキルやからな。Llama 3.2のこの優位性は、これらの種類の視覚をより良く解釈できることを意味しとるんや。より正確な洞察や説明を提供できるってことやね。
これは医療条件の診断から、学生が技術的な概念を理解するのを助けることまで、あらゆることに使えるかもしれへんな。
さて、ここで言っとかなあかんのは、Llama 3.2はただビジョン機能を追加しただけやのうて、テキストの分野でも改善されとるLlama 3の新しいバージョンなんや。これは私にとってはちょっと驚きやったな。メタがAIでこんなにたくさんのことをしとることを考えたらな。
テキストのベンチマークを見てみると、MMLU一般知識では、Llama 3の70bモデルが82点を取っとるのに対して、Llama 3.2の90bモデルは86点まで上がっとるんや。これは一般知識と理解力が向上したことを示しとるんやね。
数学的推論では、Llama 3.2の90bモデルは68点を取って、Llama 3の70bモデルの64点から大幅に改善しとるんや。これは90bモデルが複雑な数学的タスクをより正確に処理できることを示しとるんや。
推論タスクでは、Llama 3.2の90bモデルは46.7点を取って、Llama 3の70bモデルの39.5点から明らかな改善を見せとるんや。これは指示に従うことや推論問題を解くことがより上手になったってことやね。
要するに、Llama 3.2の90bモデルは、テキストベースのタスク、特に数学、多言語能力、一般知識の分野で70bモデルを上回る性能を示しとるんや。これはより広範囲の課題をより高い精度で処理できる、より強力なモデルになったってことやね。
なぜかは分からへんけど、彼らはLlama 3とLlama 3.2を比較することは決めなかったんや。
さて、ここからはちょっと残念な話になるんやけど、私みたいに厳しい規制のある地域に住んでる人にとってはな。残念ながら、このモデルは現在そういう地域では利用できへんのや。例えば、今EUやイギリスに住んでる人は、このモデルにアクセスできへんのや。
一番ひどいのは、VPNを使ってオンラインブラウザでこのモデルを使おうとしたんやけど、全然うまくいかへんかったことやね。
関連するAIの発表を全部カバーしようとしとる人間にとっては、自分の国が規制で縛られすぎとるのはほんまにイライラするわ。将来的には、明らかに誰にも脅威になれへんようなモデルに対する規制を緩和してくれることを願っとるわ。
でも幸いなことに、この動画は悪い話で終わらへんのや。メタは実際にOrionっちゅうもんも発表したんや。これがまた信じられへんほどすごい発表やったんや。
というのも、これはハードウェアのプロジェクトで、めっちゃ期待できそうなんや。
「約10年前、私はこのグラスを作るために、世界中から最高の人材を集めてチームを作り始めたんや。要件自体はシンプルなんやけど、それを実現するための技術的な課題は途方もないもんやったな。
まず、これはグラスでなきゃあかん。ヘッドセットやのうてな。ワイヤーもなし。100グラム以下の軽さ。
広視野角のホログラフィックディスプレイが必要で、細かい部分まではっきり見えて、様々な照明条件でも十分明るく、映画スクリーンや複数のモニターを表示できるくらい大きなもんでなきゃあかんのや。
どこにいても、コーヒーショップでも飛行機の中でも、どこでも仕事ができるようにな。
そして、これを通して見えなきゃあかんし、他の人もこれを通してあんたの目を見て、アイコンタクトができなきゃあかんのや。これはパススルーやのうて、ホログラムが重ねられた物理的な世界なんや。
誰かがメッセージを送ってきたら、それが見えるんや。スマホを取り出す必要はなく、ちょっとしたジェスチャーで返信できるんや。今の瞬間から離れることなくな。
もし遠くにいる誰かと一緒にいたいと思ったら、その人をホログラムとしてあんたのリビングにテレポートさせることができるんや。まるでその人がそこにいるみたいにな。
指をタップするだけで、カードゲームやチェス、ホログラフィックな卓球、何でもやりたいことができるんや。一緒に仕事したり遊んだり、何でも好きなことができるんや」
AIハードウェアの分野についてどう思うか、教えてほしいわ。私はこれが、AIにとって最も有望な分野の一つやと思うんや。AIを日常生活に持ち込んで、普通の人々が日々の生活で恩恵を受けられるようにするからな。
今日の動画を楽しんでもらえたら嬉しいわ。どう思ったか教えてな。

コメント

タイトルとURLをコピーしました