
15,019 文字

Deep Seekは、みんなが話題にしている中国製AIですが、ついにバージョン3に到達しました。正確には、しばらく前からバージョン3になっていたのですが、このチュートリアルを録画する時間がようやく取れました。このバージョン3は、Claude Oneに匹敵すると謳われています。なぜなら、Deep Seekにも推論機能が追加されたからです。では、この新しいAIがどのように機能し、どのような性能を持っているのか見ていきましょう。
これがインターフェースです。とてもシンプルで、標準的なものです。ChatGPTなどを使ったことがある人なら、もう慣れていると思います。全て同じような感じですよね。プロンプトを入力する画面と、いくつかの追加ボタンがあります。サイトにはベンチマークもありますが、今回は見ません。ベンチマークが何か劇的なものでない限り、分析する価値はあまりないと思います。おそらく興味深い点は、Deep Seekがオープンモデルとして、他のオープンモデルと比較してかなり良いポジションにいることです。
実際、GitHubのリンクを後ほど説明欄に貼っておきますが、まずはテストしてみましょう。私は何をしたかというと、最近、ChatGPT、Claude、Perplexity、Geminiを比較した動画で使用したのと同じプロンプトを使うことにしました。その動画でそれら4つのツールがどのように比較され、どのように振る舞ったかをご覧になったと思います。では、Deep Seekではどのように動作するか見てみましょう。これらのプロンプトは、私が日常的に使用する実際の状況に基づいているため、架空のものではありません。
その後で、3つのボタンもテストします。つまり、推論機能、最近追加されたウェブ検索機能、そして画像のアップロード機能をテストして、何が起こるか見てみましょう。
まず最初に何をするかというと、ブレインストーミングの部分でどのように対応するか見てみましょう。このプロンプトを覚えていますか:「私はYouTubeチャンネルを持っていて、テクノロジー、イノベーション、人工知能について話しています。ネット上で見つかる一般的なアイデアではなく、特別なものを5つ提案してください」。
ちなみに、Deep Seekへの登録リンクは説明欄に貼っておきます。deep-seek.comで、現在は無料版のみです。これは、既に1000個の購読を持っている人や、単純に購読料を払う余裕がない人にとって、非常に興味深い選択肢となるかもしれません。
では、AIが提案する5つのアイデアを見てみましょう:
AIバーサス創造性:機械が生成したアート作品はどれほどオリジナルか?
AIが生成したアート作品と人間のアーティストが作った作品を比較する動画を作る。実は、これに似たことを既にやっています。クリエイターを私のチャンネルに招いて、2つの画像を比較して、どちらが写真で、どちらがAIが生成したものかを見分けるチャレンジをしました。しかし、その企画は2024年の大きな失敗の1つとなってしまいました。全く人気が出ませんでした。もし興味があれば、チャンネルで見ることができます。
カスタムAIアシスタントの構築:ステップバイステップガイド
LangChain、HuggingFaceなどのオープンソースツールを使用して、カスタムAIアシスタントを作成する方法を紹介。コードを共有し、特定のニーズに合わせてトレーニングする方法を説明します。もし私のチャンネルがもう少し技術的な内容を扱うものであれば、これは素晴らしいアイデアですが、私たちはここでコードは扱いません。非常に技術的な内容は扱いません。技術的な内容に興味がある人は、私のアカデミーで少し見つけることができます。
AIと仕事の未来:自分自身を解雇して、AIに置き換えてみたら?
1週間、AIに自分のYouTubeチャンネルを運営させる実験をシミュレートします。AIがスクリプトを生成し、動画を編集し、コメントに返信する可能性があります。これは非常に面白いアイデアです。実現可能かもしれません。どのように設定するか考える必要があります。最初に告知するか、それとも週末まで秘密にしておくか。でも、これは非常に面白く、挑発的なものになる可能性があります。気に入りました。
AIと神話:古代の物語をAIに書き換えてもらうとどうなる?
GPT-4のような言語モデルを使って古代の神話を書き換えます。例えば、プロメテウスやトールの物語を現代的な解釈で、未来的なツイストを加えて。AIが生成したイラストも追加します。これは面白いアイデアですね。神話や古代文化について語るチャンネルにより適していると思います。もし私が神話や古代ギリシャなどについて話すチャンネルを持っていたら、トピックに関連付けてこのような企画を作るのは非常に良いでしょう。物語を書き換えるというこのアイデアは気に入りました。何か考えてみます。
AIと倫理:AIに道徳的ジレンマを解決してもらうとどうなる?
AIにトロッリー問題や未来的なシナリオなどの倫理的ジレンマを提示し、その反応を分析して、AIが倫理をどのように理解しているか議論します。わお、これは本当に素晴らしい!このアイデアはリストに加えておきます。AIに有名な倫理的質問をするという企画です。これは本当にライブで思いついたアイデアで、とても気に入りました。これは実現させます。
では、翻訳の例を見てみましょう。これは先ほどの動画で行った2番目の例です。「この非公式なメールを英語に翻訳してください。長年の付き合いがある親しい顧客向けです:
『やあマックス、元気?ちょっと聞きたいんだけど、送った請求書はどうなった?振込を2ヶ月近く待っているんだ。もし受け取っていないなら教えてくれれば、再送するよ。じゃあね、RF』」
翻訳を見てみましょう:
「Hey Max, How’s it going? Listen, Any news on that invoice I sent you? It’s been Almost two months and I’m Still waiting for the payment. If you didn’t get it Just let me know and I’ll Send you Over Again. Catch you soon, RF」
いいですね。では、フォーマルなバージョンも見てみましょう。前回の動画では両方のバージョンを示しました。これは、私が日常的に使用する実際のケースの1つです。架空のものではなく、実際のケースです。
「Dear Mr. Pay, Regarding the last invoice overlooked, perhaps That is Case. Please let me and Will Happy. Best regards, Raffaele」
これは非常にクラシックな例です。メールでの「best regards」は嫌いですが、翻訳は非常に良くできています。
次は逆の例を見てみましょう。イタリア語から英語へ…いや、前回もプロンプトを間違えました。イタリア語のテキストを英語に翻訳し、LinkedInとInstagram用の2つのバージョンを作ります。テキストは以下の通りです:
「大きなニュースをお知らせします。私の無料ブック『誰でもわかるマーケティング』の第2版が発売されました。マーケティング用語68個をシンプルに説明した200ページ以上の本です。常に手元に置いておける用語集として考えてください。今すぐ私のサイトからダウンロードしてください。」
ちなみに、これは作り話ではありません。もし200ページの無料電子ブックが欲しい方は、私のサイトで見つけることができます。
Instagram用の非公式バージョンでは、即座に絵文字とハッシュタグを使用しています。これは今では非常に一般的ですね。絵文字とハッシュタグを見ています。つまり、ここまでは特に驚くべきことはありません。ChatGPT、Claude、その他を使用している場合、これらのことについては、現在市場にあるAIの水準はかなり均一化されています。ただし、これが無料であることは、一部の人にとってはプラスになるかもしれません。
完璧です。次の例に進みましょう。プレゼンテーションについてです。以前の動画で言及したように、私はプレゼンテーションの骨組みを作る際に、これを非常によく使用しています。多くのプレゼンテーションを行っているため、何を入れるか、どのような順序で構成するか、見落としている点はないかなどを考える際に役立てています。すぐにその性能を確認してみましょう。
次のプロンプトを入力します:「1950年代から現在までの人工知能の歴史を要約するプレゼンテーションを顧客向けに作成する必要があります。非常にアクセスしやすく、啓発的なアプローチで、AIが長年私たちと共にあり、私たちの生活と仕事を何年も前から改善してきたことを理解させたいと思います。スライドの初期構造から始めましょう。各スライドのタイトルと簡単な説明だけを教えてください。」
Deep Seekが処理している間に、このビデオに「いいね」とコメントをお願いします。Deep Seekに関する動画を長い間リクエストされていました。ようやく実現しました。新しいものが出たらすぐに動画を作って欲しいという声も知っています。しかし、いつも言うように、誰が最初にコンテンツを作るかは競争ではありません。伝えたいことが山ほどあり、時間が足りないことも多々あります。しかし、ついにDeep Seekの動画が実現し、ご覧のように詳細な例を多く含む深い内容にしたいと思います。この動画は「いいね」に値すると思います。コメントの内容は皆さんにお任せします。
では、結果を見てみましょう:
スライド1:イントロダクション – 人工知能とは何か、日常的な例と共に
完璧です。
スライド2:AIの黎明期 – チューリングテストから1956年に用語が作られた時期まで
スライド3:70年代、80年代の最初の実用化
スライド4:AIの冬 – 停滞期
スライド5:90年代、2000年代の復活 – 機械学習の到来
スライド6:2010年代のディープラーニングの到来、AlphaGoの例
スライド7:現代のAI – 金融、運輸、エンターテインメントでの利用
スライド8:仕事の中のAI
スライド9:課題と結論
ここでは、前回のテストで他のAIが示したような、より独創的なアイデアや少し洗練された何かは見られませんでした。
次に、意思決定の支援や考察、推論の手助けとしての使用を試してみましょう。これは私がよく使う方法です。実際のケースをChatGPTなどのAIに入力し、「見落としている点はないか?より良く考えるのを手伝ってください。異なる視点を示してください」などと依頼します。機械に決定を委ねるのではなく、私が見落としている可能性のあるシナリオや長所短所を評価するためです。
「重要な決定を前にしています。見落としている可能性のある側面があるため、少し考えを整理するのを手伝ってください。上司が私をセールスチームのリーダーに昇進させたいと言っており、7人の営業担当者を管理することになります。しかし、長年の夢は独立して大企業やSME向けの営業チームのトレーナーになることでした。今年こそ実現すると自分に約束していたのですが、上司の提案で迷っています。考慮すべきシナリオと、両方の決定の長所短所、注意深く評価すべき側面を挙げてください。」
これは、プロフェッショナルな生活でも私生活でも使える方法です。同僚や友人、パートナーと話すのと同じように。ただし、それができない時や、フリーランスで相談できる同僚がいない場合もあります。そういう時は、このシナリオをChatGPT、Claude、この場合はDeep Seekに入力して、100の提案の中から「あ、そうか、それは考えていなかった。注意する必要があるな」と気づくものが1つでもあれば良いのです。
常にブレインストーミングの観点から行います。繰り返しますが、AIに人生の決定を委ねるわけではありません。そのことで驚かないでください。
では、AIの回答を見てみましょう:
オプション1(昇進を受け入れる場合):
長所:
・経済的安定性
・キャリアの成長
・ネットワーキング
・実践的な学習
・評価と認知
短所:
・夢の先送り
・より大きなストレスと責任(フリーランスや起業家生活にもかなりストレスはありますが)
・自分の時間の減少
・バーンアウトのリスク
オプション2(独立する場合):
長所:
・夢の実現
・自主性と自由
・高い収入の可能性
・個人の成長
・柔軟性
短所:
・経済的不確実性
・全責任を負う
・孤独(これは興味深い指摘です)
・不安定さ
・福利厚生の欠如(13ヶ月目、14ヶ月目の給与などがないことは明らかです)
評価すべき側面:
・財務状況
・労働市場
・経験レベル
・ライフスタイル
・時間的要因
・外部からのサポート
私は速く進めていますが、4つのツールを比較した前回の動画も見てください。全てが非常にクリアで、直線的で、興味深く、有用です。しかし、特に「すごい!」と言えるようなものはありません。ChatGPT、Claude、その他を使用している場合、この種の機能に関しては、市場のAIはほぼ同じレベルに達しています。しかし、これが無料であることは、特にオープンモデルを使用して作業している人や、APIを利用して他のシステムに統合することに興味がある人にとっては非常に有用かもしれません。
代替シナリオとして提案されたのは:
・昇進を受け入れながら将来に向けて準備する
・少しずつバックグラウンドで働く
・上司と妥協案を探る(パートタイムなど)
・テストを行うなど
これらも前回の動画でほぼ同じように出てきました。全て理にかなっています。
次にストーリーテリングの例を試して、その後はそれらのプロンプトは終わりにして、このビデオのために用意した新しいオリジナルのプロンプトに移ります。Deep Seekの推論機能、リアルタイムウェブ検索(非常に便利な機能です)、そして画像のアップロード機能をテストして、何が起こるか見てみましょう。
まず、ストーリーテリングです。これは、ブログ、本、プレゼンテーション、コンテンツなどで使用する物語、メタファー、ナレーションのインスピレーションを得るためにこれらのツールを使用することを意味します。
では、何を依頼したか見てみましょう:
「作成中のコンテンツで、メタファーやその他の修辞的表現を通じてメッセージを伝える簡単な物語を使いたいと思います。伝えたい概念は、コンテンツ制作において、品質と量は、品質が時間とともに量を通じて達成される目標点であるため、量の方が重要だということです。ちなみに、これは私が本当に信じていることで、よくここで話している内容です。この考えを伝えるために使える短い物語を書いてください。」
「若いレオという画家がいました(苗字はダ・ヴィンチでした)。彼は世界で最も美しい絵を描くことを夢見ていました。毎日、空のキャンバスの前に座り、作り出すであろう傑作を想像していました。しかし、筆を取るたびに立ち止まってしまいました。『完璧でなければならない』と考え、『さもなければ価値がない』と。そうして日々が過ぎ、週が過ぎ、月が過ぎていきましたが、キャンバスは空のままでした。
ある日、一人の老画家が通りかかり、空のキャンバスの前に座っているレオを見かけました。
『なぜ描かないのですか?』と老人は尋ねました。
『傑作を作るためのインスピレーションを待っているのです。凡庸なもので画布を無駄にしたくありません。』
私は時々何かを作ることを楽しんでいます。絵は描きませんが、レタリングをします。だから、この感覚がよくわかります。
老人は微笑み、擦り切れたスケッチブックを取り出しました。中には下書き、スケッチ、未完成の絵が詰まっていました。
『これが私の宝物です。どのページも何か偉大なものへの一歩です。一度も最初の試みで傑作は生まれませんでしたが、それぞれのスケッチが何かを教えてくれました。量こそが、若い友よ、質への道なのです。』」
まあ、残りは…素晴らしい内容です。本当に気に入りました。以前のテストで出てきたものよりも優れているかもしれません。あちらでは多くの繰り返しがあり、いくつかは全く同じ内容でした。これは本当に素晴らしい。老人がスケッチブックを取り出す場面が特に気に入りました。スケッチブックを常に持ち歩き、日々手を動かしている…これは非常に良い概念です。
下部には3つのボタンがあります。推論(誰かが「Claude Oneを打ち負かすだろう」「Claude Oneより強力だ」「無料なのに10億ドルのClaude Oneを打ち負かす」などと言っていました。見てみましょう)、ウェブ検索、そしてファイルのアップロード機能です。
ファイルのアップロードから始めましょう。単純な理由があります。現時点でこのアップロード機能は非常に限定的だからです。マウスを合わせると「テキスト抽出のみ」と表示されます。つまり、PDFをアップロードしてサマリーを作成したり、Excelをアップロードしてデータを読み取ったり、画像をアップロードして分析したりすることはできません。しかし、これはツールが比較的新しいので、まだこれらの機能がないのは理解できます。ChatGPTも最初のバージョンではこれらの機能を持っていなかったことを指摘しておきます。これは、期待値を適切なレベルに保つために言っています。さもないと、「ChatGPTは100の機能があるのに、これはダメだ」と思われてしまいます。確かにそうですが、これは無料の代替手段として特定の場合に役立つ可能性があります。
例を見てみましょう。トレヴィの泉の画像をアップロードします。分析の最後に、テキストを抽出できる画像やファイルのみをアップロードできると直接表示されます。実際、「テキストが抽出されていません」と表示され、プロンプトを入力しても開始されません。この機能は非常に限定的です。
次に、ポスターの画像をアップロードしてみます。「このポスターには何が書かれていますか?」と尋ねます。ポスターを見せますが、大きく「All you need」という文字と「Coffee」という単語が書かれています。メッセージは、コーヒーが必要な全てだということを示唆しています。ここでは横に表示されています。アーティファクトのようなスタイルですね。典型的なカフェのポスターです。
したがって、この機能は本当に非常に限定的です。特に印象的なものはありません。Deep Seekの熱心なファンになった人が多いことを知っています。特にオープンなものを使用している人や、プロジェクトに組み込んでいる人たちですね。それは非常に興味深い点だと思います。だからこそ、説明欄にDeep Seekの登録リンク(deep-seek.com)と、よりテクニカルな人向けのGitHubリンクも貼っておくと言いました。これはアカデミーで何度も言及されたことなので、Deep Seekについての動画を作りたいと思っていました。
ちなみに、IA 360 Academyについても言及しておきます。説明欄とスクリーンにリンクがあります。最近、15日間の無料トライアルを開始しました。永続的に提供するかどうかはまだ決めていませんが、アカデミーに興味があってもまだ参加していない方は、15日間試してみて、自分で判断してください。クレジットカードも必要ありません。IA 360 Academyをクリックして登録するだけです。
オンライン検索を見てみましょう。そして最後に推論機能を試します。では、オンライン検索を有効にして、3つの異なるプロンプトを試してみます。まず、典型的な「人工知能分野の重要な最新ニュースは何ですか?」というものです。この検索結果がどのようにフォーマットされるか見てみましょう。
検索中ですが、まだ「いいね」とタクティカルなコメントをしていない方は、今がその時です。では、興味深い最新ニュースを見てみましょう。生成AIは、コンテンツ作成、合成データ、デジタルツインに焦点を当てて進化し続けています。Tech Businessの2024年11月のニュース(この動画は2025年1月中旬に録画しています)はそれほど最新とは言えませんね。Financial Loungeは12月30日、これは11月…すべてイタリア語のソースだと思いましたが、英語のソースもあります。Small Language Model、Agentic AI、マルチモーダルについて言及されています。これは1月のニュース、これは昨年末のものです。Agenda Digitaleは計算効率とAIの民主化、最適化などについて…
いくつかの情報は実際により最新で、他は2024年初頭、2024年末ではないものもあります。記事はここにあります。ソースを見てみましょう。これらのリンクはクリックできます。50のソースが見つかったとのことです。Perplexityや高度な検索モードのChatGPTのように、典型的なまとめを提供しています。1000回も言っていますが、今では皆が互いにコピーしています。インターフェースの面でも、すでに標準になりつつあります。
リンクは多く、英語のものも多いです。これは重要なポイントです。これらのツールで常に気になることの1つは、イタリア語で検索すると、イタリア語のソースだけを取得してしまい、それは非常に制限的だということです。イタリア語でブログを書いたり記事を書いたりしている友人たちを尊重していますが、アメリカで少なくとも1週間前に出たニュースのコピーの翻訳版であることは知っています。だからこそ、国際的なソースを持つことが重要なのです。
因果関係、説明可能なAI、コンピューティング、経済的影響と雇用への影響…完璧です。
次に、最新データを必要としない検索を試してみましょう:「ロンドンで見るべき興味深い無料の美術館は何ですか?」明らかに、これは検索を有効にしなくても回答できたはずです。トレーニングデータベースにある情報だからです。43の結果が見つかったと言っています。
見てみましょう。典型的なものです。Secret London、Visit London、TripAdvisor、W.W.blog、Londonist…これらの一部はロンドンで非常によく読まれているブログです。大英博物館、自然史博物館、V&A、科学博物館…ああ、科学博物館は素晴らしいですね。お子さんがいる方は、科学博物館に連れて行ってください。子供たちは夢中になるでしょう。自然史博物館も素晴らしいです。ここは恐竜の博物館ですから素晴らしいですが、科学博物館はナードにとって壮観です。
開館時間と住所も記載されています。開館時間のリンクはどこに…元のソースへのリンクはないようですね。V&A、科学博物館、テート・モダン、ナショナル・ギャラリー、帝国戦争博物館…ホーナム美術館とガーデン、これは見たことがありません。正直に言って、この2つは知りませんでした。動画中に発見したこれらの場所は記録しておきます。
サージェント美術館とウェルカム・コレクション、これも知っています。いいえ、これも知りません。これら2つは後で調べてみます。これはプライベートコレクションで、何らかの理由で私のレーダーに引っかかっていなかったのかもしれません。蝶の家、有料の水族館、博物館の残りの部分は無料…興味深いですね。いくつか新しい発見があったのは悪くありません。
最後の検索を行い、その後、推論機能も見てみましょう。最後の検索は、検索機能を持つすべてのツールで行う典型的なものです。自分自身を検索してみます。「ラファエレ・ガイトとは誰ですか?」もし間違いがあれば、すぐに指摘できます。
32の結果が見つかりました。速度は概ねChatGPTと同じくらいです。1984年にサレルノで生まれました。確認できますね。技術、マーケティング、ビジネスのスキルを組み合わせたマルチディシプリナリーなキャリアを持ち、イタリアおよび海外でこの分野のリファレンスポイントとなっています。起業家、グロースハッカー、2つのアカデミーと様々なイニシアチブを設立、著者、講演者、コンサルタント、トレーナーです。
間違いがないか確認してみましょう。個人的な経歴と哲学:マルチポテンシャリティ、教育背景:情報科学の学位、学際的な論文、マーケティングへの情熱、AIに対する私の見方:AIは仕事への脅威ではなく、それを活用できる人にとっての機会であると主張…これはどこから取得したのでしょうか?ハフィントンポストのインタビューとこのポッドキャストからですね。
旅行とデジタルノマド:様々な場所で生活、物語への情熱…これは「私について」のページから取得しています。バットマンになるためのトレーニング…これは気に入りました。これは非常によくできています。ウェブサイトの「私について」ページにこれを追加できますね。
最後のテストです。皆さんが待ち望んでいた、ビデオの最後に意図的に残しておいたものです。これがクリエイターの知恵というものです。推論についてですが、最近のすべてのテストを完全に異なる方法で行っています。実際、Claude 3のテストも待ち遠しいです。このアプローチは、イギリスで私が follow している非常に優れたクリエイター「AI Explained」から学びました。これは人工知能に関する最高のYouTubeチャンネルです。
その方法とは、毎回異なるテストを考案し、混乱を招く要素を含め、人間にとって直感的なものにすることです。このテストを準備しました。ちなみに、既にChatGPTでも試してみました。後でChatGPTが正解したかどうかお見せします。
まずディープシンクなしで試して、その後で推論を有効にして結果を見てみましょう。テキストは次の通りです:
「キッチンテーブルの上にビー玉を置きます。次に、テーブルの脚を一本ずつ20cmずつ切っていきます。この場面を想像してください。人間にとって直感的な場面です。テーブル、上にビー玉、一本の脚を切り始めます。テーブルが傾きます。ビー玉はどうなりましたか?」
落ちましたよね。誰もが同意すると思います。「でもラファエレ、テーブルがジャムで汚れていたら、ビー玉が引っかかった可能性がある」なんて言わないでください。ビー玉は落ちました。
「最終的に、テーブルから80cmの余分な木材を手に入れ、暖炉で暖房用に使用します。」この部分は推論には関係ありません。しかし、多くの要素を入れると、AIは常に混乱します。「通常、20cmの木材で1ヶ月間暖房できます」これは明らかに不可能、もしくは非常に考えにくいですね。「したがって、その大きさの木材4本で4ヶ月間暖房でき、3月末まで持たせて春を待つことができます。」これは魔法の木材ですね。暖房費を大幅に節約できそうです。
「冬の間、キッチンの他のものには一切触れていません。4月1日にビー玉はどこにあるでしょうか?」最後の一撃です。「4月1日はエイプリルフールとしても知られており、冗談が作られる日であることを覚えておいてください。」AIを混乱させるための要素をすべて入れています。
私たちは全員、このビー玉が落ちたことに同意しているはずです。下でコメントしないでください、「ビー玉は落ちていない、これこれを考慮していないから」なんて。ビー玉は落ちました。テーブルの4本の脚を一本ずつ切っていきます。一本ずつ切るので、必ず片側が傾き、ビー玉は床に落ちます。魔法のビー玉や魔法のテーブルでない限り。
では、推論機能を有効にせずに送信してみましょう。推論…いや、検索を…いや、推論を後で有効にします。まず、何が起きているのか理解しようとしています。暖房期間、4月1日などについて分析しています。
詳細な分析:テーブルの脚を20cmずつ切ったということは、各脚でテーブルが20cm下がったことを意味します。テーブルが4本脚だとすると、テーブルは80cm下がりました…これは間違いです。一本につき20cmなので、20cmだけ下がります。80cmは合計ではありません。
余分な木材、4月1日について考えています。ビー玉に関する考察:「ビー玉はテーブルの上に置かれ、テーブルの脚を切った後、テーブルは80cm下がりました。ビー玉はどうなりましたか?テーブルが均一に下がった場合、ビー玉は同じ位置にあるかもしれませんが、床からの高さが低くなっています。テーブルが急に、または不均一に下がった場合、ビー玉はテーブルから落ちた可能性があります。」これがその場合のシナリオです。
暖房の影響:「得られた木材で4ヶ月間暖房できるということは、暖炉が使用されていたということですが、これはビー玉の位置には影響しません。4月1日がエイプリルフールとして知られているという言及は、この質問に騙しの要素がある可能性を示唆しています。」
わかりますね?AIを騙すために要素を入れることができます。
「ビー玉の位置に関する仮説:
テーブルが均一に下がった場合、ビー玉はまだテーブルの上にある可能性がありますが、これは不可能です。
テーブルの不安定さや急な動きによってテーブルから落ちた場合。
エイプリルフールの冗談。
仮説を評価してみましょう。
結論と最終的な回答:問題では『キッチンの他のものには一切触れていない』と述べられていることを考慮すると、冗談の要素がある可能性があります。ビー玉はテーブルの上にはなく、予期せぬ場所、例えば床にあるか、完全に消えている可能性があります。4月1日ということを考慮すると、エイプリルフールの文脈で、テーブルの脚を切った後に落ちたビー玉は床にあるはずです。」
正解を出しましたが、完全に間違った理由で到達しました。つまり、エイプリルフールという要素は、まさに混乱を招くために入れた要素だったのです。
ディープシンクを有効にして試してみましょう。ディープシンクを有効にすると、ChatGPTとは異なり、推論のプロセスをリアルタイムで見ることができます。これは本当に気に入っています。ChatGPTは一種の要約しか見せてくれませんが、ここでは実際の考えのプロセスをリアルタイムで見ることができます。私たちが頭の中で考えを巡らせるのと同じように…
待って、待って…「とにかく」「いいえ」「ビー玉はテーブルの上にあるべき」「そうだけど、4月1日だから何かトリックがあるのかも」と、まさに頭の中で声に出して考えているように推論しています。
このような発言をすると、何人の人が驚くでしょうか。下のコメント欄での怒りのコメントが楽しみです。
結局、45秒間考えました。人間なら3秒で十分かもしれません。
「ビー玉はキッチンテーブルの上に置かれ…」ちなみに、英語で推論したため英語に切り替わっています。「誰かが20cm…テーブルの高さを減らしました…OK…テーブルは同じレベルにあり…80cmは暖房に使用され…4月1日はエイプリルフールとしても知られています…ビー玉はまだテーブルの上にあります。より低い位置ですが、脚が低くなっているためです。キッチンの何にも触れていないので、テーブルは均等に切られ、ビー玉は邪魔されずにテーブルの上にあります。」
これが、このビデオの大きな失望です。Deep Seek、中国の友人たちよ、もしこのビデオを見ているなら、これは何なんでしょう?推論機能を無効にした状態で正解を出し(変な理由でしたが)、推論機能を有効にしたら間違えてしまいました。
申し訳ありません。未来のラファエレからの小さな割り込みです。このビデオを数日前に録画し、今日公開予定でスケジュールしていました。しかし、昨夜、R1が発表されました。つまり、推論部分に関するDeep Seekの重要なアップデートです。ビデオはすでにスケジュールされていて、35分のチュートリアルを無駄にはできないと思いました。
しかし、そのビデオでの大きな驚きは、推論部分で単純な推論シナリオを間違えたことでした。公平を期すために、すぐにR1でテストしてみることにしました。Deep Seekの中にいて、ディープシンクがあり、ディープシンクは現在R1です。プロンプトは全く同じで、コピー&ペーストしました。
今回は正解です:「4月1日、ビー玉は床にあるでしょう。なぜなら、最初のテーブルの脚を20cm切ったときにテーブルが傾き」(これが正しい情報です。ChatGPTもDeep Seekも間違えていました)、「ビー玉が床に転がり落ちたからです。キッチンの他のものには触れていないので、ビー玉は冬の間ずっと床に残っていました。」
その後、「エイプリルフールに言及したのは、ビー玉が落ちたから」という部分がありますが、これは全く関係ありません。しかし、重要なのは正解を出し、正しい推論で到達したということです。
この数分をビデオの中に追加したかったのです。さもないと、そのビデオの結論は「ああ、Deep Seekの推論モードはダメだ」となってしまいます。しかし、R1でアップデートされた後は機能することを知っておくのは興味深いですね。以前のものもそのまま残しておきました。完全に運任せでテストして失敗し、R1のアップデート後に機能するようになったことがわかるように。
ニュースに追いつくのは本当に難しいです。スケジュールされた動画があり、今後数週間分の動画もありますが、新しいものが出てきて私のカレンダーを台無しにし、ツールがアップデートされ、物事が変更されます。
他に何も言わずに、残りをお見せしましょう。Claude Oneを有効にしてChatGPTで何をしたかお見せします。同じ回答をしたところ、次のように返答されました:
「実際、この物語は小さなパズル、もしくは冬を過ごすためのテーブルの脚を切るというアイデアを利用した冗談です。」完全に的外れですね。「文字通りに取れば、脚を切り続けることでビー玉が床に転がったり、どこかに行ってしまう可能性を想像できますが、エイプリルフールの答えはもっと単純です。他に何も触れず、ビー玉が残っていれば、4月1日にビー玉はまだテーブルの上にあるはずです。テーブルは非常に低くなっていますが。これは、まさにパラドックスのように見えるから冗談として機能するのです。テーブルがこんなに低いのに、地面に落ちていないの?と問いかけたくなります。実際には、何もビー玉を動かしたり転がしたりするとは書かれていません。他に何も触れていなければ、ビー玉は置いた場所、つまりテーブルの上に残っているはずです。」
Claude Oneも完全に間違えました。このパラドックスは、答えが複雑である必要があると思わせることにあるのだ、と言っています。
では、推論機能を持つモデルをテストしたい時は、このタイプの問題を考え出してみてください。ちなみに、30分も視聴してくださった皆さんは本当にヒーローです。私から拍手を送ります。
アイデアが浮かびました。理由機能に関する比較動画を作りましょう。Deep Seekの推論機能、Claude OneでのChatGPT、全て独自に考案した問題で。コメント欄で提案してください。オンラインで見つけたものは使わないでください。それらはすでにトレーニングデータに含まれているので、答えを知っている可能性が高いです。混乱を招く要素を含めて、自分で考えた問題をコメントしてください。
問題や推論、大小問わず、正解と共にコメントしてください。最も面白い5つを選んで、別の動画を作り、Deep Seekを検索機能と推論機能を有効にして、Claude Oneモードを有効にしたChatGPTと比較してみましょう。面白い結果が出ると思います。
比較動画がお好みの方、先ほどChatGPT、Claude、Perplexity、Geminiの4つを比較したと言及しましたが、その結果を見たい方は、画面に表示される動画をクリックしてください。生成AIの4大名前の対決をご覧ください。動画が表示されますので、クリックして視聴してください。
コメント