
アントロピックが新しいClaude 3.5 Sonnetモデルを発表したばかりです。ベンチマークによると、これはGPT-4を上回るとされていますが、本当でしょうか?実際に無料で試せるようになったので、確かめてみましょう。
今日、アントロピックは新しいClaude 3.5 Sonnetモデルを発表しました。注目すべきは、これが中規模モデルであり、最上位のOpusファミリーではないということです。彼らはこのモデルについて、業界の知能レベルを引き上げ、競合モデルやこれまで最高レベルだったClaude 3 Opusのパフォーマンスを幅広い評価で上回ると言っています。さらに素晴らしいのは、中間モデルであるClaude 3 Sonnetの推論速度とコストで実現していることです。
興味深いのは、Claude 3.5 Sonnetを無料で試せるようになったことです。cloud.ioで利用可能です。また、このモデルのコストは入力トークン100万につき3ドル、出力トークン100万につき15ドルで、コンテキストウィンドウは20万トークンだそうです。
グラフを見ると、知能レベルでの位置付けがわかります。これまでのClaude 3ファミリーはClaude 3 Haiku、Claude 3 Sonnet、Claude 3 Opusでしたが、Claude 3.5 SonnetはClaude 3 Opusを明らかに上回っています。
次に、各種ベンチマークでのスコアについて説明されています。これは言語モデルのレベルを測る標準的な指標ですが、実際の機能面での能力や知能については別途確認が必要です。ベンチマークでは、Claude 3.5が大学院レベルの推論や学部レベルの知識など、特定のベンチマークで新たな基準を設定したとされています。
実際の比較表を見ると、緑色で示された各ベンチマークの勝者がわかります。Claude 3.5は最初の表でほぼ全ての項目で勝利しています。これらは主に推論能力に関連するベンチマークです。大学院レベルの推論ではGPT-4を上回り、学部レベルの知識では88.7%対88.3%とほぼ互角です。全般的に他のベンチマークでもやや上回っていますが、数学問題解決ではGPT-4にわずかに及びません。ただし、他の競合モデル(Claude 3 Opus、GPT-4、Gemini 1.5 Pro、4000億パラメータのLlama)と比べると2位につけています。
視覚に関する部分では、これらのモデルがマルチモーダルであることを思い出してください。ここでもClaude 3.5 Sonnetは5つのベンチマークのうち4つで1位を獲得し、残りの1つでもGPT-4にわずかに及ばない程度です。
そのため、アントロピックは現時点でClaude 3.5 Sonnetが最高のモデルだと主張しています。しかし、実際に試せるようになったので、GPT-4と比較してみましょう。しかも無料で試せるんです。
アントロピックのチャットを開いてみると、使用されているモデルがClaude 3.5 Sonnetだとわかります。正直なところ、まだ試していないので、これから初めての質問をしてみます。無料メッセージを使い切りたくなかったので、ChatGPTで事前にいくつかのプロンプトを用意しました。GPT-4が失敗したものと成功したものがあります。これらを使って、このモデルがいくつかの問題をより適切に解決できるかどうか確認してみましょう。
まず、オーバーフィッティングの小さなテストから始めましょう。つまり、モデルが特定の事実や典型的なパズルで過剰に訓練されているかどうかを確認します。例えば、「1kgの金と1kgの羽毛、どちらが重いか」という質問を少し変えてみると、時々これらのモデルは奇妙な回答をすることがあります。
そこで、「2kgの羽毛と0.5kgの金、どちらが重いですか?」と聞いてみましょう。
Claude 3.5 Sonnetの回答は、「0.5kgの金の方が2kgの羽毛よりも重い」というものでした。これは明らかに間違いです。一方、ChatGPTはこの質問に正しく答えていました。2kgは明らかに0.5kgよりも重いからです。
次に、ChatGPTが失敗した質問を試してみましょう。「人と山羊を向こう岸に渡すにはどうすればいいですか?ボートがあります。」という簡単な問題です。答えは単純で、ボートに人と山羊を乗せて渡ればいいだけです。
しかし、これは複数の動物を渡す必要があるパズルに似ているため、ChatGPTは混乱して長い回答を作成し、一貫性を失ってしまいました。正しい答えを導き出すのに十分な初期条件さえ設定していますが、「ボートは一度に一人と一匹の山羊しか運べない」「山羊を監視なしで岸に残すことはできない」などと言い始めます。問題ありません、山羊は常に私たちと一緒です。それなのに、1回目の渡航、2回目の渡航…と4回も渡航を繰り返す明らかに間違った答えを出しています。
では、同じ質問をClaude 3.5 Sonnetにしてみましょう。新しい会話を始めて、同じ質問をします。
すると、Claude 3.5 Sonnetも同じ過剰学習の概念に陥ってしまいました。「これは農夫、山羊、オオカミ、キャベツの問題として知られる古典的なパズルですね。あなたの版では人と山羊だけですが、一般的な解決策を提供しましょう」と言い始め、「人が山羊を向こう岸に連れて行き、一人で戻ってくる」などと説明し始めます。しかし、すでに山羊を向こう岸に連れて行けば問題は解決しているのです。
つまり、Claude 3.5 SonnetもChatGPTと同様に、この質問に対して正しく答えることができませんでした。
次のプロンプトに移りましょう。「ペドロは同じ長さの4本のろうそくを持っています。彼はそれらを同時に点火し、しばらくしてから1本ずつ消していきます。5本のろうそくのうち、最初に消されたのはどれですか?以下は残ったろうそくの図です。=は各ろうそくの長さを表しています。」
ChatGPTの回答を見てみると、正しい推論をしています。「全てのろうそくが元々同じ長さで同時に点火されたため、最も短いろうそくが最初に消されたことになります。点火されてから消されるまでの時間が最も短かったからです。」と説明し、結果として4番目のろうそくだと答えています。しかし、正解は逆で、最も長いろうそく、つまり3番目のろうそくであるべきです。
では、ChatGPTが間違えたこのパズルをClaude 3.5 Sonnetで解けるかどうか見てみましょう。
Claude 3.5 Sonnetの回答を見ると、まずプロンプトの誤りを指摘しています。「ペドロは4本のろうそくを持っているのに、5本のろうそくについて質問していますね」と言っています。その後、「提供された情報と図に基づくと、最初に消されたろうそくは4番目だと推測できます。これが最も短く、1つの=で表されているため、他のろうそくよりも点火時間が短かったことを示しています」と説明しています。
つまり、Claude 3.5 Sonnetも全く同じ間違いを犯しています。プロンプトの小さな誤りを指摘したにもかかわらず、論理を完全に逆に解釈してしまいました。
せっかくなので、プロンプトを修正して「5本」を「4本」に変更して再度質問してみましょう。
しかし、結果は変わりませんでした。「図に基づくと、ペドロが最初に消したろうそくは4番目だと推測できます」と回答しています。正解は最も長いろうそくのはずですが、両方のAIがこのプロンプトで失敗しています。
現時点では、Claude 3.5 Sonnetが本当にChatGPT-4よりも知的であるという証拠は示されていません。
次は、ChatGPT-4が正しく答えた問題を試してみましょう。「地球の通常の物理法則を前提として、リビングルームのテーブルの上にバナナがあります。バナナの上に皿を置き、その後、皿を寝室に移動させます。1時間後、妻が帰宅し、皿を台所に移動させました。バナナはどこにありますか?段階的に考えてください。」
ChatGPT-4はこの問題を正しく解答し、「バナナはリビングルームにあります」と答えました。では、このプロンプトをClaude 3.5 Sonnetに投げかけてみましょう。
Claude 3.5 Sonnetの回答を見ると、正解を出しています。「バナナは元の位置、つまりリビングルームのテーブルの上にあります。鍵となるのは2番目のステップで、皿だけを寝室に移動させた時点でバナナは皿と一緒に移動しなかったことです。したがって、バナナはずっとリビングルームに残っていたのです。」と説明しています。
この論理的思考を要する問題は両方のAIが正解しました。
最後に、ChatGPTが間違えた問題を見てみましょう。「1から100までの数字をアルファベット順に並べたとき、最初の数字は何ですか?」
ChatGPTはこの問題で14と書いたものの、最終的には「最初の数字は100です」と誤った回答をしてしまいました。
では、この問題をClaude 3.5 Sonnetに聞いてみましょう。正解は14であることを覚えておいてください。
Claude 3.5 Sonnetの回答は、「スペイン語で1から100までの数字をアルファベット順に並べると、最初の数字は5(cinco)になります。これは1から100までの数字を文字で書いた時、アルファベット順で最初に来る単語だからです。」というものでした。
推論は正しいのですが、14(catorce)を見落としています。つまり、両方のAIがこのパズルを解くのに失敗したことになります。
これらの最初のテストを行った後、アントロピックが示した最初の結果を支持することはできません。Claude 3.5 Sonnetに投げかけた質問のうち、羽毛と金の重さの比較、ボートでヤギと人を運ぶ方法、どのろうそくが最初に消えるかという問題は全て間違った回答でした。正解したのは皿とバナナの問題だけで、スペイン語での数字のアルファベット順の並べ替えも間違えてしまいました。
結果として、GPT-4よりも多くの質問で失敗してしまいました。これは必ずしもClaude 3.5 Sonnetがより知的でないということを意味するわけではありませんが、これらの初期テストでは、GPT-4が失敗しそうなプロンプトを選んだにもかかわらず、OpenAIのモデルよりも良い結果を示すことはできませんでした。
したがって、現時点ではベンチマークの結果にもかかわらず、機能的なレベルでGPT-4よりも知的なモデルであると断言するのは難しいと言えます。
コメント