これらのLLMたちはGoogleで働けるほど賢いのか？

2,962 文字

Are Any of These LLMs Smart Enough for Google?

I give DeepSeek, o1-preview, and Gemini 1121 a question from "Are You Smart Enough to Work at Google?", a book on interv...

はい、Googleで働けるほど賢いんかっていう2012年にウィリアム・パウンドストーンさんが書いた本があるんですけど、その本にはトリッキーな質問やゼニックパズル、めっちゃ難しいパズルとか、新しい経済でお仕事を得るために知っておかなあかん面接テクニックがびっしり詰まってるんです。
せやから、最近の大規模言語モデル、つまり推論モデルのDeep Seek、Claude 3 PreviewとGemini 1.1.2.1が、この本の問題を解けるかどうか気になってん。Googleさん、もし見てはったら、3人の候補者を面接させてもらってますで。
それでは出題した問題を見ていきましょか。これは本の序盤、8ページ目くらいに載ってる問題です。問題はこうです：この数列の次の数字は何でしょう？ 10、9、60、90、70、66。
最初は混乱するかもしれませんな。はっきりしたパターンが見えへんように思えます。でも、それぞれの数字のスペルの文字数を数えてみると、だんだん増えていってるんです。そして各数字は、その文字数で書ける最大の数字なんです。
つまり、10は3文字で書ける最大の数字、9は4文字で書ける最大の数字、60は5文字で書ける最大の数字というように続いていきます。この情報があれば、9文字で書ける次の数字が96やということに気付けるはずです。
本によると96が正解の一つなんですけど、もっと賢い答えが他にも2つあって、それを答えたらおそらく採用確実やと。その一つは「one google」です。googleは1の後ろに100個のゼロが付く数字ですからね。個人的にはちょっと強引な気もしますけど、Googleはこの答えも認めるらしいです。もう一つの正解は「ten google」です。「ten」も「one」と同じく3文字やからです。
せやけど、推論モデルたちはどうやったんでしょう？まず、Deep Seekは71という答えを出しました。面白いことに、66を9文字やと間違えて数えてしもたんです。ハイフンを1文字として数えてしもたみたいですね、本来そうすべきやないのに。
Deep Seekの思考過程を見てみましょか。約61秒考えて、最初は増減のパターンを探し、それからローマ数字を試し、周期表の原子番号との関連を探ったりしました。途中で文字数を数えるというヒントには気付いたんですが、ハイフンを文字として数えてしもたために完全に方向を見失ってしもて、最後はフランス語で数え始めたりして、結局71という間違った答えにたどり着きました。申し訳ないですけど、Deep Seekさん、Googleでは働けませんな。
次に、Claude 3 Previewの答えを見てみましょう。76という答えを出したんですけど、これも正解やないです。Deep Seekと同じように66を9文字やと間違えて数えてしもたんです。思考過程を見ると、65秒くらい考えて、最初は数列の差を見たり、州間高速道路の番号や国際電話の国番号を考えたり、なぜか有名なアスリートのことまで考えてしもてます。
文字数を数えることには気付いたんですけど、66のハイフンを文字として数えてしもたために、7文字から9文字になったと思い込んで、次は11文字やと考えて76という答えにたどり着いてしもたんです。すまんけど、Claude 3 Previewさんも、Googleでは働けませんな。
正直なところ、Googleのジェミナイが一番チャンスあると思ってたんです。だって、Googleで作られたモデルやし、もしかしたらこの本で学習してるかもしれへんと思ってたんです。でも、その答えを見てびっくりしましたわ。
なんと、ジェミナイは「e」（自然対数の底）を答えとして出してきたんです。完全な失敗ですわ。しかも、これが思考過程の全てでした。まさかこんなに間違えるとは思ってませんでした。
最後にDeep SeekとClaude 3 Previewにもう一度チャンスをあげることにしました。ジェミナイに比べたら、まだましな答えを出してたからです。66のハイフンを文字として数えんといてくださいというヒントを出しました。
でも、それでもDeep Seekは66を9文字やと思い込んだまま。60が5文字で6が3文字やから、最後に確認したけど、5+3=8のはずなのに、なぜか9文字やと思い込んでしもて、結局また71という間違った答えを出してしもたんです。
Deep Seekにもう一つヒントを出して、66は9文字やなくて8文字やで、という情報を与えました。それでも正解にはたどり着けず、81という新しい答えを出してきました。確かに81は9文字ですけど、9文字で書ける最大の数字やないことを考えてなかったんです。
さらにヒントを出して、元の数列10、9、60、90、70、66の中で、それぞれの文字数が特別な意味を持ってることを考えてくださいと言うたんですけど、それでも混乱したままで、結局81という答えに戻ってきてしもたんです。
96を候補として挙げたことはあったんですけど、最終的な答えとしては選びませんでした。最後にもう一つ明確なヒントを出して、3文字で書ける数字で10より大きいものはあるか、4文字で書ける数字で9より大きいものはあるかを考えてくださいと言うたんです。
最初はええ感じやったんですけど、途中で脱線して、また81に戻ってしもて。最後にもう一つヒントを出して、0から100までの数字だけを考えてくださいと言うたんですけど、それでも71という答えに戻ってしもたんです。もう、この時点で「面接失敗です」って言わざるを得ませんでした。
まあ、実際にGoogleの採用に関して私に発言権はないんですけどね。Claude 3 Previewは、66を8文字として数えるというヒントを与えたら、ちょっとマシになりました。9文字の数字を考え始めたんですけど、96は候補に挙がらず、44を答えとして出してきました。
正しい方向に向かい始めてはいたんですけど、まだ最大の数字やないですからね。そこで、10より大きい3文字の数字や、9より大きい4文字の数字がないかを考えてくださいというヒントを出しました。
すると91という答えを出してきたんですけど、まだ92や96の方が大きいですよね。そこで、91が本当に9文字で書ける最大の数字かどうか確認してくださいと言うたら、「ああ、すみません、見落としてました」って言うて、今度は92が最大やと言い出しました。
最後に、90から100までの数字の文字数を一つ一つ数えてくださいというヒントを出したら、やっと96という正解にたどり着きました。4、5回のヒントでようやく正解にたどり着いたんです。
他のモデルと比べたら合格かもしれませんけど、それでもGoogleに採用されることはないでしょうね。でも、ヒントを与えながら正解にたどり着けたことは嬉しかったです。
これは私たちとAIが協力することの大切さを示してるんちゃいますかね。一緒に働けば、なんでもできるってことですわ。まあ、真面目な話、この動画が面白かったり参考になったりしたら、ぜひいいねと登録をお願いします。また次のテスト動画でお会いしましょう。