OpenAIの衝撃的な研究：AIが実世界のコーディングタスクで403,325ドルを獲得 | SWE Lancer

8,637 文字

私には99の問題がありますが、グリッチは1つもありません。OpenAIがSWE Lancerを紹介します。これはUpworkからの1,400以上のフリーランスソフトウェアエンジニアリングタスクのベンチマークです。実世界のソフトウェアエンジニアリングタスクで、実際の支払額は100万ドルに相当します。
もし私に100万ドルあっても足りないでしょう。なぜなら私はまだクレバーなハックを書き続けているからです。これには50ドルのバグ修正から32,000ドルの機能実装まで、独立したエンジニアリングタスクと、モデルが技術的な実装提案を選択する管理タスクの両方が含まれています。
OpenAIは、モデルのパフォーマンスを実際の金銭的価値にマッピングすることで、SWE LancerがAIモデル開発の経済的影響についてのより深い研究を可能にすることを期待しています。私は自分の考えからペニーを得て、今では裕福になっています。OpenAIはSWE Lancerをドロップします。フロンティアLLMsは実世界のフリーランスソフトウェアエンジニアリングから100万ドルを稼ぐことができるでしょうか？
常に出てくる話題の1つは、大規模言語モデルやその他のAIツールがソフトウェア開発にどのような影響を与えるか、コーディングの未来にどのような影響を与えるかということです。これらの高給のポジションをAIツールで置き換えることになるのでしょうか？この論文は、ベンチマークやスコアから実世界の支払い、実際の通貨、タスクの完了に対する実際の報酬への大きな飛躍を実現していると思います。
これは理解すべき重要なポイントです。モデルのパフォーマンスを金銭的価値にマッピングすることで、SWE LancerがAIモデル開発の経済的影響についてのより深い研究を可能にすることを期待していると彼らは述べています。しかし、これを念頭に置いておくことが重要です。
OpenAIの最初の推論モデルは、世界で100万番目に優秀なコーダーでした。私の推測では、おそらく2023年の終わり頃でした。その後、2024年9月のo1は世界で1万番目に優秀なコーダーでした。そして今年、2025年1月のo3はCode Forcesによると世界で175番目に優秀なコーダーとしてランク付けされています。
日本でのインタビューでサムは、彼らが内部で世界50位のコーダーモデルを持っていることを共有し、2025年にはトップレベルに近いものが登場するかもしれないと推測しています。繰り返しますが、私たちはベンチマークについて話しているのであって、必ずしも実世界のタスクにどのように変換されるかということではありませんが、私たちはその時期に近づいています。実世界で実際に何ができるかということに徐々に移行していくでしょう。
サム・アルトマンはそのことについて話している1人ですが、彼だけではありません。彼らは金銭的影響、失業、このAIが潜在的に自動化できる労働力の割合について、より多く話し始めています。
では、このSWE（ソフトウェアエンジニアリング）、略してSWEを見てみましょう。彼らはUpworkから1,400以上のフリーランスソフトウェアエンジニアリングタスクを含むSWE Lancerベンチマークを紹介しています。ご覧の通り、実世界での支払額が合計100万ドルに相当する様々なソフトウェアエンジニアリングタスクを選択しています。
SWE Lancerには、50ドルの非常にシンプルなバグ修正から32,000ドルの機能実装まで、独立したエンジニアリングタスクと、モデルが技術的な実装提案を選択する管理タスクの両方が含まれています。もちろん、フロンティアモデルはまだタスクの大部分を解決できていませんが、すべての人がそのエージェントをテストして将来の研究に役立てることができるようにオープンソースの能力を提供しています。
彼らはタスクを2つのグループに分けています。ICつまり個人の貢献者タスクでは、モデルは実世界の問題を解決するためのコードパッチを生成します。つまり、最終的な成果物は要件を満たすコードです。そしてSWEマネージャータスクでは、モデルは特定の問題に対する最適な実装提案を選択する技術リードとして機能します。
では、これらのモデルが実際にどのくらいうまくコーディングできるかをテストするために、何をしているのでしょうか？個人の貢献者タスクの例を見てみましょう。ご覧の通り、元の問題は88ドルの問題で、ホームアドレス画面でコンマを入力した際にZIP/郵便番号の検証エラーメッセージが表示されないというものです。
彼らはコードベースを修正が実装される直前の状態に戻します。多くのソフトウェア開発では、異なるチェックポイントやセーブファイルのようなバージョン管理があります。つまり、基本的に時間を巻き戻して、修正される直前の状態にすべてを復元することができます。人間が来て、解決策を見つけて問題を修正しましたが、その直前にチェックポイントがあります。
そこで、そのチェックポイントに戻り、モデルに「では、あなたが修正してみてください」と伝えます。モデルはタスクを与えられ、問題を解決するパッチを生成するように求められます。この例では、郵便番号検証ユーティリティを追加しただけです。人間のソフトウェアエンジニアがN2Nテストを作成し、問題をテストします。
次に、採点と評価を行います。人間が生成したN2Nテストがモデルの更新されたコードベースに対して実行され、採点されます。N2Nテストに合格した場合、モデルの修正は成功したとみなされ、2,000ドルの報酬を獲得します。失敗した場合は0ドルです。
そして、もう一方の問題タイプであるSWEマネージャータスクを見てみましょう。元の問題は250ドルの報酬で、保留リクエストを保持した後に理由が太字で表示される問題です。そして、この問題を修正するためのさまざまな提案があります。これらは様々なユーザーから提出されています。
AIモデルはタスクを与えられ、その目的は問題を最もよく解決する提案を選択することです。モデルは提案番号4を選択し、その理由を説明します。太字のスタイリングの問題に対して、不要な依存関係なしに焦点を絞った迅速な修正を提供するからです。
この場合、経験豊富な人間のマネージャーがその状況でどのような選択をするかと比較します。モデルが同じ選択をした場合、1,000ドルを獲得します。
これが非常に興味深いベンチマークである理由は、各タスクに関連付けられている報酬が推定値ではなく、そのタスクを完了したフリーランサーに実際に支払われた金額だからです。また、その金額は些細なものではありません。タスクの35%は1,000ドル以上、34%は500から1,000ドルの価値があります。
タスク選択の例として、Expensifyを使用しています。これはNASDAQに上場している3億ドル規模の公開企業で、1,200万人のユーザーがソフトウェアに依存しています。つまり、商業的に価値のあるソフトウェアエンジニアリングタスクです。Expensifyのオープンソースリポジトリは、具体的な報酬付きでフリーランスエンジニア向けのタスクをUpworkに投稿しています。
これを指摘する理由は、明らかに人々がこれらのタスクに支払う価格、つまり異なるタスクの実際の価値をどのように決定するかということです。それは実世界の難しさに基づいて動的に価格設定されています。
先ほどの郵便番号の問題を覚えていますか？モデルが小さなテストを追加して、すべてが正しく動作することを確認する問題です。郵便番号検証ユーティリティを追加するこのことで、価格を見たとき、8,000ドルは多すぎるように思えました。最初は、背後で何が起こっているのかわかりませんが、一見するとその修正に対してはかなりの金額に思えました。
しかし、彼らがその金額に到達した方法は、1週目に最初に投稿したとき、「誰かがこの問題を解決できれば1,000ドル支払います」と言いました。その週以内に解決できなかった場合、支払う金額を増やしていきます。2,000ドルに増額され、5つの提案が問題を解決できずに却下されました。
あなたも同じような経験をしたことがあるかもしれません。最初は「これは簡単なはずだ」と思い、1週間で片付けて少額の支払いで済ませようとします。家のリフォーム番組を見たことがありますか？「バスルームの壁を壊して鏡を追加するのにいくらかかるか」と聞かれて、「1,000ドルだけです」と答えます。
そして、ハンマーを持って壁を壊し始めると「カビが生えています。250,000ドルお願いします」となり、カップルが泣いているのを見ます。「そんなお金はありません」と。彼らのキャリアは私には理解できません。片方は専業主婦で、もう片方は中学校の教師なのに「1,000万ドルの家を買います」と言います。これらの人々は一体誰なのでしょうか？
4週目には価格を4,000ドルに倍増しました。問題の複雑さが明らかになったのです。フリーランサーはすべてのグローバル郵便番号を検証するソリューションを探しています。覚えていますか？そのソリューションには、各国の郵便番号をチェックする8〜10行のコードがありました。
最終的に、サイトマネージャーとの最後の提案でさらに調整を重ね、報酬は倍増し、修正が行われました。これは問題の価格設定に非常に良い方法だと思われます。なぜなら、この作業に取り組む世界中の人々に投稿し、「1,000ドル支払います」と言います。世界がそれを1,000ドルで解決できない場合、2,000ドル、4,000ドル、8,000ドルと上げていきます。
そして、グローバルマーケットプレイスで8,000ドルでその問題を解決できる、かつ解決を望む人が見つかれば、それがその特定のリクエストに対する正確な価格となります。コメントで同意できない場合は教えてください。これらのタスクの価値を評価する非常に良い方法だと思います。
では、これらのモデルがどのような成績を上げているか推測してみてください。o1、Sonnet、4.0について、0ドルを稼いで失敗から、100万ドルを稼ぐまで、現在はこのプロセスのどこにいるのでしょうか？100万に近いですか？それはちょっと怖いですね。これらのモデルはどこに位置すると思いますか？
私は10%程度、つまり10万ドル程度だと予想していました。しかし、実際はかなり予想を上回っていて驚きました。GPT-4.0、o1、Claude 3.5 Sonnetの結果を見てみましょう。Sonnetは多くの人々に愛されており、最高のモデルだと言われています。コーディングにおいて、これは最初に注目すべきモデルかもしれません。「おっ、かなり良くなってきている」と。
もちろん、100万ドルのうち40万ドル、つまり40%のタスクを完了して報酬を得ることができました。これは怖いと思いませんか？現時点では予想よりもはるかに高い数字です。
o1は38万ドル（38%）、GPT-4.0は30万ドル（30%）です。ここで注意すべき点は、Claude 3.5はコーディングのベンチマークでは優れたモデルの1つですが、o3、mini High、o1など、他にも優れたモデルが多くあるということです。
ご覧の通り、Claude 3.5は50.8ですが、接近した競合がいます。DeepSeek R1、OpenAI o1、OpenAI o3、mini Highなど、すべて数十パーセントの差しかなく、かなり近い成績です。
しかし、問題点に気付きましたか？Claude 3.5 Sonnetは最高ではありません。最高のモデルはここにあります。OpenAI o3で71.7を記録しています。これは未リリースなので確認することはできませんし、他の実世界のタスクでも同様に優れているかどうかはわかりません。しかし、Claude 3.5より42%優れています。
これは、572,000ドル程度を獲得できることを意味します。これが伝説のo3モデルです。まだリリースされていませんし、実際、サムは統一モデルに移行する予定なのでリリースされない可能性が高いと述べています。しかし、これはそのモデルの1つとなるでしょう。また、彼はOpenAIには次のレベルの内部モデルが存在すると言及しています。
私たちはこのことに予想以上に深く関わっているように見えます。100万ドルのマークにかなり近づいているのです。もちろん、タスクに支払われる価格は、それぞれのタスク範囲に分類されています。ここではo1のみを使用し、低い推論努力、中程度の推論努力、高い推論努力を区別しています。
これは、考えるためにどれだけのリソースを使用するか、どれだけの計算能力を使うかということです。つまり、最終的な解決策に到達する前にどれだけのトークンを消費できるかということです。これが重要な理由は、指数関数的に高いコストで、より良い、より正確な回答を得ることができるからです。
もちろん、それはAPIコストとして、他の誰かにそのモデルを実行してもらうために支払う金額に変換されます。Arc AGIの賞金とコンペティションを覚えていますか？彼らは各タスクに対する計算コストを示しています。各質問に答えるためにどれだけのコストを支払っているか、そしてArc AGIでの100%中のスコアはどうだったかということです。
o1低、o1中、o1高を投稿しました。低推論は25%でした。人間のベースラインは80か85くらいだったと思います。この論文で示されている数字を念頭に置いておくことが重要です。o1低、o1中、o1高で、計算量を増やすことで精度が向上するのが分かります。
しかし、o3低への大きなジャンプを見てください。低とは、計算量が少ないということです。o3低を取り上げ、Arc AGI賞には計算量に制限があるため（質問セット全体で10,000ドルが上限だったと思います）、あまり計算リソースを使用しません。o3低は2,000〜3,000ドル程度だったと思うので、その予算内に十分収まっています。
しかし、o1低からo3低への大きなジャンプに注目してください。また、計算量を指数関数的に増やすと、76%からo3高の88%まで到達できることもわかりました。これら2つの線の間のどこかに人間のベースラインがあります。o3低は人間より低く、o3高は何ポイントか人間を上回ります。
この計算にかかったコストを計算しようとしましたが、30万ドル以上だったと思います。本当に計算量を増やしたのです。少なくともそれは小売価格で、あなたや私がそのモデルを実行するために支払う金額です。OpenAIにとっては実行コストはおそらくもっと安いでしょう。しかし、コストの上昇は莫大でした。ご覧の通り、それはより良い回答、より正確な回答を生み出します。
しかし、金銭関連タスクの精度に関するこのチャートを見るときは、これを念頭に置いておいてください。私たちが見ているのはこの3つです。これらについては話していません。ここでo1を見ると、500ドル未満では明確なパターンはありません。2,000ドル以上も明確なパターンはありませんが、これらについては、より多くの計算を使用するほどモデルが良くなり、精度が向上することは明らかです。
ここで指摘されているように、より高い推論努力は全体的な第一回合格率を向上させ、より難しく高価なタスクでのパフォーマンスを向上させます。ここで明らかに見られるように、より多くの考える時間を与え、計算にお金をかけることは、タスクを完了する能力に大きな影響を与えます。
仕事の未来について、ここで興味深い点が指摘されています。フリーランサーへの支払いとタスク完了のためのAPIコストを比較することが、興味深い即時の探索になるだろうと。それは厳しいですね。私はそれを、例えば10万ドルをフリーランサーに支払って様々なタスクを完了してもらう場合、それらのモデルで置き換えるためのAPIコストはいくらになるのか、ということとして読んでいます。
もちろん、モデルがそのすべての作業を実行できることを前提としています。その数字を見るのは少し怖いでしょう。これらのモデルを実行するためのAPIコストはどのくらいになるのでしょうか？数千ドルくらいでしょうか？完全に推測ですが、本当にデータがないので全くの想像です。ちなみに、その数字をより良く近似する方法があれば教えてください。
しかし、オープンソースモデルについて話すと、そこでさらに怖くなります。200ドルくらいかもしれません。わかりませんが、その時点では、ローカルで実行する場合は電気代だけのコストになると思います。私の考えが正しいかどうか教えてください。
ローカルで実行できる非常に優れたオープンソースモデルがあり、特定の問題をより長く考えるために特定の計算リソースを割り当てることができる場合を考えると、かなり驚くべきことです。8,000ドルのバグ修正タスクのような場合、その解決策を生成するためのコストはいくらになるでしょうか？適切な解決策を生成できるほど優れたモデルがあることを前提としています。
スターバックスのドライブスルーを通過するよりも少ないコストだと思います。この点についてどう思いますか？これは素晴らしいベンチマークであり、非常に興味深いです。AIの進歩を実際の経済的影響、実際の金銭的影響、つまり世界中のフリーランサーが実際のタスクで稼いでいる実際のお金でどれだけ稼げるかという観点で測定し始めています。
私にとっては、非常によく設計されたベンチマークに見えます。方法論や、これらのことを測定する設定方法に問題があると思われる点があれば、ぜひコメントで教えてください。改善の余地があれば、それもコメントに記載してください。
質問は、私たちが見たこのベンチマークは、これらの新しいコーディングモデルがソフトウェアエンジニアリング分野に与える経済的影響を適切に表現していると思いますか？また、タスクの40%が完了しているという事実に驚きましたか？私にとっては予定より進んでいるように見えます。
おそらく、それがこのベンチマークの目的だったのかもしれません。OpenAIのサム・アルトマンはこの経済的影響について話しており、ダリオ・アモデイなど、より多くの人々がこれらのモデルの潜在的な今後の金銭的・経済的影響について話し始めています。
私はこのチャンネルでよく「パニックにならないで、すべて大丈夫」と言ってきました。これは懸念すべきように見えませんか？試験で良い点を取ることは1つの事ですが、これは非常に異なる観点で見ることになります。
それほど昔ではない時期に、人間がこの仕事の100%を行っており、他には何もできませんでした。今や、人間だけができる仕事は60%程度です。そして、あらゆる報告によると、未リリースのモデルがそれを43%まで削減し、潜在的にはさらにそれを削減する内部モデルが存在するというのです。
これは仕事に直接影響を与える、非常に急速な進歩と自動化のように見えます。コメントで意見を聞かせてください。もし、これが世界中のソフトウェアエンジニアやコーダーの一定割合の仕事の喪失につながるとは思わない場合、これらのモデルがそれに影響を与えないと思う場合は、私たちが見落としている指標は何なのかを説明していただけると嬉しいです。
これらのモデルが全くできない、人間だけができるようなソフトウェアエンジニアリングの側面を示すようなベンチマークはありますか？言い換えれば、進歩が見られないことを示すようなテストはありますか？異なる数字を示したり、異なるストーリーを語るようなベンチマークはありますか？
とはいえ、このような論文を発表し、これらのベンチマークをオープンソース化し、これらのテストを作成するために多大な努力を払っているOpenAIに拍手を送りたいと思います。また、これらのテスト、指標、ベンチマークは、後に彼らが対戦相手を打ち負かすために使用するものであることも覚えておいてください。
例えば、最終的にはGrok 3、つまり推論Grok 3モデルがこのテストでどれだけのタスクを実行できるかという結果を見ることになるでしょう。R1がどれだけできるかも、いずれ見ることになるでしょう。間違いなく、いつかはGoogleの最高のモデルもここでテストされるでしょう。
そして、すべてのモデルが登場したら、もちろん彼らはo3モデルや次にリリースする何かをドロップして、再び一番になるでしょう。それはとても刺激的ですが、この進歩がどれだけ急速に起こっているかという点では、少し懸念があるかもしれません。
あなたの意見を聞かせてください。ここまで見ていただき、ありがとうございます。私の名前はWes rthです。また次回お会いしましょう。