OpenAI DevDay 2024 | コミュニティスポットライト | Grab

1,693 文字

OpenAI DevDay 2024 | Community Spotlight | Grab
Enhancing Automated Mapping with Vision-Powered Localization

私はゴロフと申します。Grabのマッピングチームに所属するデータサイエンティストです。本日、これほど多くの開発者や機械学習エンジニアの皆様にお会いできて素晴らしく思います。私と同じように皆様も楽しんでいただけていることを願っています。
この会場にいらっしゃる方の中には、Grabをご覧になった方もいるでしょう。今日この会場に来る際にGrabを利用された方や、バリ旅行でGrabバイクを利用された方もいらっしゃるかもしれません。12年前、私たちはマレーシアでタクシー配車をより安全にするというミッションからスタートしました。当時は1つの国の1つの都市でしたが、今日Grabは東南アジアを代表するスーパーアプリの1つとなり、20人に1人が食事、配車、決済に利用しています。これは月間4,100万人以上のアクティブユーザーがいるということです。
私たちは、配車サービスやフードデリバリーといった従来のサービスを通じてだけでなく、文字通りこの地域を地図上に示すことで、東南アジアを前進させることに取り組んでいます。本日は、私たちのGrab Mapsが、OpenAIと共に従来の地図作成の分野をいかに革新しているかの一部をお話しさせていただきたいと思います。
少し背景をお話ししますと、Grab Mapsは2017年、コロナ禍より前に始まりました。私たちは、サードパーティのアプリがこの地域に十分ローカライズされていないことを徐々に認識するようになりました。地域の詳細な視点が不足していたり、実世界の変化のスピードに対してデータの更新が大幅に遅れるなど、いくつかの問題がありました。
今日、Grab Mapsのインテリジェンスサービスは、私たちが事業を展開する8カ国での内部要件を満たすだけでなく、アジア全域およびそれ以外の地域のビジネスをサポートするエンタープライズグレードのソリューションとなっています。
Grab Mapsへのアプローチは、精度を重視したコミュニティベースのマッピングに根ざしています。私たちは広大なドライバーネットワークを活用し、自社開発の360度カメラを使用して街路レベルの画像を収集しています。画面中央に表示されている画像のように、これらの画像から、転回制限、交通標識、速度制限、場所、道路のアクセシビリティなど、多くの詳細情報を抽出し、地図の道路トポロジーの構築に役立てています。この複雑さのレベルは、信頼性が高く超詳細な地図を作成する上で重要です。
少し話題を変えますと、ご存じの通り、GPT-4oのテキストモデルのファインチューニングは今年初めからありました。2ヶ月前、OpenAIは強力な画像理解機能を持つビジョンモデルをカスタマイズするためのビジョンファインチューニング機能をリリースしました。私たちはビジョンファインチューニングAPIの早期採用者の1つであり、次のパートでは、Grab Mapsのデータマッチング問題に対してこの新機能をどのように活用したかの例をお見せしたいと思います。
簡単にタスクを説明すると、交通標識のある街路画像が与えられた時に、その交通標識が設置されている道路とマッチングを行うというものです。速度制限などの重要な情報があるため、独自の課題があります。例えば、非常に複雑な幾何学的形状や、自動マッチングを困難にする視覚的遮蔽などがあります。この課題に対処するため、私たちは独自のデータでGPT-4のファインチューニングを行い、これらの複雑さを効果的に大規模に処理できるようにしました。
実験の概要をお話しすると、画面に表示されているような街路レベルの画像とマップタイルを組み合わせた小規模なファインチューニングデータセットから始めました。コンテキストを追加すると、画面上部に2つの連続したマップビューがあり、それに対応するフレーム1とフレーム2と呼ばれる街路レベルの画像があります。各マップタイルには、2つの道路の交差点にある赤い点で示される車両の位置と、その赤い点の左側に小文字のuで示される交通標識の位置が含まれています。緑のバーがあります。

コメント

タイトルとURLをコピーしました