2023-09-22(金)

LLM-Grounder: 大規模言語モデルをエージェントとするオープン語彙3Dビジュアルグラウンディング

原題:LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent

 3D視覚接地は、家庭用ロボットにとって重要なスキルであり、ロボットがナビゲートし、物体を操作し、環境に基づいて質問に答えることを可能にする。既存のアプローチは、多くの場合、大規模なラベル付きデータに依存するか、複雑な言語クエリの処理に限界を示すが、我々は、新しいゼロショット、オープン語彙、大規模言語モデル(LLM)ベースの3DビジュアルグラウンディングパイプラインであるLLM-Grounderを提案する。LLM-Grounderは、LLMを利用して複雑な自然言語クエリを意味構成要素に分解し、OpenSceneやLERFなどのビジュアルグラウンディングツールを利用して3Dシーン内のオブジェクトを特定する。そして、LLMは提案されたオブジェクト間の空間的関係と常識的関係を評価し、最終的なグラウンディング決定を行う。我々の手法はラベル付けされた学習データを必要とせず、新しい3Dシーンや任意のテキストクエリに一般化できる。LLM-GrounderをScanReferベンチマークで評価し、最先端のゼロショット接地精度を実証する。その結果、LLMは、特に複雑な言語クエリに対して、接地能力を大幅に改善することが示され、LLM-Grounderは、ロボット工学における3Dビジョン-言語タスクのための効果的なアプローチとなる。デモ

どこでも運転できるようになる

原題:Learning to Drive Anywhere

 人間のドライバーは、左側通行と右側通行など、様々な条件や交通ルールが存在する地理的な場所でも、自分の運転判断をシームレスに適応させることができる。これとは対照的に、自律運転のための既存のモデルは、これまでのところ、限定された運転領域内でのみ展開されており、場所によって異なる運転行動やモデルのスケーラビリティを考慮していません。この研究では、動的な環境、交通、社会的特性を持つ異種かつグローバルに分散されたデータから効率的に学習できる、単一の地理的認識条件付き模倣学習(CIL)モデルであるAnyDを提案します。我々の重要な洞察は、データドリブンな方法で地域間の類似性を柔軟にモデル化しながら、効果的に地域のニュアンスに適応する、大容量の地理的位置に基づくチャネル注意メカニズムを導入することである。対照的な模倣目的を最適化することで、我々の提案するアプローチは、本質的に不均衡なデータ分布や場所に依存する事象を効率的に拡張することができる。我々は、複数のデータセット、都市、およびスケーラブルな展開パラダイム(集中型、半教師型、および分散型エージェントトレーニング)において、AnyDエージェントの利点を実証する。具体的には、AnyDはCILベースラインをオープンループ評価で14%以上、CARLAでのクローズドループテストで30%上回ります。

短期記憶と長期記憶の協調による記憶増強LLMパーソナライゼーション

原題:Memory-Augmented LLM Personalization with Short- and Long-Term Memory Coordination

 GPT3.5のような大規模言語モデル(LLM)は、自然言語を理解し、生成することに顕著な熟練度を示している。しかし、そのパーソナライズされていない生成パラダイムは、ユーザー固有の最適な結果をもたらさない可能性がある。一般的に、ユーザーは自分の知識や好みに基づいて異なる会話をする。このため、ユーザー指向のLLMを強化する必要があるが、これは未解明のままである。この目的のためにLLMを完全に訓練することは可能だが、リソースの消費は莫大である。先行研究では、新しいクエリに対して再学習することなく、生成能力を向上させるために、知識を記憶・検索するメモリベースの方法が研究されてきた。しかし、単なる記憶モジュールではユーザの嗜好を理解するには不十分であり、LLMを完全に訓練することは過剰なコストがかかると我々は主張する。本研究では、LLMをパーソナライズするために、パラメータ効率の良い微調整スキーマを備えた、新しい計算バイオニックメモリ機構を提案する。我々の広範な実験結果は、提案アプローチの有効性と優位性を実証している。この分野のさらなる研究を奨励するため、オープンソースの医療コーパスに基づくLLMによって生成された新しい会話データセットと、我々の実装コードを公開する。

NeuralLabeling: Neural Radiance Fieldsを用いた視覚データセットのラベリングのための多目的ツールセット

原題:NeuralLabeling: A versatile toolset for labeling vision datasets using Neural Radiance Fields

 NeuralLabelingは、バウンディングボックスまたはメッシュを使用してシーンに注釈を付け、セグメンテーションマスク、アフォーダンスマップ、2Dバウンディングボックス、3Dバウンディングボックス、6自由度オブジェクトポーズ、深度マップ、オブジェクトメッシュを生成するためのラベリングアプローチとツールセットである。NeuralLabelingはNeural Radiance Fields (NeRF)をレンダラーとして使用し、オクルージョンのような幾何学的手がかりを取り入れながら、3D空間ツールを使用して、複数の視点から撮影された画像のみを入力としてラベリングを行うことができる。ロボット工学における実用的な問題へのNeuralLabelingの適用可能性を実証するために、RGBDセンサーを用いて撮影された食器洗い機の中に置かれたグラスの透明オブジェクトRGBとノイズの多い深度マップの30000フレームにグランドトゥルースの深度マップを追加し、Dishwasher30kデータセットを得た。我々は、注釈付き深度マップを用いた監視付きの単純なディープニューラルネットワークの訓練が、以前に適用された弱い監視付きアプローチによる訓練よりも高い再構成性能をもたらすことを示す。