自動運転におけるモーション関連モジュールの DRL ベースの軌道追跡
原題:DRL-Based Trajectory Tracking for Motion-Related Modules in Autonomous Driving
自動運転システムは常にプランナーやコントローラーなどのモーション関連モジュールの上に構築されます。 これらの運動関連モジュールには、原始的なルーチンとして、正確かつロバストな軌道追跡手法が不可欠です。 現在の手法は、コンテキストやダイナミクスなどのモデルについて強い仮定を置くことが多く、現実世界のシステムの変化するシナリオに対処できるほど堅牢ではありません。 本稿では、自動運転システムの運動関連モジュール向けに、深層強化学習(DRL)ベースの軌道追跡手法を提案します。 DL の表現学習能力と RL の探索特性により、強力な堅牢性がもたらされ、精度が向上します。 一方、モデルフリーかつデータ駆動型の方法で軌道追跡を実行することで、汎用性が向上します。 広範な実験を通じて、現在の方法と比較して、私たちの方法の効率と有効性の両方を実証します。
WALL-E: 大規模な言語モデルを使用した身体化されたロボット ウェイターの負荷軽減
原題:WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model
ロボットが言語命令を理解し、視覚認識に応じて反応できるようにすることは、ロボット研究コミュニティの長年の目標でした。 この目標を達成するには、自然言語処理、コンピューター ビジョン、ロボット工学における最先端の進歩が必要です。 したがって、この論文では主に、人間とロボットのインタラクションの有効性を高めるために、最新の大規模言語モデル (LLM) と既存の視覚的接地およびロボット把握システムを統合する可能性を調査します。 この統合の例として、WALL-E (大規模言語モデルを使用したエンボディド ロボット ウェイター ロードリフティング) を紹介します。 このシステムは、ChatGPT の LLM を利用して、ユーザーの好みのオブジェクトを複数ラウンドの対話型対話を介してターゲット指示として要約します。 次に、ターゲットの指示は、オブジェクトの姿勢とサイズを推定するために視覚的接地システムに転送され、その後、ロボットがそれに応じてオブジェクトを把握します。 この LLM 機能を備えたシステムを物理ロボットに導入して、指示に基づいた把握タスクのためのよりユーザーフレンドリーなインターフェイスを提供します。 さまざまな現実世界のシナリオに関するさらなる実験結果により、私たちが提案したフレームワークの実現可能性と有効性が実証されました。
循環嫌悪的な強化学習
原題:Cyclophobic Reinforcement Learning
報酬が少ない環境では、探索のための適切な誘導バイアスを見つけることがエージェントの成功にとって重要です。 ただし、新規性の探索と体系的な探索という 2 つの競合する目標があります。 好奇心主導の探索などの既存のアプローチは新規性を見出しますが、深さ優先探索と幅優先探索に似て、状態空間全体を体系的に探索しない場合があります。 この論文では、サイクルフォビックな新しい内在的報酬を提案します。つまり、新規性には報酬を与えず、サイクルを回避することで冗長性を罰します。 エージェントの切り取られた観察に基づく一連の階層表現で嫌悪感のある固有の報酬を強化することで、MiniGrid および MiniHack 環境で優れた結果を達成することができます。 どちらも、解決するにはさまざまなオブジェクトとの複雑な相互作用が必要なため、特に困難です。 以前のアプローチとの詳細な比較と徹底したアブレーション研究により、私たちが新しく提案した閉環性強化学習は、さまざまなタスクにおいて他の最先端の方法よりもサンプル効率が高いことが示されています。
世界モデルと好奇心を使用してゼロからナビゲートする方法を学ぶ: 良いもの、悪いもの、醜いもの
原題:Learning to Navigate from Scratch using World Models and Curiosity: the Good, the Bad, and the Ugly
未知の環境をゼロからナビゲートすることを学ぶのは困難な問題です。 この研究では、世界モデルと、新しい環境での自律ナビゲーションのための好奇心主導の探索を統合するシステムを紹介します。 私たちは、さまざまな規模と複雑さのシミュレーションと実際の実験を通じてパフォーマンスを評価します。 シミュレートされた環境では、このアプローチは周囲を迅速かつ包括的に探索します。 現実世界のシナリオでは、さらなる課題が生じます。 小規模で制御された環境では有望であることが証明されていますが、大規模で動的な環境では現在のシステムに課題が生じる可能性があることを私たちは認識しています。 私たちの分析は、同じ地域の繰り返しの探査を防ぐために、環境の変化に対処できる、適応可能で堅牢な世界モデルを開発することの重要性を強調しています。
即時ベースの継続学習における言語指導の導入
原題:Introducing Language Guidance in Prompt-based Continual Learning
継続学習は、前のタスクのデータにアクセスせずに、一連のタスクに関する単一のモデルを学習することを目的としています。 このドメインにおける最大の課題は依然として「壊滅的な忘却」です。つまり、以前のタスクの既知のクラスのパフォーマンスの低下です。 既存のメソッドの中には、前のタスクからのデータのチャンクを保存するために高価な再生バッファーに依存しているものもあります。 これは有望ではありますが、タスクの数が多くなったり、プライバシー上の理由でデータを保存できなくなったりすると、コストが高くなります。 代替として、タスク情報を学習可能なプロンプトプールに保存するプロンプトベースの方法が提案されています。 このプロンプト プールは、フリーズされたイメージ エンコーダーに各タスクの解決方法を指示します。 この設定では、モデルは各タスクで互いに素なクラスのセットに直面していますが、これらのクラスは事前トレーニングされた言語エンコーダーの同じ埋め込み空間にエンコードできると主張します。 この研究では、プロンプトベースのメソッドのプラグインとして、プロンプトベースの継続学習のための言語ガイダンス (LGCL) を提案します。 LGCL はモデルに依存せず、プロンプト プールのタスク レベルとビジョン エンコーダの出力機能のクラス レベルで言語ガイダンスを導入します。 私たちは広範な実験により、LGCL がプロンプトベースの継続的学習方法のパフォーマンスを一貫して向上させ、新しい最先端を確立することを示しています。 LGCL は、追加の学習可能なパラメーターを必要とせずに、これらのパフォーマンスの向上を実現します。
放射フィールド再構築のための効率的な光線サンプリング
原題:Efficient Ray Sampling for Radiance Fields Reconstruction
光線サンプリング戦略はネットワークの収束に大きな影響を与えるため、神経放射輝度フィールドのトレーニングを加速することは、実質的な実用的価値があります。 したがって、より効率的なレイ サンプリングにより、既存の NeRF モデルのトレーニング効率を直接高めることができます。 したがって、我々は、フォトリアリスティックなレンダリング結果を維持しながらトレーニング効率を向上させる、神経放射フィールドのための新しいレイ サンプリング アプローチを提案します。 まず、サンプリングされた光線のピクセル損失分布とレンダリング品質の関係を分析します。 これは、元の NeRF の均一な光線サンプリングの冗長性を明らかにします。 この発見に基づいて、ピクセル領域と深度境界を活用したサンプリング方法を開発しました。 私たちの主なアイデアは、トレーニング ビューでサンプルするレイの数を減らしながら、各レイでシーンのフィッティングに役立つ情報を提供することです。 色と深度の大きな変化を示すピクセル領域のサンプリング確率が増加し、精度を犠牲にすることなく他の領域からの無駄な光線を大幅に削減します。 この方法により、ネットワークの収束が加速されるだけでなく、シーンの空間幾何学形状をより正確に認識することもできます。 特にテクスチャが複雑な領域のレンダリング出力が強化されています。 実験では、私たちの手法が公開ベンチマーク データセットで最先端の手法を大幅に上回るパフォーマンスを示しています。