2023-09-14(木)

ロボット工学における深層強化学習のための自動報酬関数設計者としての自己定義大規模言語モデル

原題:Self-Refined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics

 深層強化学習(Deep Reinforcement Learning: DRL)は、多くのロボットアプリケーションで顕著な成功を収めているが、高性能な報酬関数を設計することは、多くの場合、手作業による入力を必要とする困難なタスクである。近年、推論やプランニングなど、深い常識的知識を必要とするタスクに対応するため、大規模言語モデル(Large Language Models:LLM)が広く採用されています。報酬関数設計もこのような知識と本質的に関連していることを認識し、LLMはこの文脈で有望な可能性を提供する。このことに動機づけられ、我々は自動化された報酬関数設計のための自己洗練機構を持つ新しいLLMフレームワークを提案する。このフレームワークは、LLMが自然言語入力に基づいて初期報酬関数を定式化することから始まる。その後、報酬関数の性能が評価され、その結果がLLMに返され、自己洗練プロセスを導く。我々は、3つの多様なロボットシステムにおける様々な連続的ロボット制御タスクを通して、提案するフレームワークの性能を検証する。その結果、LLMによって設計された報酬関数は、手動で設計された報酬関数に匹敵するか、あるいはそれを凌駕することが示され、我々のアプローチの有効性と適用性が強調された。

部分的に観察される神経過程としての汎化可能な神経場

原題:Generalizable Neural Fields as Partially Observed Neural Processes

 ニューラル・ネットワークによってパラメータ化された関数として信号を表現するニューラル・フィールドは、従来の離散ベクトルやグリッド・ベースの表現に代わる有望な手法である。離散表現に比べ、ニューラル表現は解像度が上がるにつれてうまくスケールし、連続的で、何度も微分可能である。しかし、表現したい信号のデータセットがある場合、各信号に対して別々のニューラルフィールドを最適化しなければならないのは非効率的であり、信号間で共有される情報や構造を利用することができない。既存の汎化手法では、これをメタ学習問題としてとらえ、勾配ベースのメタ学習を用いて初期設定を学習し、それをテスト時の最適化で微調整したり、ハイパーネットワークを学習してニューラルフィールドの重みを生成したりする。我々はその代わりに、ニューラル表現の大規模な学習を、部分的に観測されたニューラル・プロセスの枠組みの一部として捉え、このタスクを解決するためにニューラル・プロセス・アルゴリズムを活用する新しいパラダイムを提案する。このアプローチが、最先端の勾配ベースのメタ学習アプローチとハイパーネットワークアプローチの両方を凌駕することを実証する。

AmodalSynthDrive: 自律運転のための合成アモーダル知覚データセット

原題:AmodalSynthDrive: A Synthetic Amodal Perception Dataset for Autonomous Driving

 部分的に遮蔽されていても物体の全体像を難なく推定できる人間とは異なり、現代のコンピュータ・ビジョン・アルゴリズムは、この点を非常に困難なものとしている。このアモーダルな知覚を自律走行に活用することは、適切なデータセットがないため、ほとんど手つかずのままである。このようなデータセットのキュレーションは、多大なアノテーションコストと、オクルーデッド領域を正確にラベル付けする際のアノテーターの主観性を緩和することが主な障害となっている。これらの限界に対処するために、我々は合成マルチタスクマルチモーダルモーダル知覚データセットであるAmodalSynthDriveを紹介する。このデータセットは、様々な交通状況、天候、照明条件下で、1M以上のオブジェクト注釈を持つ150のドライビングシーケンスのマルチビューカメラ画像、3Dバウンディングボックス、LiDARデータ、オドメトリを提供する。AmodalSynthDriveは、空間理解を強化するために導入されたアモーダル深度推定を含む、複数のアモーダルなシーン理解タスクをサポートします。課題を説明するために、これらのタスクごとにいくつかのベースラインを評価し、公開ベンチマークサーバーを設定する。データセット(リンクがおかしい?)

教師なしオンライン一般継続学習のための領域を意識した補強

原題:Domain-Aware Augmentations for Unsupervised Online General Continual Learning

 継続学習は、特に教師なしオンライン一般継続学習(UOGCL)のような、学習エージェントがクラス境界やタスク変更情報の事前知識を持たない教師なしシナリオを扱う場合、困難であった。これまでの研究では、教師ありセットアップにおける忘却の低減に焦点が当てられてきたが、最近の研究では、自己教師あり学習者の方が忘却に強いことが示されている。本論文では、UOGCLにおける対照学習において、ストリーム依存のデータ補強を定義し、実装上のトリックとともに利用することで、メモリ利用を向上させる新しいアプローチを提案する。我々の提案する手法は単純でありながら効果的であり、全ての考慮されたセットアップにおいて、他の教師なしアプローチと比較して最先端の結果を達成し、教師あり学習と教師なし継続学習の間のギャップを縮小する。また、教師あり継続学習と教師なし継続学習との間のギャップを縮めることができる。我々のドメインを考慮した拡張手順は、他の再生ベースの手法にも適応可能であり、継続学習のための有望な戦略となる。

サッカーシーンのためのダイナミックNeRF

原題:Dynamic NeRFs for Soccer Scenes

 新奇な視点合成の長年の問題は、特にスポーツ放送において多くの応用がある。特にサッカーのアクションのフォトリアリスティックな新規ビュー合成は、放送業界にとって大きな関心事である。しかし、産業的な解決策が提案されているのはわずかであり、合成リプレイの放送に近い品質を達成したものはさらに少ない。プレーフィールドの周囲に複数の静止カメラを設置する以外は、独自に開発された最高のシステムでも、その内部構造に関する情報はほとんど開示されていない。このようなタスクのために複数の静止カメラを活用することは、公開データセットが不足しているため、文献ではほとんど取り組まれていない課題である。近年、ニューラル放射輝度場の出現により、多くの新しいビュー合成アプリケーションにおいて驚くべき進歩がもたらされ、ディープラーニングの原理を活用することで、最も困難な設定においてフォトリアリスティックな結果を得ることができるようになった。本研究では、動的NeRF、すなわち、一般的な動的コンテンツを再構成することを目的としたニューラルモデルに基づいて、タスクの解決策の実現可能性を調査する。合成サッカー環境を構成し、それを用いて複数の実験を行い、動的NeRFを用いてサッカーシーンを再構成するのに役立つ主要な構成要素を特定する。このアプローチでは、ターゲットとするアプリケーションの品質要件を完全に満たすことはできないが、コスト効率の高い自動ソリューションへの有望な道を示唆していることを示す。また、動的なサッカーシーンのための新しいビュー合成の課題に対する研究コミュニティからのさらなる努力を奨励することを目的として、我々の作業データセットとコードを公開する。コード、データ、動画の結果については、こちらのhttps URLをご覧ください。