2023-09-01(金)

PointLLM: 大規模言語モデルで点群を理解できるようにする

原題:PointLLM: Empowering Large Language Models to Understand Point Clouds
大規模言語モデル (LLM) における前例のない進歩は、自然言語処理に大きな影響を与えていますが、3D 理解の領域はまだ完全には受け入れられていません。 このペーパーでは、このギャップを埋めるための予備的な取り組みである PointLLM を紹介します。これにより、LLM が点群を理解できるようになり、2D ビジュアル データを超える新しい手段が提供されます。 PointLLM は、人間の指示に従って色付きオブジェクトの点群を処理し、点群と常識の把握を示す、状況に応じて適切な応答を生成します。 具体的には、強力な LLM を備えた点群エンコーダを利用して、幾何学的情報、外観情報、および言語情報を効果的に融合します。 私たちは、660K の単純および 70K の複雑なポイントテキスト命令ペアで構成される新しいデータセットを収集し、最初に潜在空間を調整し、続いて統合モデルを命令チューニングするという 2 段階のトレーニング戦略を可能にします。 モデルの知覚能力と一般化能力を厳密に評価するために、生成 3D オブジェクト分類と 3D オブジェクト キャプションという 2 つのベンチマークを確立し、人間の評価、GPT-4/ChatGPT 評価、従来の指標を含む 3 つの異なる方法で評価しました。 実験結果は、PointLLM が既存の 2D ベースラインよりも優れたパフォーマンスを示していることを示しています。 注目すべきことに、人間が評価するオブジェクトキャプションタスクでは、サンプルの 50% 以上で PointLLM が人間のアノテーターよりも優れたパフォーマンスを示しています。 コード、データセットベンチマークは、この https URL で入手できます。

言語に応じた経路計画

原題:Language-Conditioned Path Planning
接触はロボット操作の中核です。 時には、それは望ましいこともありますが (例: 操作や把握)、時には有害です (例: 障害物を避ける場合)。 ただし、従来の経路計画アルゴリズムは衝突のない経路のみに焦点を当てており、接触の多いタスクへの適用は制限されていました。 この制限に対処するために、接触認識を経路計画問題に組み込む、言語条件付き経路計画の領域を提案します。 この領域の最初のステップとして、単一ビュー画像、言語プロンプト、およびロボット構成のみを使用して衝突関数を学習する新しいアプローチである言語条件付き衝突関数 (LACO) を提案します。 LACO はロボットと環境の間の衝突を予測し、手動のオブジェクト アノテーション、点群データ、グラウンド トゥルース オブジェクト メッシュを必要とせずに、柔軟で条件付きのパス プランニングを可能にします。 シミュレーションと現実世界の両方で、LACO が衝突を禁止するのではなく、衝突しても安全なオブジェクトとの相互作用を可能にする、複雑で微妙なパス プランを促進できることを実証しました。

GNFactor: 一般化可能なニューラル特徴フィールドを使用したマルチタスクの実際のロボット学習

原題:GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields
ロボット工学における長年の課題は、構造化されていない現実世界の環境における視覚観察に基づいて、さまざまな操作タスクを実行できるエージェントを開発することです。 この目標を達成するには、ロボットはシーンの 3D 構造とセマンティクスを包括的に理解する必要があります。 この研究では、一般化可能なニューラル機能フィールドを備えたマルチタスク ロボット操作のための視覚的動作クローン エージェントである GNFactor を紹介します。 GNFactor は、共有されたディープ 3D ボクセル表現を活用して、再構成モジュールとして一般化可能ニューラル フィールド (GNF) と意思決定モジュールとしてパーシーバー トランスフォーマーを共同で最適化します。 3D にセマンティクスを組み込むために、再構成モジュールは視覚言語基盤モデル (安定拡散など) を利用して、豊富なセマンティクス情報を深い 3D ボクセルに抽出します。 3 つの実際のロボット タスクで GNFactor を評価し、限られた数のデモンストレーションで 10 の RLBench タスクで詳細なアブレーションを実行します。 私たちは、目に見えるタスクと目に見えないタスクにおいて、現在の最先端の手法と比べて GNFactor が大幅に向上していることを観察し、GNFactor の強力な一般化能力を実証しています。 私たちのプロジェクトの Web サイトは、この https URL です。

自動運転車両のセーフティクリティカルな制御のための強化学習

原題:Reinforcement learning for safety-critical control of an automated vehicle 車両の自動制御のためのデータ駆動型の意思決定機能の開発、検証、展開に対する当社のアプローチを紹介します。 人工ニューラル ネットワークに基づく意思決定機能は、経路に沿った障害物との衝突を回避しながら、目標点までの事前定義された静的経路に向かって移動ロボット SPIDER を操縦するように訓練されています。 トレーニングは、強化学習分野の最先端のアルゴリズムである近接ポリシー最適化 (PPO) によって実行されます。 結果として得られるコントローラーは、特定の経路に従う能力と、経路に沿って認識された障害物に対する反応性を定量化する KPI を使用して検証されます。 対応するテストはトレーニング環境で実行されます。 さらに、テストは、ロボット工学の状況 Gazebo および現実世界のシナリオでも同様に実行されます。 後者の場合、コントローラーは FPGA ベースの開発プラットフォームである FRACTAL プラットフォームに展開され、SPIDER ソフトウェア スタックに統合されます。

四足歩行ロボットの全身操作を学ぶ

原題:Learning Whole-body Manipulation for Quadrupedal Robot
四足歩行ロボットが全身を使って大きく重い物体を操作できるようにするための学習ベースのシステムを提案します。 私たちのシステムは、インタラクション、固有受容、行動履歴から操作関連情報を取得する深い潜在変数埋め込みを使用する階層制御戦略に基づいており、ロボットがオブジェクトのプロパティを暗黙的に理解できるようになります。 私たちはシミュレーションと現実世界のシナリオの両方でフレームワークを評価します。 シミュレーションでは、0.03 m および 5 ° の許容範囲内で、さまざまなオブジェクトの正確な再位置決めおよび再方向付けにおいて 93.6 % の成功率を達成しました。 実際の実験では、ロボットの重量が 27 kg である一方で、水を満たした 19.2 kg のドラム缶や重い物体が詰まった 15.3 kg のプラスチック箱などの物体をうまく操作できることが実証されています。 掴み操作を使用して小さくて軽い物体を操作することに焦点を当てた以前の研究とは異なり、私たちのフレームワークは、ロボットの全身では掴むことができない大きくて重い物体を操作するために四足動物を使用する可能性を示しています。 私たちの方法は明示的なオブジェクト モデリングを必要とせず、最適化ベースの方法と比較して大幅な計算効率を提供します。 ビデオは this http にあります。