断続的に故障するセンサーを使用したタイムリーな複数目標送信
原題:Timely Multi-Goal Transmissions With an Intermittently Failing Sensor
センサーはランダムな現象を観察し、観察された現象に関する最新情報をリモート モニターに送信します。 センサーに断続的な障害が発生する場合があり、その場合、センサーが回復するまでモニターは更新を受信しません。 モニターは、更新のタイミングを利用してセンサーの故障を検出するだけでなく、観察されたプロセスをタイムリーに把握したいと考えています。 我々は、このシステム モデルを、コミュニケーションに複数の目標と複数の意味/意味論がある、目標指向かつ意味論的なコミュニケーションの観点から分析します。 最初の目標では、パフォーマンスは、モニターで観察されたプロセスの情報の古さによって定量化されます。 2 番目の目標では、センサーの故障ステータスのモニターによる推定の誤差の確率によってパフォーマンスが定量化されます。 到着する各更新パケットは、情報の更新とセンサーのステータスに関する指示の両方をもたらします。 監視装置は、受信した更新のタイミングを利用してセンサーの故障状況を推定します。 更新受信が長期間行われない場合は、更新レートが低いかセンサーの故障が原因である可能性があるため、この推定には誤差が生じる可能性があります。 これら 2 つの目標間のトレードオフを検討します。 更新レートが増加すると、センサーの故障の推定エラーの確率が減少しますが、情報の古さは中間の更新レート (低すぎず、高すぎない) で最小化されることを示します。
学習された人間の注意機能マップを通じてロボットの学習を強化
原題:Enhancing Robot Learning through Learned Human-Attention Feature Maps
堅牢かつ効率的な学習は、ロボット工学、特に複雑な視覚入力の場合、依然として困難な問題です。 複雑な視覚シーンを迅速に処理し、環境の変化に反応する人間の注意メカニズムにヒントを得て、焦点に関する補助情報をロボット学習に埋め込むことで、学習プロセスの効率と堅牢性が向上すると考えています。 この論文では、近似予測モデルを使用して人間の注意をモデル化およびエミュレートする新しいアプローチを提案します。 次に、この出力を活用し、構造化された補助特徴マップとして下流の学習タスクにフィードします。 私たちは、現実世界での手動運転の人間の視線記録から予測モデルを学習することで、このアイデアを検証します。 物体検出と模倣学習という 2 つの学習タスクでアプローチをテストします。 私たちの実験は、予測された人間の注意を含めることで、分布外のサンプルに対するトレーニング済みモデルの堅牢性が向上し、低データ領域設定での学習が高速化されることを示しています。 私たちの研究は、ロボット工学の表現学習に構造化された補助情報を組み込む可能性を強調し、この方向の研究に新たな道を切り開きます。 すべてのコードとデータはオンラインで入手できます。
強化学習と事前訓練済み生成モデルを使用した四足ロボットの本物のような敏捷性とゲームプレイ
原題:Lifelike Agility and Play on Quadrupedal Robots using Reinforcement Learning and Generative Pre-trained Models
動物と人間から得た知識を要約することで、ロボットのイノベーションが生まれます。 この研究では、脚式ロボットが複雑な環境において本物のような機敏性と戦略を持って本物の動物のように動作するようにするためのフレームワークを提案します。 言語と画像の理解において印象的なパフォーマンスを示した大規模な事前トレーニング済みモデルに触発され、脚付きロボットが本物の動物のように行動するように刺激するモーター制御信号を生成する高度な深層生成モデルの力を導入します。 従来のコントローラーやタスク固有のエンドツーエンド RL 手法とは異なり、動物の行動に関する表現的な知識を保存するために、動物の動作データセットに対して生成モデルを事前トレーニングすることを提案します。 事前トレーニングされたモデルは、十分な原始レベルの知識を保持していますが、環境に依存しません。 その後、これは、狭い空間を忍び寄る、ハードルを飛び越える、散らばったブロックの上をフリーランニングするなど、これまでのアプローチではほとんど考慮されなかった多くの困難な障害物を横断することによって、環境に適応する学習の次の段階で再利用されます。 タスク固有のコントローラーは、前の段階からの知識を再利用することで、複雑な下流タスクを解決するように訓練されます。 各段階に関する知識を強化しても、他のレベルの知識の使用には影響しません。 この柔軟なフレームワークは、さまざまなレベルでの継続的な知識の蓄積の可能性を提供します。 私たちは、訓練されたマルチレベル コントローラーを社内で開発された四足歩行ロボットである MAX ロボットに適用して、動物を模倣し、複雑な障害物を横断し、設計された挑戦的なマルチエージェント チェイス タグ ゲームで遊ぶことに成功しました。
そこでは、本物のような機敏性と戦略がロボットに現れます。 本研究は、マルチレベルの事前トレーニング済み知識の再利用と、現実世界での非常に複雑な下流タスクの解決に関する新たな洞察により、ロボット制御の最前線を押し広げます。
R3: 自律ロボット工学のためのオンデバイスリアルタイム深層強化学習
原題:R3: On-device Real-Time Deep Reinforcement Learning for Autonomous Robotics
自律走行車やロボット捜索救助などの自律ロボット システムでは、動的環境で深層強化学習 (DRL) モデルを継続的に適応させるための効率的なオンデバイス トレーニングが必要です。 この研究は基本的に、オンデバイスのリアルタイム DRL の課題を理解し、対処する必要性によって動機付けられています。これには、広範な実証研究を通じて明らかになった、メモリ制約下でのタイミングとアルゴリズムのパフォーマンスのバランスをとることが含まれます。 この複雑なバランスには、DRL トレーニングの 2 つの重要なパラメータであるバッチ サイズとリプレイ バッファ サイズを同時に最適化する必要があります。 これらのパラメータの設定は、タイミングとアルゴリズムのパフォーマンスに大きな影響を与えますが、最適に近いパフォーマンスを達成するには、(残念ながら)両方ともかなりのメモリ割り当てが必要です。
このペーパーでは、オンデバイスのリアルタイム DRL トレーニングでタイミング、メモリ、アルゴリズムのパフォーマンスを管理するための総合的なソリューションである R3 について説明します。 R3 は、(i) タイミングを最適化するための動的なバッチ サイズ設定を備えたデッドライン主導のフィードバック ループ、(ii) メモリ フットプリントを削減し、より大きなリプレイ バッファ サイズを可能にする効率的なメモリ管理、および (iii) ヒューリスティック分析に基づいたランタイム コーディネーターを採用しています。 メモリ リソースの予約を動的に調整するためのランタイム プロファイラー。 これらのコンポーネントは、オンデバイス DRL トレーニングのトレードオフに連携して対処し、メモリ不足 (OOM) エラーのリスクを最小限に抑えながら、タイミングとアルゴリズムのパフォーマンスを向上させます。
私たちは、自律ロボット システムで一般的に採用されている 3 つのハードウェア プラットフォーム上のさまざまな DRL フレームワークとベンチマークにわたって R3 を広範囲に実装して評価しました。 さらに、R3 を人気のある現実的な自動運転車シミュレーターと統合して、現実世界への適用可能性を実証します。 評価結果は、R3 がさまざまなプラットフォームにわたって有効性を実現し、最小限のオーバーヘッドで一貫したレイテンシ パフォーマンスとタイミング予測可能性を確保していることを示しています。
再帰的な要約により、大規模な言語モデルでの長期的な対話記憶が可能になります
原題:Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models
オープンドメインの対話システムのほとんどは、特に長時間の会話では重要な情報を忘れてしまうという問題があります。 既存の研究では通常、過去から重要な情報を取得するために特定の取得者または要約者をトレーニングしますが、これには時間がかかり、ラベル付きデータの品質に大きく依存します。 この問題を軽減するために、大規模言語モデル (LLM) を使用して要約/記憶を再帰的に生成し、長期記憶能力を強化することを提案します。 具体的には、私たちの方法はまずLLMを刺激して小さな会話のコンテキストを記憶させ、次に以前の記憶と次のコンテキストを使用して新しい記憶を再帰的に生成します。 最後に、LLM は最新のメモリを利用して、一貫性の高い応答を簡単に生成できます。 ChatGPT と text-davinci-003 を使用してメソッドを評価し、広く使用されている公開データセットでの実験により、このメソッドが長いコンテキストの会話でより一貫した応答を生成できることが示されました。 特に、私たちの方法は、LLM が非常に長いコンテキストをモデル化できるようにする潜在的なソリューションです。 コードとスクリプトは後でリリースされます。
トランスフューザー: 車両の車線変更軌道を人間のように制御可能に生成するトランスフューザー
原題:Transfusor: Transformer Diffusor for Controllable Human-like Generation of Vehicle Lane Changing Trajectories
自動運転システムの開発が進行し、導入への要望が高まる中、研究者は ADS システムに対する信頼性の高いアプローチを模索し続けています。 仮想シミュレーション テスト (VST) は、高速実行、低コスト、高い再現性という利点により、自動運転システム (ADS) および先進運転支援システム (ADAS) をテストするための有力なアプローチとなっています。 ただし、これらのシミュレーション ベースの実験が成功するかどうかは、テスト シナリオの現実性に大きく依存します。 ADS の安全性と信頼性を高めるためには、VST でより柔軟で忠実度の高いテスト シナリオを作成する必要があります。この http URL はこの課題に対処しており、この文書では「Transfusor」モデルを紹介しています。これは、トランスフォーマー モデルと拡散モデル (2 つの最先端の深層学習生成テクノロジー) を活用します。 Transfusor モデルの主な目的は、高速道路のシナリオで非常に現実的で制御可能な人間のような車線変更の軌道を生成することです。 広範な実験が実施され、その結果、提案されたモデルが人間の車線変更行動の時空間特性を効果的に学習し、現実世界の人間の運転を忠実に模倣した軌道を生成することに成功したことが実証されました。 したがって、提案されたモデルは、VST でより柔軟で忠実度の高いテスト シナリオを作成するという重要な役割を果たすことができ、最終的にはより安全で信頼性の高い ADS および ADAS につながります。
CLNeRF: 継続的学習と NeRF の出会い
原題:CLNeRF: Continual Learning Meets NeRF
新しいビューの合成は、一連の調整された画像を与えられて、目に見えないビューをレンダリングすることを目的としています。 実際のアプリケーションでは、新しい画像が継続的にキャプチャされるため、シーンの範囲、外観、または形状が時間の経過とともに変化する可能性があります。 このような継続的な変化を効率的に組み込むことは、未解決の課題です。 標準 NeRF ベンチマークには、シーン カバレッジの拡張のみが含まれます。 他の実際的なシーンの変化を研究するために、時間の経過とともに外観とジオメトリが変化するシーンで構成される新しいデータセット World Across Time (WAT) を提案します。 また、Neural Radiance Fields (NeRF) に継続学習 (CL) を導入する、シンプルだが効果的な手法 CLNeRF も提案します。 CLNeRF は、生成再生とインスタント ニューラル グラフィックス プリミティブ (NGP) アーキテクチャを組み合わせて、壊滅的な忘却を効果的に防止し、新しいデータが到着したときにモデルを効率的に更新します。 また、トレーニング可能な外観とジオメトリの埋め込みを NGP に追加し、単一のコンパクトなモデルで複雑なシーンの変更を処理できるようにします。 過去の画像を保存する必要がなく、変化するシーンの複数のスキャンで順次トレーニングされた CLNeRF は、すべてのスキャンで一度にトレーニングされた上限モデルと同等のパフォーマンスを発揮します。 他の CL ベースラインと比較して、CLNeRF は標準ベンチマークおよび WAT 全体ではるかに優れたパフォーマンスを発揮します。 ソース コードと WAT データセットは、この https URL で入手できます。 ビデオプレゼンテーションは次の場所から入手できます: https URL