ロバストなローカライゼーションのための連続時間因子グラフ最適化を用いたGNSS/マルチセンサ・フュージョン
原題:GNSS/Multi-Sensor Fusion Using Continuous-Time Factor Graph Optimization for Robust Localization
高度に都市化された地域での正確でロバストな車両定位は困難である。このような複雑で大規模な環境では、センサがしばしば破損します。本論文では、GNSS-FGOを紹介する。GNSS-FGOは、ロバストな車両定位のために、GNSS観測と複数のセンサー計測を融合するオンラインかつグローバルな軌道推定器である。GNSS-FGOでは、ガウス過程回帰を用いた連続時間軌跡表現により、非同期センサ計測値をグラフに融合する。これにより、任意のタイムスタンプで状態を問い合わせることが可能となり、厳密な状態と測定の同期を必要とせずにセンサ観測値を融合させることができる。このように、提案手法はマルチセンサー融合のための一般化された因子グラフを提示する。様々なGNSSフュージョン戦略を評価・研究するために、我々はGNSS計測を速度センサー、IMU、ライダーオドメトリーと緩く、そして密に融合させた。実験研究では、アーヘン、デュッセルドルフ、ケルンでの測定キャンペーンからのデータセットを採用し、センサー観測、スムーザーの種類、ハイパーパラメーターのチューニングに関する包括的な議論を行った。その結果、提案手法は、センサーの劣化により古典的なマルチセンサーフュージョン手法が失敗するような密集した都市部において、ロバストな軌道推定を可能にすることが示された。アーヘンを通る17kmのルートを含むテストシーケンスにおいて、提案手法は、疎結合のGNSSフュージョンでは0.19m、密結合のライダーオドメトリと生のGNSS観測をフュージョンした場合は0.48mの平均2次元測位誤差をもたらす。
BroadBEV:広視野鳥瞰図構築のためのLiDARとカメラの共同フュージョン
原題:BroadBEV: Collaborative LiDAR-camera Fusion for Broad-sighted Bird's Eye View Map Construction
鳥瞰図(BEV)空間における最近のセンサーフュージョンは、3D検出、地図セグメンテーションなどの様々なタスクにおいてその有用性を示している。しかし、このアプローチは、不正確なカメラBEV推定や、LiDAR点のまばらさによる遠方領域の認識に苦戦している。本論文では、クロスモダリティの空間同期アプローチでこの問題に対処するブロードBEVフュージョン( \textit{BroadBEV} )を提案する。我々の戦略は、広視野の知覚のためにカメラのBEV推定を強化すると同時に、BEV空間全体におけるLiDARのスパース性の補完を改善することを目的としている。この目的のために、我々はLiDARのBEV分布をカメラの奥行き分布に散乱させる点散乱を考案した。この方法は、カメラブランチの深度推定の学習を後押しし、BEV空間における高密度なカメラ特徴の正確な位置を誘導する。空間的に同期した特徴間の効果的なBEVフュージョンのために、LiDARとカメラのBEV特徴の自己注意重みを互いに適用するColFusionを提案する。我々の広範な実験により、BroadBEVは広視野のBEV知覚を提供し、顕著な性能向上をもたらすことが実証された。
スパイクNeRF:バイオインスパイアード・ニューラル・ネットワークに現実世界を見通させる
原題:Spiking NeRF: Making Bio-inspired Neural Networks See through the Real World
スパイキングニューロンネットワーク(SNN)は、その有望なエネルギー効率を活用し、生物学的にもっともらしい知能としての可能性を利用するために、多くのタスクで繁栄している。一方、Neural Radiance Fields (NeRF)は大量のエネルギーを消費しながら高品質な3Dシーンをレンダリングしており、生物学に着想を得たアプローチで省エネソリューションを掘り下げた研究はほとんどない。本論文では、SNNをラディアンスフィールドの再構成に自然に適応させるために、ラディアンス光線をSNNの時間次元に合わせるスパイキングNeRF(SpikingNeRF)を提案する。このように、計算はスパイクベースの乗算のない方法に変わり、エネルギー消費を削減する。SpikingNeRFでは、光線上の各サンプリング点が特定の時間ステップにマッチングされ、ボクセルグリッドも維持されるハイブリッドな方法で表現される。ボクセルグリッドに基づいて、サンプリングされた点は、より良い学習と推論のためにマスクされるかどうかが決定される。しかし、この操作には不規則な時間長も発生する。我々は、ハードウェアに優しい計算のために、マスキングされたサンプルの規則的な時間長、すなわち規則的なテンソルを維持するために、時間的凝縮とパディング(TCP)戦略を提案する。様々なデータセットを用いた広範な実験により、我々の手法が平均76.74%のエネルギー消費を削減し、ANNベースラインと同等の合成品質を得ることを実証する。
DreamLLM:相乗的マルチモーダル理解と創造
原題:DreamLLM: Synergistic Multimodal Comprehension and Creation
本論文は、マルチモーダルな理解と創作の間の見落とされがちな相乗効果により、汎用性の高いマルチモーダル大規模言語モデル(MLLM)を実現する学習フレームワーク、DreamLLMを紹介する。DreamLLMは2つの基本原理に基づいて動作する。1つ目は、生のマルチモーダル空間における直接サンプリングによる、言語と画像の後置の生成的モデリングに焦点を当てる。このアプローチは、CLIPのような外部特徴抽出器に固有の制限と情報損失を回避し、より徹底的なマルチモーダル理解が得られる。第二に、DreamLLMは生のインターリーブ文書の生成を促進し、非構造化レイアウトとともに、テキストと画像の両方のコンテンツをモデル化する。これにより、DreamLLMはすべての条件付き分布、マージナル分布、および結合マルチモーダル分布を効果的に学習することができる。その結果、DreamLLMは自由形式のインターリーブコンテンツを生成できる最初のMLLMとなった。包括的な実験により、DreamLLMのゼロショットマルチモーダルジェネラリストとしての優れた性能が強調され、強化された学習の相乗効果を享受することができる。
あなたは画面しか見ない: マルチモーダル行動連鎖エージェント
原題:You Only Look at Screens: Multimodal Chain-of-Action Agents
自律型ユーザーインターフェース(UI)エージェントは、手動による介入なしにユーザーインターフェースと対話することで、タスクの自動化を促進することを目的としている。最近の研究では、大規模言語モデル(LLM)の能力を引き出すことで、多様な環境に効果的に対応することが研究されている。LLMの入出力要件に合わせるために、既存のアプローチは、環境をテキスト要素に解析し、予測されたアクションを解釈するために、外部ツールやアプリケーション固有のAPIに依存するサンドボックス設定下で開発されている。その結果、これらのアプローチはしばしば推論の非効率性やエラー伝播のリスクに悩まされている。この課題を軽減するために、環境の解析やアプリケーション依存のAPIへの依存の必要性を回避し、インターフェースと直接対話するマルチモーダルソリューションであるAuto-UIを紹介する。さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の中間的な過去のアクション履歴と将来のアクションプランを活用する、アクションの連鎖(chain-of-action)技術を提案する。我々は、アプリケーション操作、ウェブ検索、ウェブショッピングのようなマルチステップタスクにまたがる、30Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWで我々のアプローチを評価する。実験結果は、Auto-UIが90%のアクションタイプ予測精度と74%の全体的なアクション成功率という最先端の性能を達成したことを示している。コード
Kosmos-2.5: A Multimodal Literate Model
原題:Kosmos-2.5: A Multimodal Literate Model
Kosmos-2.5は、テキストを多用する画像を機械的に読み取るためのマルチモーダルリテラシーモデルである。Kosmos-2.5は、大規模なテキストを多用する画像で事前に訓練され、2つの異なる、しかし協調的な転写タスクを得意とする。(1)空間的に認識されたテキストブロックを生成し、テキストの各ブロックに画像内の空間座標を割り当てる。この統一されたマルチモーダルリテラシー能力は、共有されたTransformerアーキテクチャ、タスク固有のプロンプト、柔軟なテキスト表現によって達成される。Kosmos-2.5をエンドツーエンドの文書レベルのテキスト認識と画像からマークダウンへのテキスト生成で評価します。さらに、このモデルは、教師ありの微調整により、異なるプロンプトを持つテキスト集約的な画像理解タスクに容易に適応させることができ、テキストが豊富な画像を含む実世界のアプリケーションのための汎用ツールとなる。この研究はまた、マルチモーダル大規模言語モデルの将来のスケーリングへの道を開くものである。
あなたのカメラを完璧なピンホールモデルに変える方法
原題:How to turn your camera into a perfect pinhole model
カメラキャリブレーションは、様々なコンピュータビジョンアプリケーションの最初の基本的なステップである。活発な研究分野であるにもかかわらず、Zhangの方法は、一般的なツールボックスに実装されているため、カメラキャリブレーションに広く使用されています。しかし、この方法は、当初、単純化されすぎた歪みモデルを持つピンホールモデルを前提としている。本研究では、ガウス過程によって画像から歪みを除去する前処理ステップを含む新しいアプローチを提案する。本手法は、歪みモデルを仮定する必要がなく、複数の歪み源がある場合(例えば、湾曲した鏡面反射の魚眼画像など)でも、大きく歪んだ画像に適用することができる。ガウスプロセスは、すべての歪みとカメラの不完全性を捕捉し、正方形のピクセルを持つ理想的なピンホールカメラで撮影されたかのような仮想画像をもたらします。さらに、この理想的なGPカメラでは、正方形のグリッド校正パターンの画像が1枚あればよい。このモデルにより、純粋な射影幾何学の設定で設計されながら、非線形レンズ歪みに非常に敏感な性能を持つ、多くのアルゴリズムやアプリケーションの本格的なアップグレードが可能になります。我々は、Zhangの校正方法を単純化し、パラメータ数を減らし、歪みパラメータを取り除き、反復最適化を行うことで、我々の方法の有効性を実証する。合成データと実世界の画像を用いて検証する。本研究の貢献には、ガウス過程を用いた仮想理想ピンホールカメラの構築、簡略化された校正方法、レンズ歪みの除去が含まれる。