2023-11-20(月)

注意の再考: トランスフォーマーにおけるアテンション層の代替としての浅いフィードフォワード・ニューラルネットワークの探求

原題:Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers

 本論文では、標準的な浅いフィードフォワードネットワークを用いて、シーケンス対シーケンスタスクのための最先端のアーキテクチャであるオリジナルのTransformerモデルの注意メカニズムの振る舞いを模倣することの有効性を分析する。我々は、Transformerの注意メカニズムの主要な要素を、知識蒸留によってオリジナルの構成要素を用いて訓練された単純なフィードフォワードネットワークで置き換える。IWSLT2017データセットで実施した我々の実験により、これらの「アテンションレストランスフォーマー」がオリジナルアーキテクチャーの性能に匹敵する能力を持つことが明らかになった。厳密なアブレーション研究と、様々な置換ネットワークの種類とサイズの実験を通じて、我々のアプローチの実行可能性を裏付ける洞察を提供する。これは、浅いフィードフォワードネットワークが注意メカニズムをエミュレートする際の適応性に光を当てるだけでなく、シーケンス間のタスクのための複雑なアーキテクチャを合理化する可能性を強調する。

都市環境における安全で対話的な自律走行のための想像力を増強した階層的強化学習

原題:Imagination-augmented Hierarchical Reinforcement Learning for Safe and Interactive Autonomous Driving in Urban Environments

 階層的強化学習(HRL)は様々な分野で目覚ましい成果を上げている。しかし、既存のHRLアルゴリズムはまだ実世界のナビゲーションタスクに適用することができません。これらのタスクでは、エージェントが安全を考慮した行動を行い、動的な環境下で周囲のオブジェクトと相互作用する必要があります。また、これらのタスクは長ホライズンであり、多様なオブジェクトやタスク固有のルールを持つ複雑な構造を持つため、エージェントは一貫性のある構造的な探索を行う必要があります。実世界のナビゲーションタスクにおいて、これらの課題に対応できるHRLエージェントの設計は未解決の問題である。本論文では、実世界のナビゲーションタスクにおいて、エージェントが安全でインタラクティブな行動を学習できる、新しい一般的なナビゲーションアルゴリズムであるimagination-augmented HRL (IAHRL)を提案します。我々の重要なアイデアは、低レベルの方針で想像された行動を解釈することで、高レベルの方針が相互作用を推論する階層型エージェントを訓練することである。具体的には、高レベルの方針は、どの低レベルの方針が最も対話的な振る舞いを生成するかを決定するために、順列不変の注意メカニズムを用いて設計され、低レベルの方針は、タスク固有のルールに従って安全で構造化された振る舞いを生成するために、最適化ベースの振る舞いプランナを用いて実装される。我々のアルゴリズムを評価するために、実世界のナビゲーションタスクの中で最も困難なタスクの一つである5つの複雑な都市運転タスクを導入する。実験の結果、我々の階層型エージェントは、安全性を考慮した行動を行い、周辺車両と適切に相互作用し、都市走行タスクにおいて、ベースラインよりも高い成功率と低い平均エピソードステップを達成することが示された。

UnifiedVisionGPT: 一般化されたマルチモーダルフレームワークによる視覚指向AIの合理化

原題:UnifiedVisionGPT: Streamlining Vision-Oriented AI through Generalized Multimodal Framework

 現在の人工知能の世界では、言語と視覚の両領域において、基礎モデルが進歩の基盤となっている。OpenAI GPT-4は大規模言語モデル(LLM)の頂点として登場し、コンピュータビジョン(CV)領域では、MetaのSAMやDINO、YOLOSといった最先端の(SOTA)モデルが数多く存在する。しかし、新しいモデルをゼロから学習するための経済的・計算的負担は、依然として進歩の大きな障壁となっている。この課題に対して、SOTAビジョンモデルの統合と自動化を行い、ビジョン指向AIの開発を促進するために設計された新しいフレームワーク、UnifiedVisionGPTを紹介する。UnifiedVisionGPTは、4つの主要な特徴によって特徴付けられる: (1)マルチモーダル基盤モデルの強みを生かし、幅広いアプリケーションに適応可能な汎用性の高いマルチモーダルフレームワークを提供する。(2)様々なSOTAビジョンモデルをシームレスに統合し、各モデルの最良のコンポーネントを生かした包括的なマルチモーダルプラットフォームを構築する; (3)ビジョン指向のAIを優先し、現在のLLMの軌跡と比較して、CV領域でより迅速な進歩を保証する。(4)SOTAビジョンモデルの選択に自動化を導入し、テキストプロンプトや画像などの多様なマルチモーダル入力に基づいて最適な結果を生成する。本稿では、UnifiedVisionGPTのアーキテクチャと機能について概説し、効率性、汎用性、汎化、性能の向上を通じて、コンピュータビジョン分野に革命をもたらす可能性を示す。コードなど

Video-LLaVA:投影前のアライメントによる連合視覚表現の学習

原題:Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

 大規模視覚言語モデル(LVLM)は、視覚言語理解における様々な下流タスクの性能を向上させてきた。ほとんどの既存のアプローチは、画像と動画を別々の特徴空間に符号化し、それを大規模言語モデルの入力として与える。しかし、画像と映像のトークン化、すなわち投影前の位置ずれが統一されていないため、大規模言語モデル(LLM)が複数の乏しい投影層からマルチモーダルな相互作用を学習することは困難である。本研究では、視覚表現を言語特徴空間に統合することで、LLMを統一的なLVLMへと進化させる。その結果、画像と動画の混合データセットから学習する、シンプルで頑健なLVLMベースラインであるVideo-LaVAを確立し、相互強化する。Video-LLaVAは、5つの画像質問応答データセットと4つの画像ベンチマークツールキットにまたがる、9つの画像ベンチマークで優れた性能を達成した。さらに、Video-LLaVAは、MSRVTT、MSVD、TGIF、ActivityNetにおいて、それぞれ5.8%、9.9%、18.6%、10.1%もVideo-ChatGPTを上回っています。特筆すべきは、広範な実験により、Video-LLaVAが統一された視覚表現の中で画像と動画を相互に利することが実証され、画像または動画に特化して設計されたモデルを凌駕していることである。