世界モデル（World Models）

世界モデル（World Models）とは

エージェントが、外界からの刺激を元に、外界の構造を学習し、そのモデルを獲得する枠組みを指す。内部モデルや力学モデルとも呼ぶ。
このモデルにより、エージェントは実際の環境に関する予測やシミュレーションを行い、将来の行動計画や意思決定に役立てることができる。
1. 状態の推定: 現在の環境の状態を内部的に再現
2. 次状態の予測: 現在の状態と行動から次の状態を予測
3. 環境のシミュレーション: 未来の複数の可能性や行動シナリオをシミュレート
ある要因がある時に、どのような刺激が生じ得るのか？（反実仮想ができる）
世界の構造をモデル化しているため、現在の状態と行動を用いて、将来の刺激を予測する（未来をシミュレーションできる）

観測される刺激（観測データ）が、環境から予測（生成）されると仮定し、その環境を近似するように、世界モデルを学習する
世界モデルでは、観測データを潜在空間にマッピングするエンコーダが重要な役割を果たす。この部分では、自己教師あり学習の技術（例: VAE, Contrastive Learning）が使われることが多い。
世界モデルは、次の状態や報酬を予測するために、潜在表現を効果的に学習する。これは表現学習の一部であり、エージェントがデータから学習した特徴を利用していると考えることができる。