英飞

Deliberating… ●D全部搜索完成！下面是完整的文献综述，按你的Pipeline四个阶段组织：

文献综述：Exo→Ego→Video→Robot Pipeline 路给出可以研究的 rt Pipeline结构 ─ ─ ─ ────────────────────────────────────────────────────────────── Exocentric Image → [Stage 1] → Egocentric Image → [Stage 2] → Egocentric Video → [Stage 3] → Robot Motion — rt Stage 1：Exocentric → Egocentric 视图转换给出可以研究的 ┌───────────────────┬──────┬────────┬───────────────────────────────────────────────────┬────────────────────────┐ ─── │ 论文 ┬ ─ ┬份 ─ Ve┬ue ─ 方法 ┬ ─ 关键结果 ─┐ ├─────论文 ────│─年份 │ Venue │ ── ──────────────────方法─ ───────────────────│──── ──────关键结果 ──────── │ │ Exo2Ego (Put ┼ ─ ┼ ─ ┼ ─ ┼ ─ SOTA on ─┤ │ Myself in Your│ 2│24 EC│V 两阶段：几何对应+扩散模型hallucination手部细 │ A a/Assembly101 │ rt │ Shoes) │ 2024 │ ECCV │ 两阶段：几何对应+扩散模型hallucinatio 手部细节 │ SOTA on H2O/Aria/Assembly101 │ ├─Your Shoes)───│─── ──│─── ───│──── ──────────────────────────────────────────────│──── ──────────────────────── │ │ 4Diff ┼ ─ 2┼24 ─ EC┼V ─ 点云投影+3D感知旋转交叉注意力扩散 ┼ ─ 3D感知显著优于2D基线 ─┤ ├───────────────│─2024 │ ECCV │ 点云投影+3D感知旋转交叉注意力扩散 ────────────│─3D感知显著优于2D基线 ─── │ rt │ EgoWorld ┼ ─ 2┼25 ─ IC┼R ─ 深度估计→点云重投影→扩散生成（含手部3D姿态+┼ 本 ─ │ 4个benchmark ─┤│ /research-lit 针│ 2025 │ ICLR │ 深度估计→点云重投影→扩散生成（含手部3D姿态+文本） │ 4个benchmark SOTA，泛化强 │t │ ─ │ │ 2026 │ ─ ───────────────────────────│──── ─ ─────────── │─── ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ EgoX │ 2024 │ arXiv │ LoRA微调视频扩散+几何引导自注意力 │ 单张exo图即可生成连贯ego视频 │ ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ EgoExo-Gen │ 2025 │ arXiv │ HOI掩码预测+HOI感知视频扩散 │ FVD 1031.7，零样本迁移H2O │ ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ WorldWander │ 2025 │ arXiv │ In-Context视角对齐+协作位置编码 │ 双向ego/exo生成 │ └───────────────┴──────┴───────┴───────────────────────────────────────────────────┴──────────────────────────────┘
关键空白：现有工作主要做视频到视频的转换，很少有单张图片直接到ego视频的完整链路。
— Stage 2：Egocentric 视频生成（可控） ┌────────────────────┬──────┬─────────┬───────────────────────────────────────────────┬───────────────────────────┐ │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoControl │ 2025 │ arXiv │ Cosmos扩散+3D全身姿态条件（AdaLN+交叉注意力） │ mIoU │ │ │ │ │ │ 52.13，臂可见度96.33% │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoVid-5M + │ 2024 │ arXiv │ 500万ego视频+运动学+文本联合条件生成 │ 大规模ego视频生成数据集 │ │ EgoDreamer │ │ │ │ │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoGen │ 2024 │ CVPR │ 合成数据生成系统：动作+碰撞避免+RL+渲染 │ 三类ego感知任务受益 │ │ │ │ Oral │ │ │ └────────────────────┴──────┴─────────┴───────────────────────────────────────────────┴───────────────────────────┘

Stage 3：视频 → 机器人动作

┌─────────────────┬──────┬───────────┬────────────────────────────────────────────┬───────────────────────────────┐ │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ EgoMimic │ 2024 │ ICRA 2025 │ Aria眼镜采集ego视频+人机联合训练 │ 1h人手数据 > 1h机器人遥操 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ Gen2Act │ 2024 │ arXiv │ 语言→生成人类视频→机器人策略执行 │ 减少一个数量级机器人数据││ │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ EgoMI │ 2024 │ arXiv │ ego演示采集头部+末端轨迹，记忆增强策略 │ 双臂全身操作无需外部固定相机 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ Human2Robot │ 2025 │ arXiv │ 稳定扩散视频翻译（人→机器人）+联合动作预测 │ 视频翻译提升动作精度 │ │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ LAPA │ 2024 │ arXiv │ VQ-VAE学习隐式动作标签，VLA预训练 │ 超越OpenVLA，人类视频正向迁移 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ HOI Pretraining │ 2024 │ arXiv │ 视频3D提升手物→机器人重定向→基础策略 │ RL/BC微调更高效 │ └─────────────────┴──────┴───────────┴────────────────────────────────────────────┴───────────────────────────────┘
—

世界模型 + 视频→规划（整体框架参考）思路给出可以研究的 ┌──────────────────────┬──────┬───────────┬───────────────────────────────────────┬───────────────────────────────┐─── │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ UniSim │ 2023 │ ICLR 2024 │ 通用视频仿真器，语言/连续动作条件 │ 零样本迁移到真实任务 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ SuSIE │ 2023 │ CoRL 2023 │ 图像编辑扩散作为子目标规划器+低层策略 │ CALVIN SOTA │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ VPP │ 2024 │ arXiv │ 视频扩散+隐式逆动力学 │ CALVIN +18.6%，真实任务+31.6% │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ EVA │ 2024 │ ICML 2025 │ 多阶段训练+生成反思(RoG)，ego+机器人 │ 新benchmark EVA-Bench │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ DINO-WM │ 2024 │ arXiv │ DINOv2特征空间世界模型+MPC规划 │ 零样本规划新任务 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ Unified World Models │ 2025 │ arXiv │ 视频+动作扩散联合建模 │ 视频生成正则化动作学习 │ └──────────────────────┴──────┴───────────┴───────────────────────────────────────┴───────────────────────────────┘
— 研究现状分析

已有的工作

Exo→Ego视图转换：已有多篇ECCV/ICLR级别工作（Exo2Ego、4Diff、EgoWorld），均依赖视频对视频，最新EgoWorld用单帧+深度估 /research-lit 针对上面的领域查看下面思路给出可以研究的计最接近你的想法 ─ ─ ──────────────────────────────────────────────────────────────
Ego视频生成：可控性较弱，主要靠姿态/文本条件
视频引导机器人：Gen2Act/EgoMimic已证明”视频作为中间表示”有效你的Pipeline的关键创新点
1. 单张Exo图→Ego视频：现有工作要么是图→图（EgoWorld），要么是视频→视频（Exo2Ego），直接从单图生成交互视频是gap research-lit 针对上面的领域查看下面思路给出可以研究的
2. 场景交互感知：生成的ego视频要体现与场景的交互动作（不只是视角转换），这是HOI感知的新需求───────────────────────────
3. 端到端Pipeline：Exo图→机器人动作的完整链路尚无工作，目前都是各段独立的建议的相关工作对比
最近的竞争者：EgoWorld（ICLR 2026，最近出现，需重点关注） + Gen2Act - 可直接复用：EgoWorld的Exo→Ego生成模块 + Gen2Act的视频→机器人策略框架
数据集：Ego-Exo4D（Meta）是最佳训练/测试集 — 总结：你的方向处于Exo→Ego视图合成与视频引导机器人学习的交叉口，两个子领域均有活跃进展但尚未被系统连接，pipeline工作确实有实际价值。最需要警惕的是EgoWorld（2025，ICLR 2026），它的设定与你Stage 1-2最接近。
✻ Proofing… (49s · ↓ 752 tokens) ✻ Cogitated for 49s

英飞

Search

Categories Cloud

My Popular Repositories

MARL

Stanford-CS-229-CN

Python

MathBase

Data-Science-Notes