Deliberating… ●D全部搜索完成!下面是完整的文献综述,按你的Pipeline四个阶段组织:


文献综述:Exo→Ego→Video→Robot Pipeline 路 给出可以研究的 rt Pipeline结构 ─ ─ ─ ────────────────────────────────────────────────────────────── Exocentric Image → [Stage 1] → Egocentric Image → [Stage 2] → Egocentric Video → [Stage 3] → Robot Motion — rt Stage 1:Exocentric → Egocentric 视图转换 给出可以研究的 ┌───────────────────┬──────┬────────┬───────────────────────────────────────────────────┬────────────────────────┐ ─── │ 论文 ┬ ─ ┬份 ─ Ve┬ue ─ 方法 ┬ ─ 关键结果 ─┐ ├─────论文 ────│─年份 │ Venue │ ── ──────────────────方法─ ───────────────────│──── ──────关键结果 ──────── │ │ Exo2Ego (Put ┼ ─ ┼ ─ ┼ ─ ┼ ─ SOTA on ─┤ │ Myself in Your│ 2│24 EC│V 两阶段:几何对应+扩散模型hallucination手部细 │ A a/Assembly101 │ rt │ Shoes) │ 2024 │ ECCV │ 两阶段:几何对应+扩散模型hallucinatio 手部细节 │ SOTA on H2O/Aria/Assembly101 │ ├─Your Shoes)───│─── ──│─── ───│──── ──────────────────────────────────────────────│──── ──────────────────────── │ │ 4Diff ┼ ─ 2┼24 ─ EC┼V ─ 点云投影+3D感知旋转交叉注意力扩散 ┼ ─ 3D感知显著优于2D基线 ─┤ ├───────────────│─2024 │ ECCV │ 点云投影+3D感知旋转交叉注意力扩散 ────────────│─3D感知显著优于2D基线 ─── │ rt │ EgoWorld ┼ ─ 2┼25 ─ IC┼R ─ 深度估计→点云重投影→扩散生成(含手部3D姿态+┼ 本 ─ │ 4个benchmark ─┤│ /research-lit 针│ 2025 │ ICLR │ 深度估计→点云重投影→扩散生成(含手部3D姿态+文本) │ 4个benchmark SOTA,泛化强 │t │ ─ │ │ 2026 │ ─ ───────────────────────────│──── ─ ─────────── │─── ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ EgoX │ 2024 │ arXiv │ LoRA微调视频扩散+几何引导自注意力 │ 单张exo图即可生成连贯ego视频 │ ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ EgoExo-Gen │ 2025 │ arXiv │ HOI掩码预测+HOI感知视频扩散 │ FVD 1031.7,零样本迁移H2O │ ├───────────────┼──────┼───────┼───────────────────────────────────────────────────┼──────────────────────────────┤ │ WorldWander │ 2025 │ arXiv │ In-Context视角对齐+协作位置编码 │ 双向ego/exo生成 │ └───────────────┴──────┴───────┴───────────────────────────────────────────────────┴──────────────────────────────┘
关键空白:现有工作主要做视频到视频的转换,很少有单张图片直接到ego视频的完整链路。
— Stage 2:Egocentric 视频生成(可控) ┌────────────────────┬──────┬─────────┬───────────────────────────────────────────────┬───────────────────────────┐ │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoControl │ 2025 │ arXiv │ Cosmos扩散+3D全身姿态条件(AdaLN+交叉注意力) │ mIoU │ │ │ │ │ │ 52.13,臂可见度96.33% │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoVid-5M + │ 2024 │ arXiv │ 500万ego视频+运动学+文本联合条件生成 │ 大规模ego视频生成数据集 │ │ EgoDreamer │ │ │ │ │ ├────────────────────┼──────┼─────────┼───────────────────────────────────────────────┼───────────────────────────┤ │ EgoGen │ 2024 │ CVPR │ 合成数据生成系统:动作+碰撞避免+RL+渲染 │ 三类ego感知任务受益 │ │ │ │ Oral │ │ │ └────────────────────┴──────┴─────────┴───────────────────────────────────────────────┴───────────────────────────┘


Stage 3:视频 → 机器人动作

┌─────────────────┬──────┬───────────┬────────────────────────────────────────────┬───────────────────────────────┐ │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ EgoMimic │ 2024 │ ICRA 2025 │ Aria眼镜采集ego视频+人机联合训练 │ 1h人手数据 > 1h机器人遥操 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ Gen2Act │ 2024 │ arXiv │ 语言→生成人类视频→机器人策略执行 │ 减少一个数量级机器人数据││ │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ EgoMI │ 2024 │ arXiv │ ego演示采集头部+末端轨迹,记忆增强策略 │ 双臂全身操作无需外部固定相机 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ Human2Robot │ 2025 │ arXiv │ 稳定扩散视频翻译(人→机器人)+联合动作预测 │ 视频翻译提升动作精度 │ │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ LAPA │ 2024 │ arXiv │ VQ-VAE学习隐式动作标签,VLA预训练 │ 超越OpenVLA,人类视频正向迁移 │ ├─────────────────┼──────┼───────────┼────────────────────────────────────────────┼───────────────────────────────┤ │ HOI Pretraining │ 2024 │ arXiv │ 视频3D提升手物→机器人重定向→基础策略 │ RL/BC微调更高效 │ └─────────────────┴──────┴───────────┴────────────────────────────────────────────┴───────────────────────────────┘

世界模型 + 视频→规划(整体框架参考) 思路 给出可以研究的 ┌──────────────────────┬──────┬───────────┬───────────────────────────────────────┬───────────────────────────────┐─── │ 论文 │ 年份 │ Venue │ 方法 │ 关键结果 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ UniSim │ 2023 │ ICLR 2024 │ 通用视频仿真器,语言/连续动作条件 │ 零样本迁移到真实任务 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ SuSIE │ 2023 │ CoRL 2023 │ 图像编辑扩散作为子目标规划器+低层策略 │ CALVIN SOTA │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ VPP │ 2024 │ arXiv │ 视频扩散+隐式逆动力学 │ CALVIN +18.6%,真实任务+31.6% │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ EVA │ 2024 │ ICML 2025 │ 多阶段训练+生成反思(RoG),ego+机器人 │ 新benchmark EVA-Bench │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ DINO-WM │ 2024 │ arXiv │ DINOv2特征空间世界模型+MPC规划 │ 零样本规划新任务 │ ├──────────────────────┼──────┼───────────┼───────────────────────────────────────┼───────────────────────────────┤ │ Unified World Models │ 2025 │ arXiv │ 视频+动作扩散联合建模 │ 视频生成正则化动作学习 │ └──────────────────────┴──────┴───────────┴───────────────────────────────────────┴───────────────────────────────┘
— 研究现状分析

已有的工作

  • Exo→Ego视图转换:已有多篇ECCV/ICLR级别工作(Exo2Ego、4Diff、EgoWorld),均依赖视频对视频,最新EgoWorld用单帧+深度估 /research-lit 针对上面的领域 查看下面思路 给出可以研究的 计最接近你的想法 ─ ─ ──────────────────────────────────────────────────────────────
  • Ego视频生成:可控性较弱,主要靠姿态/文本条件
  • 视频引导机器人:Gen2Act/EgoMimic已证明”视频作为中间表示”有效 你的Pipeline的关键创新点
    1. 单张Exo图→Ego视频:现有工作要么是图→图(EgoWorld),要么是视频→视频(Exo2Ego),直接从单图生成交互视频是gap research-lit 针对上面的领域 查看下面思路 给出可以研究的
    2. 场景交互感知:生成的ego视频要体现与场景的交互动作(不只是视角转换),这是HOI感知的新需求───────────────────────────
    3. 端到端Pipeline:Exo图→机器人动作的完整链路尚无工作,目前都是各段独立的 建议的相关工作对比
  • 最近的竞争者:EgoWorld(ICLR 2026,最近出现,需重点关注) + Gen2Act - 可直接复用:EgoWorld的Exo→Ego生成模块 + Gen2Act的视频→机器人策略框架
  • 数据集:Ego-Exo4D(Meta)是最佳训练/测试集 — 总结:你的方向处于Exo→Ego视图合成与视频引导机器人学习的交叉口,两个子领域均有活跃进展但尚未被系统连接,pipeline工作确 实有实际价值。最需要警惕的是EgoWorld(2025,ICLR 2026),它的设定与你Stage 1-2最接近。
    ✻ Proofing… (49s · ↓ 752 tokens) ✻ Cogitated for 49s