Lance: Unified Multimodal Modeling by Multi-Task Synergy
Lance 提出一种轻量级原生统一多模态模型,在不主要依赖容量扩展的情况下支持图像和视频理解、生成与编辑。它结合共享交错上下文建模、解耦能力路径、双流 MoE、模态感知 RoPE 和分阶段多任务训练,同时提升生成与理解能力。
研究分类
连接视觉、视频、动作与语言推理的多模态理解和生成研究。
13 篇论文
Lance 提出一种轻量级原生统一多模态模型,在不主要依赖容量扩展的情况下支持图像和视频理解、生成与编辑。它结合共享交错上下文建模、解耦能力路径、双流 MoE、模态感知 RoPE 和分阶段多任务训练,同时提升生成与理解能力。
该论文提出 Video-MME-v2,一个改进的视频理解基准,用于缓解现有基准分数饱和的问题。它指出膨胀的排行榜分数往往无法真实反映模型能力,并推动更全面的视频理解评测。
V-Reflection 通过“先思考、再观察”的反思机制,把 MLLM 从被动视觉消费者转变为主动提问者,并让每个推理步骤都扎根于视觉证据。两阶段蒸馏设计在保持自回归高效推理的同时提升细粒度感知。
该论文提出由 VLM 引导的 JEPA 式潜在世界模型框架,通过双时间尺度设计结合密集帧动态预测与长程语义引导。它还引入分层金字塔表征提取模块,将多层 VLM 推理特征迁移到潜在预测中,以提升手部操作轨迹预测的鲁棒性。
该报告介绍 Qwen3-VL,这是 Qwen 系列迄今能力最强的视觉语言模型,在广泛多模态基准上取得更优表现。它原生支持最高 256K token 的交错上下文,可无缝融合文本、图像和视频。
该论文提出 InternVL 3.5,一个新的开源多模态模型家族,在通用性、推理能力和推理效率上显著提升。其核心包括 Cascade Reinforcement Learning 框架,用于进一步增强多模态能力。
该技术报告介绍 Qwen2.5-VL,一个旗舰视觉语言模型,具备更强的视觉识别、精确定位、文档解析和长视频理解能力。它还通过更好的 grounding 和结构化感知提升视觉环境中的智能体交互。
该论文介绍 InternVL 2.5,一个先进的多模态 LLM 系列,也是首个在 MMMU 基准上超过 70% 的开源 MLLM。它通过 Chain-of-Thought 推理带来 3.7 个百分点提升。
该论文提出 Qwen2-VL,一个视觉语言模型系列,通过 Naive Dynamic Resolution 处理任意分辨率图像,并用 M-RoPE 融合文本、图像和视频的位置表示。论文将模型扩展到 2B、8B 和 72B 参数并扩大多模态数据,在图像、视频、多语言 OCR、文档理解和视觉智能体交互任务上取得有竞争力的表现。
该论文提出 LLaVA-NeXT-Interleave,同时处理多图像、多帧视频、多视角 3D 和多 patch 场景。它将视觉指令微调扩展到更复杂的多模态输入设置。
该论文提出 CVRR-ES,一个覆盖 11 类真实世界视频维度的视频 LMM 评测套件。它评估 9 个近期模型,并发现多数开源 Video-LMM 在复杂视频的鲁棒性和推理上仍然薄弱。
该论文提出 Qwen-VL,一个基于 Qwen-LM 构建的视觉语言模型系列,结合视觉接收器、多模态输入输出接口、三阶段训练流程和多语言多模态语料。通过对齐图像、描述和边界框三元组,Qwen-VL 获得视觉理解、定位和图中文字识别能力,并在多项视觉基准上取得强劲表现。
该论文提出 LLaVA,一个使用机器生成指令微调数据端到端训练的大型多模态模型。它展现出强多模态对话能力,并在 Science QA 上取得当时最优结果。
1 篇论文
1 篇论文
OneVL 面向 VLA 自动驾驶中的实时轨迹规划,将 Chain-of-Thought 推理压缩为由语言重建和未来帧预测共同监督的紧凑潜在 token。其三阶段训练流程让潜在推理在保持 answer-only 推理延迟的同时超过显式 CoT。