多模态大模型

连接视觉、视频、动作与语言推理的多模态理解和生成研究。

研究分类

连接视觉、视频、动作与语言推理的多模态理解和生成研究。

15论文

43资源链接

2026.05最新月份

13 篇论文

视觉语言

2026.05 视觉语言

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance 提出一种轻量级原生统一多模态模型，在不主要依赖容量扩展的情况下支持图像和视频理解、生成与编辑。它结合共享交错上下文建模、解耦能力路径、双流 MoE、模态感知 RoPE 和分阶段多任务训练，同时提升生成与理解能力。

论文项目代码 Hugging Face

2026.04 视觉语言

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

该论文提出 Video-MME-v2，一个改进的视频理解基准，用于缓解现有基准分数饱和的问题。它指出膨胀的排行榜分数往往无法真实反映模型能力，并推动更全面的视频理解评测。

论文项目代码 Hugging Face

2026.04 视觉语言

V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators

V-Reflection 通过“先思考、再观察”的反思机制，把 MLLM 从被动视觉消费者转变为主动提问者，并让每个推理步骤都扎根于视觉证据。两阶段蒸馏设计在保持自回归高效推理的同时提升细粒度感知。

论文项目代码 Hugging Face

2026.03 视觉语言

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

该论文提出由 VLM 引导的 JEPA 式潜在世界模型框架，通过双时间尺度设计结合密集帧动态预测与长程语义引导。它还引入分层金字塔表征提取模块，将多层 VLM 推理特征迁移到潜在预测中，以提升手部操作轨迹预测的鲁棒性。

论文

2025.11 视觉语言

Qwen3-VL Technical Report

该报告介绍 Qwen3-VL，这是 Qwen 系列迄今能力最强的视觉语言模型，在广泛多模态基准上取得更优表现。它原生支持最高 256K token 的交错上下文，可无缝融合文本、图像和视频。

论文项目代码 Hugging Face

2025.08 视觉语言

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

该论文提出 InternVL 3.5，一个新的开源多模态模型家族，在通用性、推理能力和推理效率上显著提升。其核心包括 Cascade Reinforcement Learning 框架，用于进一步增强多模态能力。

论文

2025.02 视觉语言

Qwen2.5-VL Technical Report

该技术报告介绍 Qwen2.5-VL，一个旗舰视觉语言模型，具备更强的视觉识别、精确定位、文档解析和长视频理解能力。它还通过更好的 grounding 和结构化感知提升视觉环境中的智能体交互。

论文代码 Hugging Face

2024.12 视觉语言

InternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

该论文介绍 InternVL 2.5，一个先进的多模态 LLM 系列，也是首个在 MMMU 基准上超过 70% 的开源 MLLM。它通过 Chain-of-Thought 推理带来 3.7 个百分点提升。

论文 Hugging Face

2024.09 视觉语言

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

该论文提出 Qwen2-VL，一个视觉语言模型系列，通过 Naive Dynamic Resolution 处理任意分辨率图像，并用 M-RoPE 融合文本、图像和视频的位置表示。论文将模型扩展到 2B、8B 和 72B 参数并扩大多模态数据，在图像、视频、多语言 OCR、文档理解和视觉智能体交互任务上取得有竞争力的表现。

论文项目代码 Hugging Face

2024.07 视觉语言

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

该论文提出 LLaVA-NeXT-Interleave，同时处理多图像、多帧视频、多视角 3D 和多 patch 场景。它将视觉指令微调扩展到更复杂的多模态输入设置。

论文项目代码

2024.05 视觉语言

How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs

该论文提出 CVRR-ES，一个覆盖 11 类真实世界视频维度的视频 LMM 评测套件。它评估 9 个近期模型，并发现多数开源 Video-LMM 在复杂视频的鲁棒性和推理上仍然薄弱。

论文项目

2023.08 视觉语言

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

该论文提出 Qwen-VL，一个基于 Qwen-LM 构建的视觉语言模型系列，结合视觉接收器、多模态输入输出接口、三阶段训练流程和多语言多模态语料。通过对齐图像、描述和边界框三元组，Qwen-VL 获得视觉理解、定位和图中文字识别能力，并在多项视觉基准上取得强劲表现。

论文代码 Hugging Face

2023.04 视觉语言

LLaVA: Visual Instruction Tuning

该论文提出 LLaVA，一个使用机器生成指令微调数据端到端训练的大型多模态模型。它展现出强多模态对话能力，并在 Science QA 上取得当时最优结果。

论文项目

1 篇论文

多模态推理

2025.03 多模态推理

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

这篇综述弥补了多模态大模型中多模态 Chain-of-Thought 推理缺少最新系统综述的问题，覆盖图像、视频、语音、音频、3D 和结构化数据。它给出基础定义、完整 taxonomy、跨应用方法分析，并总结未来多模态推理研究的开放挑战。

论文项目

1 篇论文

视觉-语言-动作

2026.04 视觉-语言-动作

Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

OneVL 面向 VLA 自动驾驶中的实时轨迹规划，将 Chain-of-Thought 推理压缩为由语言重建和未来帧预测共同监督的紧凑潜在 token。其三阶段训练流程让潜在推理在保持 answer-only 推理延迟的同时超过显式 CoT。

论文项目代码 Hugging Face