Awesome LLM Research Collections
  • Home
  • Papers
    • Attention
    • LLMs
    • Multimodal LLMs
    • Embeddings
    • SFT
    • Training
    • Reinforcement Learning
    • Agents Application
    • Vision
    • Auto-Prompt
  • Notes
  • Blogs
  • English
  • 中文

多模态大模型

连接视觉、视频、动作与语言推理的多模态理解和生成研究。
English

研究分类

连接视觉、视频、动作与语言推理的多模态理解和生成研究。

15论文
43资源链接
2026.05最新月份
视觉语言 多模态推理 视觉-语言-动作

13 篇论文

视觉语言

2026.05 视觉语言

Lance: Unified Multimodal Modeling by Multi-Task Synergy

Lance 提出一种轻量级原生统一多模态模型,在不主要依赖容量扩展的情况下支持图像和视频理解、生成与编辑。它结合共享交错上下文建模、解耦能力路径、双流 MoE、模态感知 RoPE 和分阶段多任务训练,同时提升生成与理解能力。

论文 项目 代码 Hugging Face
2026.04 视觉语言

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

该论文提出 Video-MME-v2,一个改进的视频理解基准,用于缓解现有基准分数饱和的问题。它指出膨胀的排行榜分数往往无法真实反映模型能力,并推动更全面的视频理解评测。

论文 项目 代码 Hugging Face
2026.04 视觉语言

V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators

V-Reflection 通过“先思考、再观察”的反思机制,把 MLLM 从被动视觉消费者转变为主动提问者,并让每个推理步骤都扎根于视觉证据。两阶段蒸馏设计在保持自回归高效推理的同时提升细粒度感知。

论文 项目 代码 Hugging Face
2026.03 视觉语言

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

该论文提出由 VLM 引导的 JEPA 式潜在世界模型框架,通过双时间尺度设计结合密集帧动态预测与长程语义引导。它还引入分层金字塔表征提取模块,将多层 VLM 推理特征迁移到潜在预测中,以提升手部操作轨迹预测的鲁棒性。

论文
2025.11 视觉语言

Qwen3-VL Technical Report

该报告介绍 Qwen3-VL,这是 Qwen 系列迄今能力最强的视觉语言模型,在广泛多模态基准上取得更优表现。它原生支持最高 256K token 的交错上下文,可无缝融合文本、图像和视频。

论文 项目 代码 Hugging Face
2025.08 视觉语言

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

该论文提出 InternVL 3.5,一个新的开源多模态模型家族,在通用性、推理能力和推理效率上显著提升。其核心包括 Cascade Reinforcement Learning 框架,用于进一步增强多模态能力。

论文
2025.02 视觉语言

Qwen2.5-VL Technical Report

该技术报告介绍 Qwen2.5-VL,一个旗舰视觉语言模型,具备更强的视觉识别、精确定位、文档解析和长视频理解能力。它还通过更好的 grounding 和结构化感知提升视觉环境中的智能体交互。

论文 代码 Hugging Face
2024.12 视觉语言

InternVL 2.5: Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

该论文介绍 InternVL 2.5,一个先进的多模态 LLM 系列,也是首个在 MMMU 基准上超过 70% 的开源 MLLM。它通过 Chain-of-Thought 推理带来 3.7 个百分点提升。

论文 Hugging Face
2024.09 视觉语言

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution

该论文提出 Qwen2-VL,一个视觉语言模型系列,通过 Naive Dynamic Resolution 处理任意分辨率图像,并用 M-RoPE 融合文本、图像和视频的位置表示。论文将模型扩展到 2B、8B 和 72B 参数并扩大多模态数据,在图像、视频、多语言 OCR、文档理解和视觉智能体交互任务上取得有竞争力的表现。

论文 项目 代码 Hugging Face
2024.07 视觉语言

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

该论文提出 LLaVA-NeXT-Interleave,同时处理多图像、多帧视频、多视角 3D 和多 patch 场景。它将视觉指令微调扩展到更复杂的多模态输入设置。

论文 项目 代码
2024.05 视觉语言

How Good is my Video LMM? Complex Video Reasoning and Robustness Evaluation Suite for Video-LMMs

该论文提出 CVRR-ES,一个覆盖 11 类真实世界视频维度的视频 LMM 评测套件。它评估 9 个近期模型,并发现多数开源 Video-LMM 在复杂视频的鲁棒性和推理上仍然薄弱。

论文 项目
2023.08 视觉语言

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

该论文提出 Qwen-VL,一个基于 Qwen-LM 构建的视觉语言模型系列,结合视觉接收器、多模态输入输出接口、三阶段训练流程和多语言多模态语料。通过对齐图像、描述和边界框三元组,Qwen-VL 获得视觉理解、定位和图中文字识别能力,并在多项视觉基准上取得强劲表现。

论文 代码 Hugging Face
2023.04 视觉语言

LLaVA: Visual Instruction Tuning

该论文提出 LLaVA,一个使用机器生成指令微调数据端到端训练的大型多模态模型。它展现出强多模态对话能力,并在 Science QA 上取得当时最优结果。

论文 项目

1 篇论文

多模态推理

2025.03 多模态推理

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

这篇综述弥补了多模态大模型中多模态 Chain-of-Thought 推理缺少最新系统综述的问题,覆盖图像、视频、语音、音频、3D 和结构化数据。它给出基础定义、完整 taxonomy、跨应用方法分析,并总结未来多模态推理研究的开放挑战。

论文 项目

1 篇论文

视觉-语言-动作

2026.04 视觉-语言-动作

Xiaomi OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

OneVL 面向 VLA 自动驾驶中的实时轨迹规划,将 Chain-of-Thought 推理压缩为由语言重建和未来帧预测共同监督的紧凑潜在 token。其三阶段训练流程让潜在推理在保持 answer-only 推理延迟的同时超过显式 CoT。

论文 项目 代码 Hugging Face
  • View source
  • Report an issue