智能体应用

智能体系统、工具调用、记忆、AI 研究工作流和可复用技能生态。

研究分类

智能体系统、工具调用、记忆、AI 研究工作流和可复用技能生态。

13论文

24资源链接

2026.05最新月份

1 篇论文

工具调用

2025.12 工具调用

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

该论文指出当前多模态工具调用推理在简单图像旋转和损坏下仍然脆弱，并提出 CodeVision，一种让模型通过生成代码调用任意图像操作的 code-as-tool 框架。它结合 SFT、RL 和密集过程奖励，提升多工具推理、执行效率和错误恢复。

论文代码

3 篇论文

AI 研究

2026.05 AI 研究

AI for Auto-Research: Roadmap & User Guide

这篇综述从创造、写作、验证和传播等环节分析 AI 辅助科研，指出自动化在哪些地方可靠，以及自治系统在新颖性、实验和科学判断上仍会失败。它提供生命周期分类、基准套件、工具清单、设计原则和面向实践者的人类治理式 AI 研究工作流指南。

论文项目代码

2026.05 AI 研究

Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

该论文提出 Crafter，一个面向多种图类型和输入条件的多智能体科学图生成 harness，并提出 CraftEditor 将栅格输出转换为可编辑 SVG。论文还构建带人工质量标注的 CraftBench 基准，并展示其相较独立生成器和 agentic baseline 的优势。

论文代码 Hugging Face

2026.03 AI 研究

AIRA_2: Overcoming Bottlenecks in AI Research Agents

该论文提出 AIRA_2，一种 AI 研究智能体架构，用于解决实验吞吐有限、基于噪声验证的选择不稳定以及单轮静态算子等瓶颈。它结合异步多 GPU worker、Hidden Consistent Evaluation 和交互式 ReAct 智能体，提升长程研究任务表现。

论文

3 篇论文

智能体技能

2026.05 智能体技能

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

SkillsVote 将 Agent Skills 视为可复用经验资产，通过收集、推荐、归因和演化治理来缓解智能体轨迹噪声与难治理问题。它分析大规模开源技能语料，在执行前推荐结构化技能上下文，并只接纳证据门控的成功发现，以在不更新模型的情况下改进冻结智能体。

论文项目代码

2026.04 智能体技能

From Context to Skills: Can Language Models Learn from Context Skillfully?

Ctx2Skill 面向长且密集上下文中的 context learning，解决人工标注技能成本高、自动构建技能缺少外部反馈的问题。它通过多智能体 self-play 与 Cross-time Replay 自动发现、细化并选择可复用自然语言技能，从而提升不同语言模型的上下文学习解题率。

论文代码 Hugging Face

2026.03 智能体技能

SkillReducer: Optimizing LLM Agent Skills for Token Efficiency

该论文提出 SkillReducer，一个两阶段优化框架，用于压缩 LLM 智能体技能这类预封装指令集。它在提升功能质量 2.8% 的同时，将技能描述和正文分别压缩 48% 和 39%，降低 token 成本与注意力稀释。

论文

2 篇论文

智能体开发

2026.03 智能体开发

Nurture-First Agent Development: Building Domain-Expert AI Agents Through Conversational Knowledge Crystallization

该论文提出 Nurture-First Development，一种通过结构化对话而非固定代码优先或提示优先方式培养领域专家智能体的范式。它形式化了知识结晶循环、三层认知架构、双工作区模式和螺旋开发模型，用于持续把从业者隐性知识转化为可复用智能体资产。

论文

2026.01 智能体开发

Controlled Self-Evolution for Algorithmic Code Optimization

该论文提出 EvoControl，一个面向算法代码优化的受控自进化框架，在 generate-verify-refine 循环中平衡正确性与探索。它结合分阶段自进化、类遗传种群搜索和进化记忆，在高难算法基准上提升代码质量。

论文代码

4 篇论文

记忆

2026.03 记忆

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

该论文提出一个从 LLM 智能体执行轨迹中提取可行动经验，并在未来任务中作为上下文记忆检索的框架。它结合轨迹智能提取、决策归因、上下文学习生成和自适应记忆检索，尤其提升复杂 AppWorld 场景的任务完成率。

论文

2025.10 记忆

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

该论文提出 BEAM，一个由长而连贯对话和探测问题组成的基准，用于评估 LLM 长期记忆；同时提出 LIGHT，一个包含情景记忆、工作记忆和草稿板的记忆框架。二者共同揭示长上下文记忆限制，并提升长程对话推理表现。

论文

2025.08 记忆

MLP Memory: A Retriever-Pretrained Memory for Large Language Models

该论文提出 MLP Memory，一个轻量级参数模块，通过预训练 MLP 模仿 kNN 检索器行为来内化检索模式。该方法在 RAG 与微调之间架起桥梁。

论文

2025.07 记忆

MemAgent: Reshaping Long-Context LLM with Multi-Conv RL-based Memory Agent

该论文提出 MemAgent，一个基于多轮对话 RL 的记忆智能体，用线性复杂度处理无限长文档。它旨在解决外推到超长上下文时性能退化的问题。

论文项目