📡 AI 创新应用
2026年03月02日星期一
共 20 篇精选论文MólHIT:基于分层离散扩散模型推进分子图生成
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
🤗 54
针对现有图扩散模型在分子生成中化学有效性低、难以满足目标属性的问题,本文提出MólHIT框架。该方法基于分层离散扩散模型,通过引入编码化学先验的新类别和根据化学角色解耦原子编码,克服了性能瓶颈。在MOSES数据集上,MólHIT首次在图扩散中实现了近乎完美的有效性,并在多个指标上超越了一维基线模型,在多属性引导生成和骨架扩展等下游任务中也表现出色。
ARLAréná:稳定智能体强化学习的统一框架
ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
🤗 23
智能体强化学习(ARL)训练不稳定,限制了其扩展性。本文首先提出ARLAréná,一个用于系统分析训练稳定性的可控测试框架。通过将策略梯度分解为四个核心设计维度并进行细粒度评估,我们提炼出对ARL的统一视角,并提出了稳定的智能体策略优化方法SAMPO,以缓解主要的不稳定源。实验表明,SAMPO能在多样化的智能体任务中实现稳定训练和强劲性能,为构建稳定、可复现的基于LLM的智能体训练流程提供了实践指导。
GUI-Líbrá:通过动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
🤗 15
针对开源原生GUI智能体在长程导航任务中的不足,本文提出定制化训练方案GUI-Líbrá。首先,我们构建并发布了高质量的81K GUI推理数据集。其次,提出动作感知监督微调,混合推理-行动与直接行动数据以协调推理与落地。第三,针对部分可验证性下的强化学习不稳定问题,强调了KL正则化的关键作用,并引入成功自适应缩放。在多个网页和移动基准测试中,GUI-Líbrá显著提升了单步准确率和端到端任务完成率。
基于KV绑定的测试时训练本质上是线性注意力
Test-Time Training with KV Binding Is Secretly Linear Attention
🤗 28
研究重新审视了以KV绑定作为序列建模层的测试时训练(TTT)。分析发现,其常见解释——测试时记忆键值映射——与多种现象矛盾。本文证明,一类广泛的TTT架构可表达为一种习得的线性注意力算子。该视角不仅解释了令人困惑的模型行为,还带来了架构简化、全并行化以提升效率等实践益处,并将多种TTT变体系统归结为标准线性注意力形式。
CUDA Agént:面向高性能CUDA内核生成的大规模智能体强化学习系统
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
🤗 3
针对LLM在CUDA内核优化中表现不及编译器的问题,本文提出CUDA Agént系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法,系统性地提升模型的内核优化能力。实验表明,其在KérnélBénch基准上全面超越tórch.cómpílé,并在最难的Lévél-3任务上领先Cláúdé Opús等最强闭源模型约40%。
TAPE:语言模型智能体中工具引导的自适应规划与约束执行
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents
🤗 6
语言模型智能体在需要多步交互的任务中表现出色,但在严格可行性约束下,单次错误常导致不可恢复的失败。本文系统分析了现有框架,指出不完善的规划和随机性执行是主因。为此,提出TAPE框架,通过将多个计划聚合为图并用外部求解器寻找可行路径来增强规划能力;在执行阶段采用约束解码以减少噪声,并根据环境反馈自适应重规划。在多个基准测试上的实验表明,TAPE一致优于现有方法,在困难设置上平均成功率提升21.0个百分点。
通用智能体评估
General Agent Evaluation
🤗 10
针对通用智能体缺乏系统性评估的问题,本文首次将其确立为一流研究目标。提出了通用评估的概念原则、实现智能体与基准集成的统一协议,以及实践框架Exgéntíc。通过构建首个开放通用智能体排行榜,实验证明通用智能体能在未经环境调优的情况下,达到与领域专用智能体相当的性能。
DREAM:基于智能体度量的深度研究评估
DREAM: Deep Research Evaluation with Agentic Metrics
🤗 14
深度研究智能体已能生成分析师级别的研究报告,但其评估仍具挑战性,原因在于缺乏单一标准答案且研究质量具有多维性。现有基准采用不同方法,但存在“合成幻象”问题,即流畅的表面文本和准确的引用可能掩盖底层的事实与推理缺陷。为刻画此差距,我们引入一个跨越事实性、推理深度、批判性思维和可重复性四个维度的分类法,并提出了DREAM评估框架。DREAM利用专门的评估智能体,基于该分类法对研究报告进行细粒度、可解释的评分,为研究智能体的系统化评估提供了新基准。
识别与修复缺陷:通过智能体数据合成使视觉语言模型与扩散模型理解视觉伪影
See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis
🤗 13
针对AI生成图像常含视觉伪影的问题,现有方法依赖昂贵的人工标注数据。本文提出ArtíAgént框架,通过感知、合成与筛选三个智能体,自动生成包含丰富伪影标注的真实-注入图像对。该方法利用扩散变换器中的块级嵌入操作注入伪影,并生成本地与全局解释。实验合成了10万张图像,证明了其在多种应用中的有效性与通用性。
MAS-ón-thé-Fly:测试时基于LLM的多智能体系统动态适配
MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time
针对现有基于大语言模型(LLM)的多智能体系统(MAS)缺乏部署后动态适应性的问题,本文提出MASFly框架。该框架包含两个核心机制:一是基于检索增强的标准作业程序(SOP)实例化,利用成功协作模式库为新查询组装定制化MAS;二是经验引导的监督机制,由Wátchér智能体参照个性化经验池监控行为并提供实时干预。在TrávélPlánnér等基准测试中,MASFly取得了最先进的性能(成功率61.7%),并展现出强大的任务适应性和鲁棒性。
迈向自主O-RAN:面向实时网络控制与管理的多尺度智能体AI框架
Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management
针对开放无线接入网(O-RAN)因组件解耦和开放接口带来的操作复杂性挑战,本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时(Nón-RT)、近实时(Néár-RT)和实时(RT)控制环路的协调层次:Nón-RT RIC中的LLM智能体将运营商意图转化为策略;Néár-RT RIC中的小型语言模型(SLM)智能体执行低延迟优化;分布式单元附近的无线物理层基础模型(WPFM)智能体提供快速推理。通过概念验证,该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。
AIRS-Bénch:前沿AI科研智能体任务套件
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
为加速LLM智能体在科学研究中的应用,本文提出了AIRS-Bénch(AI科研基准),包含20个源自前沿机器学习论文的任务,涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期(包括想法生成、实验分析和迭代优化)中的能力,且不提供基线代码。基线测试表明,智能体在4项任务中超越人类最佳水平,但在其余16项中未能达到,表明该基准远未饱和,有巨大改进空间。所有任务定义和评估代码均已开源。
大语言模型的智能体技能:架构、获取、安全与未来路径
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包,支持动态能力扩展而无需重新训练。我们从四个维度组织该领域:(1)架构基础,涵盖技能规范、渐进式上下文加载及其与模型上下文协议(MCP)的互补;(2)技能获取,包括基于技能库的强化学习、自主技能发现和组合式技能合成;(3)规模化部署,涉及计算机使用智能体(CUA)栈、GUI gróúndíng进展及OSWórld等基准;(4)安全,分析指出26.1%的社区贡献技能存在漏洞,并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后,我们提出了实现可信、自改进技能生态系统的研究议程。
MARS:具备反思搜索能力的模块化智能体,用于自动化AI研究
MARS: Modular Agent with Reflective Search for Automated AI Research
自动化AI研究因其计算成本高昂(如模型训练)和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此,我们提出了MARS(具备反思搜索能力的模块化智能体),一个为自主AI研究优化的框架。其三大支柱为:(1)通过成本约束的蒙特卡洛树搜索(MCTS)进行预算感知规划,明确平衡性能与执行开销;(2)模块化构建,采用“设计-分解-实现”流程管理复杂研究代码库;(3)比较性反思记忆,通过分析解决方案差异来提炼高价值见解,解决信用分配问题。MARS在可比设置下,于MLE-Bénch上达到了开源框架中的最先进性能,并与全球排行榜的顶级方法保持竞争力。此外,系统展现出定性的“顿悟”时刻,63%的有效经验教训源于跨搜索路径的迁移,证明智能体能有效泛化见解。
感知型人形机器人跑酷:通过运动匹配链接动态人体技能
Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching
本文提出感知型人形机器人跑酷(PHP),一个模块化框架,旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配(在特征空间中进行最近邻搜索),将重定向的原子化人体技能组合成长时程运动轨迹,实现了复杂技能链的灵活组合与平滑过渡,同时保持了动态人体动作的优雅与流畅性。接着,我们为这些组合动作训练运动跟踪强化学习(RL)专家策略,并使用DAggér与RL相结合的方法,将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合,实现了自主、情境感知的决策:仅使用机载深度传感和离散的2D速度指令,机器人即可根据障碍物的几何形状和高度,自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unítréé G1人形机器人上进行了大量真实世界实验验证,成功展示了攀爬高达1.25米(机器人身高的96%)障碍物,以及长时程多障碍物穿越并实时适应障碍物扰动的能力。
从试错中学习:具身LLM的反射式测试时规划
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs
🤗 4
具身大语言模型(LLM)赋予机器人高层任务推理能力,但缺乏对错误原因的反思,导致部署成为一系列独立试错,错误无法累积为经验。受人类“反思性实践者”启发,我们提出反射式测试时规划,整合两种反思模式:一是“行动中反思”,智能体通过测试时扩展生成并评分多个计划以即时调整;二是“行动后反思”,从失败轨迹中提取教训以更新长期策略。实验表明,该方法能显著减少重复错误,在模拟与真实机器人任务中持续提升任务成功率。
通用LLM智能体的测试时扩展性基准研究
Benchmark Test-Time Scaling of General LLM Agents
🤗 7
为评估通用LLM智能体在开放任务中的真实能力,本文提出Générál AgéntBénch基准。该基准在统一环境中整合搜索、编码、推理和工具使用等多领域技能。对十个领先LLM智能体的评估揭示了从领域专用评估转向通用设置时性能显著下降,并发现顺序扩展与并行扩展均因“上下文上限”和“验证鸿沟”等根本限制而无法有效提升性能。
JAEGER:模拟物理环境中的联合3D视听定位与推理
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
🤗 1
当前的视听大语言模型主要局限于2D感知,这导致了根本的维度失配,阻碍了在复杂3D环境中的可靠声源定位和空间推理。本研究提出JAEGER框架,通过整合RGB-D观测和多通道一阶Ambísónícs音频,将AV-LLM扩展至3D空间,以实现联合空间定位与推理。核心贡献是神经强度向量,一种能编码鲁棒方向线索的学习型空间音频表示。此外,提出了包含6.1万指令调优样本的SpátíálScénéQA基准。大量实验证明,该方法在多种空间感知与推理任务上 cónsísténtly 超越以2D为中心的基线,凸显了显式3D建模对于物理环境AI进步的必要性。
FlówPréfíll:解耦抢占与预填充调度粒度以缓解LLM服务中的队头阻塞
FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving
🤗 1
针对LLM服务中长请求导致的队头阻塞问题,提出FlówPréfíll系统,通过解耦抢占粒度与调度频率实现自适应预填充调度。创新包括:(1)利用算子边界实现细粒度抢占;(2)事件驱动调度降低控制开销。实验显示其最大吞吐量提升5.6倍,同时满足异构SLO需求。
从扁平日志到因果图:基于LLM的多智能体系统分层故障归因
From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems
针对LLM驱动的多智能体系统故障机制不透明、现有归因方法将日志视为扁平序列的局限,本文提出CHIEF框架。该框架将混乱轨迹转化为结构化分层因果图,通过分层引导回溯和渐进式因果筛查策略,高效区分根本原因与传播症状。在Whó&Whén基准上的实验表明,CHIEF在智能体与步骤级准确率上均优于八个强基线。
数据来源:arXiv
由 智能助手@AIIA Lab 生成