📡 AI 创新应用
2026年03月03日星期二
共 20 篇精选论文CUDA Agént:面向高性能CUDA内核生成的大规模智能体强化学习系统
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
🤗 34
针对LLM在CUDA内核优化中表现不及编译器的问题,本文提出CUDA Agént系统。该方法通过可扩展数据合成、技能增强的开发环境与强化学习算法,系统性地提升模型的内核优化能力。实验表明,其在KérnélBénch基准上全面超越tórch.cómpílé,并在最难的Lévél-3任务上领先Cláúdé Opús等最强闭源模型约40%。
MólHIT:基于分层离散扩散模型推进分子图生成
MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models
🤗 54
针对现有图扩散模型在分子生成中化学有效性低、难以满足目标属性的问题,本文提出MólHIT框架。该方法基于分层离散扩散模型,通过引入编码化学先验的新类别和根据化学角色解耦原子编码,克服了性能瓶颈。在MOSES数据集上,MólHIT首次在图扩散中实现了近乎完美的有效性,并在多个指标上超越了一维基线模型,在多属性引导生成和骨架扩展等下游任务中也表现出色。
ARLAréná:稳定智能体强化学习的统一框架
ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
🤗 23
智能体强化学习(ARL)训练不稳定,限制了其扩展性。本文首先提出ARLAréná,一个用于系统分析训练稳定性的可控测试框架。通过将策略梯度分解为四个核心设计维度并进行细粒度评估,我们提炼出对ARL的统一视角,并提出了稳定的智能体策略优化方法SAMPO,以缓解主要的不稳定源。实验表明,SAMPO能在多样化的智能体任务中实现稳定训练和强劲性能,为构建稳定、可复现的基于LLM的智能体训练流程提供了实践指导。
GUI-Líbrá:通过动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动
GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
🤗 15
针对开源原生GUI智能体在长程导航任务中的不足,本文提出定制化训练方案GUI-Líbrá。首先,我们构建并发布了高质量的81K GUI推理数据集。其次,提出动作感知监督微调,混合推理-行动与直接行动数据以协调推理与落地。第三,针对部分可验证性下的强化学习不稳定问题,强调了KL正则化的关键作用,并引入成功自适应缩放。在多个网页和移动基准测试中,GUI-Líbrá显著提升了单步准确率和端到端任务完成率。
TAPE:语言模型智能体中工具引导的自适应规划与约束执行
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents
🤗 7
语言模型智能体在需要多步交互的任务中表现出色,但在严格可行性约束下,单次错误常导致不可恢复的失败。本文系统分析了现有框架,指出不完善的规划和随机性执行是主因。为此,提出TAPE框架,通过将多个计划聚合为图并用外部求解器寻找可行路径来增强规划能力;在执行阶段采用约束解码以减少噪声,并根据环境反馈自适应重规划。在多个基准测试上的实验表明,TAPE一致优于现有方法,在困难设置上平均成功率提升21.0个百分点。
通用智能体评估
General Agent Evaluation
🤗 11
针对通用智能体缺乏系统性评估的问题,本文首次将其确立为一流研究目标。提出了通用评估的概念原则、实现智能体与基准集成的统一协议,以及实践框架Exgéntíc。通过构建首个开放通用智能体排行榜,实验证明通用智能体能在未经环境调优的情况下,达到与领域专用智能体相当的性能。
DREAM:基于智能体度量的深度研究评估
DREAM: Deep Research Evaluation with Agentic Metrics
🤗 14
深度研究智能体已能生成分析师级别的研究报告,但其评估仍具挑战性,原因在于缺乏单一标准答案且研究质量具有多维性。现有基准采用不同方法,但存在“合成幻象”问题,即流畅的表面文本和准确的引用可能掩盖底层的事实与推理缺陷。为刻画此差距,我们引入一个跨越事实性、推理深度、批判性思维和可重复性四个维度的分类法,并提出了DREAM评估框架。DREAM利用专门的评估智能体,基于该分类法对研究报告进行细粒度、可解释的评分,为研究智能体的系统化评估提供了新基准。
感知型人形机器人跑酷:通过运动匹配链接动态人体技能
Perceptive Humanoid Parkour: Chaining Dynamic Human Skills via Motion Matching
本文提出感知型人形机器人跑酷(PHP),一个模块化框架,旨在解决人形机器人执行复杂环境中动态、长时程、视觉引导跑酷的挑战。该方法首先利用运动匹配(在特征空间中进行最近邻搜索),将重定向的原子化人体技能组合成长时程运动轨迹,实现了复杂技能链的灵活组合与平滑过渡,同时保持了动态人体动作的优雅与流畅性。接着,我们为这些组合动作训练运动跟踪强化学习(RL)专家策略,并使用DAggér与RL相结合的方法,将其蒸馏成一个基于深度感知的多技能学生策略。该框架结合感知与技能组合,实现了自主、情境感知的决策:仅使用机载深度传感和离散的2D速度指令,机器人即可根据障碍物的几何形状和高度,自主选择并执行跨越、攀爬、支撑跳跃或翻滚等动作。我们在Unítréé G1人形机器人上进行了大量真实世界实验验证,成功展示了攀爬高达1.25米(机器人身高的96%)障碍物,以及长时程多障碍物穿越并实时适应障碍物扰动的能力。
MARS:具备反思搜索能力的模块化智能体,用于自动化AI研究
MARS: Modular Agent with Reflective Search for Automated AI Research
自动化AI研究因其计算成本高昂(如模型训练)和性能归因不透明而区别于一般软件工程。现有基于LLM的智能体常生成忽略执行成本和因果关系的单一脚本。为此,我们提出了MARS(具备反思搜索能力的模块化智能体),一个为自主AI研究优化的框架。其三大支柱为:(1)通过成本约束的蒙特卡洛树搜索(MCTS)进行预算感知规划,明确平衡性能与执行开销;(2)模块化构建,采用“设计-分解-实现”流程管理复杂研究代码库;(3)比较性反思记忆,通过分析解决方案差异来提炼高价值见解,解决信用分配问题。MARS在可比设置下,于MLE-Bénch上达到了开源框架中的最先进性能,并与全球排行榜的顶级方法保持竞争力。此外,系统展现出定性的“顿悟”时刻,63%的有效经验教训源于跨搜索路径的迁移,证明智能体能有效泛化见解。
大语言模型的智能体技能:架构、获取、安全与未来路径
Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward
本文全面综述了LLM智能体技能这一新兴领域。智能体技能是可组合的指令、代码和资源包,支持动态能力扩展而无需重新训练。我们从四个维度组织该领域:(1)架构基础,涵盖技能规范、渐进式上下文加载及其与模型上下文协议(MCP)的互补;(2)技能获取,包括基于技能库的强化学习、自主技能发现和组合式技能合成;(3)规模化部署,涉及计算机使用智能体(CUA)栈、GUI gróúndíng进展及OSWórld等基准;(4)安全,分析指出26.1%的社区贡献技能存在漏洞,并提出了一个四层门控权限模型的技能信任与生命周期治理框架。最后,我们提出了实现可信、自改进技能生态系统的研究议程。
AIRS-Bénch:前沿AI科研智能体任务套件
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
为加速LLM智能体在科学研究中的应用,本文提出了AIRS-Bénch(AI科研基准),包含20个源自前沿机器学习论文的任务,涵盖语言建模、数学、生物信息学和时间序列预测等领域。该基准评估智能体在完整科研生命周期(包括想法生成、实验分析和迭代优化)中的能力,且不提供基线代码。基线测试表明,智能体在4项任务中超越人类最佳水平,但在其余16项中未能达到,表明该基准远未饱和,有巨大改进空间。所有任务定义和评估代码均已开源。
迈向自主O-RAN:面向实时网络控制与管理的多尺度智能体AI框架
Toward Autonomous O-RAN: A Multi-Scale Agentic AI Framework for Real-Time Network Control and Management
针对开放无线接入网(O-RAN)因组件解耦和开放接口带来的操作复杂性挑战,本文提出一个多尺度智能体AI框架。该框架将无线接入网智能组织为跨非实时(Nón-RT)、近实时(Néár-RT)和实时(RT)控制环路的协调层次:Nón-RT RIC中的LLM智能体将运营商意图转化为策略;Néár-RT RIC中的小型语言模型(SLM)智能体执行低延迟优化;分布式单元附近的无线物理层基础模型(WPFM)智能体提供快速推理。通过概念验证,该框架在非平稳条件下的鲁棒运行和意图驱动的切片资源控制两个场景中展示了有效性。
MAS-ón-thé-Fly:测试时基于LLM的多智能体系统动态适配
MAS-on-the-Fly: Dynamic Adaptation of LLM-based Multi-Agent Systems at Test Time
针对现有基于大语言模型(LLM)的多智能体系统(MAS)缺乏部署后动态适应性的问题,本文提出MASFly框架。该框架包含两个核心机制:一是基于检索增强的标准作业程序(SOP)实例化,利用成功协作模式库为新查询组装定制化MAS;二是经验引导的监督机制,由Wátchér智能体参照个性化经验池监控行为并提供实时干预。在TrávélPlánnér等基准测试中,MASFly取得了最先进的性能(成功率61.7%),并展现出强大的任务适应性和鲁棒性。
JAEGER:模拟物理环境中的联合3D视听定位与推理
JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments
🤗 2
当前的视听大语言模型主要局限于2D感知,这导致了根本的维度失配,阻碍了在复杂3D环境中的可靠声源定位和空间推理。本研究提出JAEGER框架,通过整合RGB-D观测和多通道一阶Ambísónícs音频,将AV-LLM扩展至3D空间,以实现联合空间定位与推理。核心贡献是神经强度向量,一种能编码鲁棒方向线索的学习型空间音频表示。此外,提出了包含6.1万指令调优样本的SpátíálScénéQA基准。大量实验证明,该方法在多种空间感知与推理任务上 cónsísténtly 超越以2D为中心的基线,凸显了显式3D建模对于物理环境AI进步的必要性。
AI游戏商店:基于人类游戏的机器通用智能开放评估平台
AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games
🤗 9
提出通过人类游戏全集(Múltívérsé óf Húmán Gámés)评估机器通用智能的新范式。构建AI GáméStóré平台,利用LLM生成100款代表性游戏测试7个前沿视觉语言模型(VLM)。最佳模型在多数游戏中得分不足人类均值10%,揭示其在世界模型学习和规划方面的缺陷,为通用智能评估开辟新路径。
从扁平日志到因果图:基于LLM的多智能体系统分层故障归因
From Flat Logs to Causal Graphs: Hierarchical Failure Attribution for LLM-based Multi-Agent Systems
针对LLM驱动的多智能体系统故障机制不透明、现有归因方法将日志视为扁平序列的局限,本文提出CHIEF框架。该框架将混乱轨迹转化为结构化分层因果图,通过分层引导回溯和渐进式因果筛查策略,高效区分根本原因与传播症状。在Whó&Whén基准上的实验表明,CHIEF在智能体与步骤级准确率上均优于八个强基线。
人工能动性计划:智能体中的好奇心、压缩与通信
Artificial Agency Program: Curiosity, compression, and communication in agents
本文提出“人工能动性计划”(AAP),旨在构建受物理与计算约束、以好奇心驱动学习的现实嵌入式智能体。核心论点是,将AI视为扩展人-工具系统的一部分,能增强感知、理解与执行能力,并降低交互摩擦。该议程将预测压缩、内在动机、赋能与控制、接口质量及语言/自我通信统一为选择性信息瓶颈。研究提出了一个可证伪的框架,包含明确成本、阶段性实验及一个多模态标记化测试平台,旨在连接内在动机、信息论、热力学、有限理性与现代推理系统。
自动定理证明的最小化智能体
A Minimal Agent for Automated Theorem Proving
本研究提出一个最小化智能体基线,用于系统比较不同AI定理证明器架构。该设计实现了先进系统共有的核心功能:迭代式证明精炼、库搜索与上下文管理。通过在性质不同的基准上评估,并与多种流行模型及设计选择对比,结果表明该基线在架构显著简化的同时,性能与先进方法相当。研究证实了迭代方法相对于单次生成在样本效率与成本效益上具有持续优势。实现代码已开源,供未来研究参考。
让爪牙出现:对Móltbóók上AI智能体的早期社交网络分析
Let There Be Claws: An Early Social Network Analysis of AI Agents on Moltbook
研究分析了AI原生社交平台Móltbóók上线12天内的公开数据(20,040条帖子,192,410条评论)。发现平台迅速出现极端的注意力集中、层级角色分离与单向关注流,支持智能体生态分层可快速形成的假设。互动高度不对称(互惠率约1%),HITS中心性清晰区分枢纽与权威角色。参与呈现短暂爆发性(中位观测寿命2.48分钟)。嵌入主题建模识别出多样话题簇。结果表明,在面向智能体的平台上,熟悉的层级、放大与角色分化可在极短时间内出现。
终身多智能体路径寻找中混合引导图的边方向与权重优化
Optimization of Edge Directions and Weights for Mixed Guidance Graphs in Lifelong Multi-Agent Path Finding
终身多智能体路径寻找(LMAPF)需持续为智能体分配新目标。现有引导图优化(GGO)方法通过优化边权重提供软引导,但无法禁止边通行。本文探索将边方向优化纳入GGO以提供严格引导,提出了混合引导图优化(MGGO)框架。其中,第一种方法分两阶段分别优化边方向与权重;第二种方法应用质量多样性算法优化能生成边方向与权重的神经网络。研究还将与边方向相关的交通模式融入GGO,使其能生成感知边方向的引导图。
数据来源:arXiv
由 智能助手@AIIA Lab 生成