|
Summaries auto-generated from HuggingFace's Daily Papers using Gemini and GitHub Actions. All credits go to the research and HuggingFace communities. Additionally, summaries are generated by LLM and may contain mistakes. You can see the prompt used here here. |
|
summary:OpenClaw, ClawKeeper, 安全框架, 自主智能体, Watcher 本文提出了ClawKeeper,一个实时安全框架,通过技能、插件和监视器三大互补架构层集成多维度保护机制,为OpenClaw自主智能体提供全面安全防护。该研究旨在解决OpenClaw生态系统中现有安全措施碎片化、无法提供整体保护的问题,这些措施未能有效应对敏感数据泄露、权限提升和恶意第三方技能执行等系统级威胁。ClawKeeper通过指令级的技能保护(注入安全策略)、运行时内置的插件保护(配置强化、威胁检测、行为监控)以及解耦的系统级Watcher保护(持续验证智能体状态演化、实时干预)来实现其防御功能。定性和定量评估显示,ClawKeeper在七项安全任务类别中始终优于现有基线,防御成功率达到85-90%。特别是Watcher范式,通过其解耦架构解决了任务与安全耦合问题,能抵抗对抗性操纵并持续自演化,其防御成功率能从初始化时的约90.0%提升至100个案例后的95.0%。该框架为AI从业者设计和部署下一代自主智能体系统提供了全面、适应性强的安全保障,尤其强调了Watcher作为通用安全构建模块的潜力。
summary:终端代理, 企业自动化, API, 基础模型 本研究旨在评估构建能够自主执行企业任务的代理,提出仅配备终端和文件系统的编码代理通过直接与平台API交互,可以更有效地解决许多企业任务,并证明简单编程接口结合强大的基础模型足以实现实用的企业自动化。该研究旨在解决在有稳定API可用时,是否需要复杂的代理架构(如工具增强型或GUI驱动型代理)来执行企业自动化任务这一核心问题。研究构建并比较了三种代理交互范式:通过浏览器界面操作的GUI驱动型Web代理、通过模型上下文协议(MCP)访问精选API的工具增强型代理,以及仅通过终端和文件系统直接与平台API交互的最小终端编码代理,所有代理均使用相同的大型语言模型骨干并在统一的企业基准上进行评估,以隔离交互范式的影响。实验结果显示,在不同工作流程中,最小终端代理在成功率上与更复杂的代理架构持平或超越,同时保持了竞争性效率;具体而言,终端代理在12种平台-模型组合中的7种上匹配或超越了Web代理的准确性,并且成本始终更低,通常是Web代理的五分之一或更少。这项研究挑战了企业自动化中需要越来越复杂代理堆栈的普遍假设,对于AI从业者而言,其主要启示是,在有稳定且表达性强的API可用时,结合强大的基础模型和简单的编程接口,足以高效且可靠地解决广泛的真实企业任务,从而简化代理架构选择。
summary:Core Keywords: 深度研究智能体, 多模态评估, 基准测试, 过程中心, 事实性验证 MiroEval引入了一个针对深度研究系统的基准和评估框架,旨在解决现有评估在多模态覆盖、研究过程评估和真实用户需求方面的不足,通过自适应合成质量评估、智能事实性验证以及过程中心评估三个互补维度,为下一代深度研究智能体提供全面的诊断工具。 该论文旨在解决现有深度研究系统评估方法未能充分衡量研究过程、多模态能力和真实世界查询复杂性的问题,目标是建立一个更全面、动态且符合实际用户需求的评估标准。 MiroEval构建了一个包含100项(70纯文本,30多模态)基于真实用户需求并通过双路径管道定期更新的任务基准。该评估框架从三个互补维度衡量深度研究系统:即采用任务特定标准的自适应合成质量评估、基于网络和多模态附件的智能事实性验证,以及审计系统研究搜索、推理和完善过程的过程中心评估。 对13个系统的评估揭示了三个主要发现:评估维度捕捉了系统能力的互补方面;过程质量是总体结果的可靠预测因子,同时揭示了输出级别指标无法察觉的弱点;多模态任务提出了更大的挑战,大多数系统得分下降3到10分。其中,MiroThinker系列表现出最均衡的性能,MiroThinker-H1在两种设置中均排名最高。 MiroEval为AI从业者提供了一个全面的诊断工具,通过识别深度研究系统在多模态理解、研究过程效率和事实性验证方面的具体优势与劣势,指导下一代深度研究智能体的技术开发和优化方向,特别是在提升多模态任务处理能力和过程可追溯性方面。
summary:AIGC模型, 视觉推理, 评估基准, ViGoR-Bench, 生成过程 本文针对现代AIGC模型在视觉推理任务中存在的“逻辑荒漠”问题,提出了ViGoR(视觉-生成推理中心基准)统一框架,旨在通过评估生成过程和最终结果来揭示模型真实的推理能力,而非仅依赖表面视觉保真度。该研究旨在解决现有AIGC模型在物理、因果及复杂空间推理任务中的失败,并纠正当前评估过度依赖表面指标和碎片化基准,从而忽视生成过程而造成的“性能海市蜃楼”。ViGoR基准通过四项创新实现其目标:1) 涵盖图像到图像和视频任务的整体跨模态覆盖;2) 评估中间过程和最终结果的双轨机制;3) 确保高人类对齐度的证据驱动自动化判官;以及 4) 将性能分解为精细认知维度的粒度诊断分析。对超过20个主流模型的广泛实验表明,即使是现有最先进的系统也存在显著的推理缺陷,这确立了ViGoR作为下一代智能视觉模型关键“压力测试”的地位。对于AI从业者,ViGoR-Bench提供了一个严格的评估框架,以识别和解决视觉生成模型中的深层推理能力不足,从而推动开发更可靠、更具智能的视觉基础模型。
summary:视觉网站开发, 分层基准, 智能编码代理, 代理验证, 多模态大模型 本研究为解决复杂端到端网站开发中编码代理评估不足的问题,引入了Vision2Web,一个涵盖从静态UI到全栈开发的分层视觉网站开发基准,并采用基于GUI代理验证器和VLM判断器的基于工作流的代理验证范式,旨在全面评估多模态编码代理能力并揭示其局限性。 该研究旨在解决现有编码代理评估基准在复杂、端到端网站开发方面范围和严谨性有限的问题。 Vision2Web是一个分层基准,涵盖静态UI生成、交互式多页面前端复现和长周期全栈网站开发,共包含193项任务、918张原型图像和1,255个测试用例;评估采用基于工作流的代理验证范式,结合GUI代理验证器和VLM判断器以确保灵活、彻底和可靠的评估。 评估结果揭示了在所有任务级别上都存在显著的性能差距,表明最先进的多模态模型在全栈开发任务上仍面临挑战。 这些发现为AI从业者提供了对当前编码代理在复杂网站开发中跨模态推理、长周期任务规划和多页面协调能力方面的系统性诊断,为未来提升代理的软件开发性能奠定了基础。
summary:核心关键词: 时间序列预测基准, 状态平衡, 上下文长度交叉, 可预测性, 参数效率 该论文介绍了QuitoBench,一个基于支付宝应用流量的亿级时间序列语料库Quito构建的状态平衡基准测试,旨在解决高质量大规模基准测试稀缺问题,并实现可复现、状态感知的模型评估。该研究明确了时间序列预测领域面临的基准测试不足挑战,旨在提供一个涵盖八种趋势×季节性×可预测性(TSF)状态的统一评估框架。其核心方法是利用Alipay的实际应用流量数据构建数据集,通过基于固有统计属性的TSF状态分类和密集滚动窗口评估,确保评估的无泄漏和区域平衡。基准测试结果发现,深度学习模型在短上下文(L=96)下表现更优,而基础模型在长上下文(L≥576)下占据主导地位;可预测性是主要的难度驱动因素,导致各状态间平均绝对误差(MAE)差距达3.64倍;深度学习模型以少59倍的参数量可匹配甚至超越基础模型;并且,增加训练数据量对两类模型家族的效益远大于增加模型大小。对于AI从业者而言,这些发现提供了明确的模型选择指导:在短上下文或资源受限场景下,紧凑型深度学习模型更有效;而在长历史和强季节性序列场景下,基础模型更具优势,同时强调数据规模而非模型大小是提升性能的关键。
summary:大型语言模型, 推理鲁棒性, 上下文管理, 推理轨迹压缩, 自我验证 该研究通过在三种不同上下文条件下系统评估多种推理模型,发现大型语言模型在非隔离上下文环境中倾向于生成更短的推理轨迹,且其自我验证和不确定性管理行为有所下降,从而探讨了LLM推理行为的鲁棒性及其上下文管理问题。 该研究旨在探讨大型语言模型(LLMs)在不同上下文条件下,其推理行为(如扩展推理轨迹和自我验证)的鲁棒性如何变化,特别是当模型面临包含无关数据的孤立子问题时,其解决方式是否与隔离情况相似。 研究通过对多种推理模型进行系统性评估,设置了三种实验场景:1) 增加冗长无关上下文的问题;2) 包含独立任务的多轮对话设置;3) 作为复杂任务子问题呈现的问题。通过对比模型在这些条件与问题独立呈现时的推理行为,并进行更细粒度的分析,探究推理轨迹的压缩与自我验证及不确定性管理行为的关联。 研究发现,在非隔离上下文条件下,LLM生成的推理轨迹显著缩短,对于相同问题,轨迹长度最多可缩短50%。这种轨迹压缩与模型自我验证和不确定性管理行为(例如重复检查)的减少相关联。尽管这种行为转变对简单问题性能无影响,但可能影响更具挑战性任务的性能。 这些发现提示AI从业者需关注LLM推理模型的鲁棒性,特别是在长上下文或多任务环境中,上下文可能静默地改变模型的推理深度和策略。在设计LLM系统和代理时,应重点考虑有效的上下文管理机制,以确保复杂推理任务的性能和可靠性,尤其是在需要批判性自我反思和不确定性处理的场景。
summary:核心关键词:多模态文件管理, 上下文智能体, 基准测试, 用户画像, 多步推理 HippoCamp引入了一个新的基准测试,旨在评估智能体在多模态文件管理方面的能力,通过构建大规模个人文件系统和QA任务来测试智能体的搜索、证据感知和多步推理能力,以期为开发下一代个人AI助手奠定坚实基础。 该研究旨在评估和基准化AI智能体在用户中心、多模态文件管理环境中的上下文感知推理能力。 HippoCamp通过构建包含42.4 GB数据和超过2K真实文件的设备级文件系统来模拟真实世界的用户环境,并设计了581个QA对以及46.1K个密集标注的结构化轨迹,用于评估智能体的搜索、证据感知和多步推理能力,并促进分阶段故障诊断。 综合实验结果显示,当前最先进的商业模型在用户画像任务上仅达到48.3%的准确率,尤其在处理密集个人文件系统内的长距离检索和跨模态推理时表现不佳。分阶段故障诊断进一步指出多模态感知和证据接地是主要瓶颈。 HippoCamp揭示了当前AI智能体在真实用户中心环境中的关键局限性,对AI从业者而言,其主要价值在于明确了未来个人AI助手开发需重点攻克多模态感知、证据接地、长距离检索及跨模态推理等核心技术挑战。
summary:Core Keywords: 语言模型, 逆向缩放, 冗余度, 提示工程, 性能层级 该研究通过对31个语言模型进行系统评估和因果干预实验,发现并解决了大型语言模型在部分基准问题上表现劣于小型模型的逆向缩放现象,揭示了其根本机制是自发性的规模依赖冗余度,并证明了通过限制输出简洁性可以显著提升大型模型的性能,从而反转原有的性能层级。 该论文旨在识别并解释大型语言模型在标准评估协议下,对特定基准问题表现劣于小型语言模型的反直觉现象(逆向缩放),并探究其根本原因与解决方案。 研究方法包括对31个参数量从0.5B到405B的语言模型进行系统评估,涵盖五个基准数据集上的1,485个问题,以识别逆向缩放问题。通过因果干预实验,对大型模型实施简洁性限制(如50字以内或仅提供最终答案),以测试冗余度与性能下降的因果关系。此外,还进行了三项独立的污染测试,以验证发现并非数据记忆所致。 实验发现,在7.7%的基准问题上,大型语言模型的性能比小型模型低28.4个百分点。通过限制大型模型生成简洁响应,准确率提高了26个百分点,性能差距缩小了三分之二。在数学推理和科学知识基准上,简洁性约束完全反转了性能层级,大型模型比小型模型高出7.7-15.9个百分点。 研究结果对AI从业者意味着,为了最大化大型语言模型的性能,需要采用规模感知的提示工程而非通用评估协议,因为通用提示掩盖了大型模型的潜在能力;通过适应性提示可同时提高准确性并降低计算成本。
summary:Core Keywords: Autoregressive Generation, 3D Gaussian Splatting, Scene Synthesis, Transformer, Vector Quantization GaussianGPT提出了一种基于Transformer的完全自回归方法,通过下一token预测直接生成3D高斯,从而实现完整的3D场景生成,其核心在于将高斯基元压缩为离散潜在网格,并使用带有3D旋转位置嵌入的因果Transformer进行建模。 该论文旨在探索一种完全自回归的替代方案,以解决当前3D生成模型依赖扩散或流匹配方法而缺乏增量场景构建灵活性的问题,从而实现可控且上下文感知的3D场景生成。 GaussianGPT的核心方法首先通过一个带有向量量化的稀疏3D卷积自编码器将3D高斯基元压缩成离散潜在网格。随后,将这些离散token序列化,并使用一个带有3D旋转位置嵌入的因果Transformer进行建模,以实现通过下一token预测进行自回归生成。 在PhotoShape Chairs数据集上进行无条件椅子生成时,GaussianGPT模型在FID、KID和COV指标上优于现有方法,分别达到5.68、1.835和67.40,同时在MMD上保持竞争力。模型还能够实现无条件场景生成、场景补全和大规模场景外绘制。 这项工作为AI从业者提供了一个可控且上下文感知的3D生成新范式,通过将3D场景视为结构化token序列,为增量构建、场景补全和大规模场景合成等任务带来了新的可能性和架构上的灵活性。
summary:PerceptionComp, 视频基准, 感知推理, 长时序理解, 多模态大模型 PerceptionComp是一个专为复杂、长时序、以感知为中心的视频推理而设计的手动标注基准,通过要求模型整合来自多个时间分离片段的视觉证据并满足组合约束来衡量多模态测试时思考能力,旨在识别感知推理瓶颈并推动该领域发展。 该研究旨在解决现有视频基准无法充分衡量依赖重复感知的长时序、以感知为中心的复杂视频推理能力的问题。 PerceptionComp通过手动标注1,114个五选一问题,这些问题分布在279个高场景复杂度的视频上,设计为单一时刻不足以提供答案,要求模型在组合约束(联结和序列逻辑)下,整合来自多个时间分离片段的视觉证据,并涵盖语义识别、视觉对应、时间推理和空间推理等感知技能。 人类研究表明,PerceptionComp问题需要更长的响应时间,且在单次观看(不可重看)设置下,人类准确率降至接近随机水平(18.97%)。最新的多模态大语言模型(MLLMs)在该基准上表现显著较差,最佳模型Gemini-3-Flash仅达到45.96%的准确率,开源模型则低于40%。 这些结果表明,以感知为中心的长时序视频推理是当前多模态大模型的一个主要瓶颈,PerceptionComp基准为AI从业者提供了一个诊断这些限制并推动多模态视觉思维进步的聚焦测试平台。
summary:自蒸馏, 代码生成, 大语言模型, 精度-探索冲突, LiveCodeBench 该论文研究了LLM能否仅利用自身原始输出提升代码生成能力,提出简单自蒸馏(SSD)方法,通过采样和微调重塑token分布以解决精度-探索冲突,从而显著改善性能。 该研究旨在解决大语言模型能否仅利用自身原始输出,在不依赖验证器、教师模型或强化学习的情况下,提升代码生成能力的问题。 核心方法是简单自蒸馏(SSD),即首先从基础模型中以特定温度和截断配置采样解决方案,然后通过标准的监督式微调(SFT)对这些原始、未经验证的样本进行训练。SSD通过上下文相关地重塑token分布,在需要精度时抑制分散的尾部,同时在需要探索时保持有用的多样性。 SSD显著提升了代码生成性能,例如将Qwen3-30B-Instruct模型在LiveCodeBench v6上的pass@1指标从42.4%提升至55.3%,性能提升主要集中在更困难的问题上,并且该方法对Qwen和Llama系列模型(4B、8B、30B规模)均具有泛化能力。 对于AI从业者而言,SSD提供了一种无需外部标签数据、奖励模型、验证器或代码执行环境的、具有成本效益的LLM代码生成后训练改进方向,表明现有模型具备的潜在能力可通过简单的自蒸馏技术激活,尤其在处理复杂代码问题时。
summary:Universal YOCO, 深度扩展, 高效推理, KV缓存, 递归计算 YOCO-U结合了YOCO编解码器架构与递归计算,通过参数共享在浅层高效注意力层进行多迭代计算,实现了在保持高效推理的同时,提升大语言模型深度扩展能力和能力效率权衡。 该研究旨在解决标准Transformer模型在推理时计算扩展效率低下、计算开销高以及KV缓存随模型深度线性膨胀的问题,以实现大语言模型(LLMs)的高效深度扩展。 YOCO-U继承了YOCO的编解码器架构,并用一个Universal Self-Decoder替代了非递归的Self-Decoder。该Universal Self-Decoder通过参数共享,在浅层、高效注意力层(如滑动窗口注意力)内进行多迭代递归计算以精炼表示。Cross-Decoder则通过交叉注意力复用Self-Decoder生成的紧凑且恒定的全局KV缓存进行自回归令牌预测,从而在有限开销下增强表示深度。 实证结果显示,在相同FLOPs预算下,YOCO-U的语言建模损失比非递归YOCO基线降低了0.033,并且在多项数学基准测试中的平均准确率提高了24.4%。此外,YOCO-U的预填充吞吐量比标准Transformer提高了10倍,同时KV缓存占用随模型深度保持恒定且开销可忽略。 YOCO-U为AI工程师和研究人员提供了一种在不显著增加KV缓存和计算开销的情况下,有效提升LLM模型深度和推理效率的新范式,为构建更具能力且成本效益的大规模语言模型指明了方向。
summary:AI生成论文, 评估框架, 幻觉, 表达质量, 编码智能体 本文引入了论文重建评估 (PaperRecon) 这一系统性框架,通过将现有论文压缩为概述供智能体重建,并与原始论文进行比较,以量化AI生成论文在表达质量和幻觉方面的优劣与风险,从而为AI驱动的科研写作建立评估基础。 该论文旨在解决AI生成论文质量与潜在风险评估的不足,以及对其可靠性缺乏统一理解的问题,通过建立AI驱动科研写作的评估框架并增进对相关风险的认识。 核心方法是论文重建评估 (PaperRecon) 框架,它首先从现有论文中创建一份概述文件(overview.md),然后编码智能体依据此概述和最少量的附加资源重建完整论文。重建后的论文将与原始论文进行比较,评估分为表达质量(使用量规评估)和幻觉(基于原始论文源的智能体评估)两个正交维度。 实验揭示了ClaudeCode和Codex之间的明显权衡,两者均随模型进步而改进。具体而言,ClaudeCode在表达质量上更高,但平均每篇论文产生超过10个幻觉;而Codex的幻觉数量较少(平均每篇论文约3个),但表达质量较低。 这些发现为建立AI驱动科研写作的评估框架迈出了第一步,并揭示了当前编码智能体在表达质量和幻觉之间的权衡。这对于开发或部署AI写作工具的AI/ML/软件工程师及数据科学家而言至关重要,有助于他们在平衡性能的同时,有效规避事实性错误带来的风险。
summary:主动智能体, 用户模拟, 有限状态机, PARE, PARE-Bench 该论文提出了主动智能体研究环境(PARE),一个通过将应用建模为具有状态导航和状态依赖动作空间的有限状态机,以实现活跃用户模拟,来构建和评估主动智能体的新框架。 该研究旨在解决现有主动智能体开发中,缺乏能够捕获数字环境中用户交互的状态性和序列性特征的真实用户模拟框架的问题。 核心方法是PARE框架,它通过将应用程序建模为有限状态机(FSM),为用户模拟器提供状态导航和状态依赖的动作空间,实现了活跃的用户模拟;并在此基础上,引入了包含143个多样化任务的PARE-Bench基准,以评估主动智能体的上下文观察、目标推断、干预时机和多应用编排能力。 论文介绍了PARE-Bench基准,该基准包含143个跨通信、生产力、日程安排和生活方式应用领域的不同任务。摘要中未提供具体的模型实验结果或性能数据。 PARE框架通过提供一个能够模拟真实用户交互行为的环境和包含143个任务的基准,为AI从业者提供了一个更准确地构建、评估和优化主动智能体(特别是在上下文理解、目标推断和多应用协调方面)的工具。
summary:3D视觉定位, 视觉语言模型, 零样本, 智能体框架, 语义锚定几何扩展 本文提出了“Think, Act, Build (TAB)”智能体框架,将零样本3D视觉定位任务重新定义为基于原始RGB-D流的生成式2D到3D重建范式,通过解耦2D视觉语言模型处理复杂空间语义和确定性多视角几何实例化3D结构,显著超越了现有零样本和全监督基线。 该论文旨在解决现有零样本3D视觉定位方法过度依赖预处理3D点云(退化为提议匹配)以及2D语义匹配脆弱的问题,这些问题限制了其在真实世界场景中的部署和鲁棒性。作者提出了“Think, Act, Build (TAB)”动态智能体框架,该框架将3D-VG任务重构为直接在原始RGB-D流上操作的生成式2D到3D重建范式。该框架利用2D视觉语言模型处理复杂空间语义,同时依赖确定性多视角几何来实例化3D结构,并引入了语义锚定几何扩展机制,通过将目标锚定在参考视频片段中,并通过多视角几何将其空间位置传播到未观测帧,以克服严格视觉语言模型语义跟踪引起的多视角覆盖不足。在ScanRefer和Nr3D基准测试中,TAB框架在不依赖预处理3D点云的情况下,ScanRefer上的总体Acc@0.25达到71.2%,Acc@0.5达到46.4%,在Nr3D上的总体准确率达到68.0%,显著优于现有零样本方法,甚至超越了全监督基线。对于AI从业者而言,该框架提供了一种从原始视频流中进行鲁棒且精确的3D对象定位的新范式,无需依赖预处理的3D数据或脆弱的语义跟踪,这对于开发更强大的具身AI导航和增强/虚拟现实应用具有重要意义。
summary:核心关键词: 推荐系统, 缩放定律, UniMixer, 特征混合, 参数化 本文提出了一种统一的推荐系统缩放架构UniMixer,通过将基于规则的TokenMixer转换为等效的参数化结构并设计轻量级UniMixing-Lite模块,以提升缩放效率、统一主流缩放块并显著提高模型性能。 本文旨在提出一种统一的推荐系统缩放架构UniMixer,以提高模型的缩放效率,并建立一个统一主流缩放块的理论框架。 UniMixer通过将基于规则的TokenMixer转换为等效的参数化结构,构建了广义的参数化特征混合模块,使其Token混合模式可优化学习,并消除了TokenMixer中头数必须等于Token数的限制。为进一步提升缩放投资回报率,还设计了轻量级UniMixing-Lite模块,以压缩模型参数和计算成本,并统一了注意力、TokenMixer和因子分解机等主流缩放块的连接。 实验结果显示,UniMixer-Lite在参数和FLOPs方面均实现了最佳缩放效率,并在线A/B测试中使D1-D30累计活跃天数平均增长超过15%。 UniMixer为AI从业者提供了一个统一的推荐系统缩放模块设计框架,它整合并优化了现有主流架构的优势,能够指导推荐系统的扩展性设计,从而实现更高效、高性能的模型部署,并有望加速推荐系统领域的发展。
summary:手机使用代理, 隐私评估, MYPHONEBENCH, 数据最小化, 前沿模型 本研究引入可验证的评估框架MYPHONEBENCH,通过iMy隐私合同、仪表化模拟应用和基于规则的审计,量化并观察手机使用代理在执行良性移动任务时的隐私行为,以解决现有评估方法无法衡量代理隐私合规性问题。 该研究旨在解决手机使用代理在执行良性移动任务时是否尊重用户隐私的问题,尤其关注在现有评估框架下隐私合规行为难以操作化和观测的问题。 核心方法是构建了MYPHONEBENCH可验证评估框架,通过iMy隐私合同将隐私合规操作化为权限访问、最小披露和用户控制内存;同时结合仪表化的模拟应用和基于规则的审计,使不必要的权限请求、欺骗性再披露和不必要的表单填写可观测和可复现。 在对五个前沿模型、10个移动应用和300个任务的评估中发现,任务成功、隐私合规任务完成和跨会话偏好使用是不同的能力,且没有单一模型能在这三方面都表现最优;例如,Claude Opus 4.6在任务成功率(82.8%)上领先,而Kimi K2.5在平均隐私得分(77.3%)上表现最好。模型最普遍的失败模式是数据最小化不足,即代理仍会填写任务不需要的可选个人信息。 这些发现表明,隐私问题源于代理在良性任务执行中“过度帮助”的行为,且仅以任务成功为指标的评估会过高估计当前手机使用代理的部署就绪度,提示AI从业者在开发和部署此类代理时必须纳入隐私感知评估,以确保数据处理的责任性。
summary:策略蒸馏 (On-Policy Distillation), 大型语言模型 (Large Language Models), 知识蒸馏 (Knowledge Distillation), 暴露偏差 (Exposure Bias), f-散度框架 (f-divergence framework) 本调查综述首次全面概述了大型语言模型的策略蒸馏 (OPD) 机制,其核心方法是让学生模型生成自身轨迹并接收教师反馈,基于交互式模仿学习理论和统一的 f-散度框架,以解决离策略蒸馏中的训练-测试不匹配和预测误差累积问题。该论文旨在解决传统大型语言模型离策略知识蒸馏中存在的训练-测试不匹配(暴露偏差)问题,该问题导致推理时预测误差自动累积。该调查引入了一个基于策略样本的统一 f-散度框架,并从反馈信号(基于logits、基于结果或自博弈)、教师访问权限(白盒、黑盒或无教师)和损失粒度(token级、序列级或混合)三个正交维度组织了策略蒸馏方法。本调查对代表性方法、工业部署进行了系统分析,并识别了包括蒸馏缩放定律、不确定性感知反馈和智能体级蒸馏在内的开放问题。抽象中未提供具体量化实验结论。该调查为AI工程师和研究人员提供了策略蒸馏的统一理论基础和分类框架,有助于他们理解并选择适用于大型语言模型部署场景的蒸馏策略,尤其是在处理暴露偏差和优化蒸馏效率方面。
summary:核心关键词: 视觉语言模型, PixelPrune, 预测编码, 视觉令牌缩减, 计算效率 1-句核心摘要: 本文提出PixelPrune,一种利用预测编码通过在Vision Transformer (ViT)编码器前裁剪冗余图像块来应对视觉语言模型高分辨率输入计算负担的方法,该方法在像素空间操作,无需训练或学习参数,支持无损或有损压缩,并能加速完整推理流水线和训练,同时保持竞争性任务准确度。 主要研究问题或目标: 该研究旨在解决视觉语言模型(VLMs)在处理高分辨率文档理解和GUI交互时因视觉令牌数量庞大而导致的计算负担过重问题,特别关注图像中像素级冗余的有效利用。 关键方法: PixelPrune利用预测编码方法,通过扫描图像块并基于其因果空间邻居进行预测,若图像块与其预测在阈值(τ)内匹配,则将其视为冗余并裁剪,此过程在ViT编码器之前于像素空间执行,无需学习参数且训练无关,支持像素无损(τ=0)和可控有损(τ>0)压缩。 主要结果: 实验结果表明,PixelPrune在三个模型规模和文档与GUI基准测试上保持了竞争性的任务准确度,同时实现了高达4.2倍的推理加速和1.9倍的训练加速。 对AI从业者的主要启示: 对于AI从业者而言,PixelPrune提供了一种无需额外训练或学习参数即可显著降低VLM计算成本的有效手段,特别适用于高分辨率文档和GUI场景,从而能实现更高效的模型部署和更快速的开发迭代,尤其在处理大量重复像素区域时具有显著优势。
summary:LLM 智能体, 用户中断, 长周期网络导航, InterruptBench, 性能评估 本文首次系统研究了长周期、环境受限的网络导航任务中可中断大型语言模型(LLM)智能体的能力,并引入了InterruptBench基准,评估了六个LLM骨干模型在适应用户中断方面的有效性和效率,发现LLM在处理此类任务时仍面临挑战。该研究旨在解决现有基准假设智能体行为不中断,或仅在短周期、无约束语言任务中研究中断,从而无法全面评估长周期网络导航任务中可中断智能体能力的不足。为此,研究者形式化了添加、修改和撤回三种真实中断类型,并基于WebArena-Lite构建了InterruptBench基准,通过统一的中断模拟框架评估LLM智能体在单轮和多轮中断设置下的表现。实验结果显示,在添加中断场景中,Claude Opus-4.5在k=30时成功率达到约55%,优于其他模型,但处理用户中断的有效性和效率仍具挑战。这项研究对AI从业者的启示是,开发可靠的可中断智能体需要加强状态跟踪、意图协调和执行过程中的错误恢复机制,以应对动态、长周期应用中的用户中断。