百度搭子DuMate一天连登PinchBench与DeepResearch双榜首成全球最能打的龙虾

2026-07-16 08:15:50 综合

荆楚网（湖北日报网）讯（通讯员杜轩）5月8日凌晨，百度百度搭子DuMate登顶智能体评测基准PinchBench榜首，搭D打并在前5位中占据3席，连登龙虾超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中，全球DuMate同样位列第一。百度

PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力，双榜首成并从成功率、全球速度、百度成本三个维度综合排名。搭D打榜单显示，连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照，全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着，同一模型在DuMate框架中，展现出更强的执行力。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

超越原生表现的技术基础，是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断，隐私相关操作留在本地执行，复杂推理任务上云完成，无需用户手动切换。同时，系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为，预判并注入必要的背景信息，减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代，使得不同底层模型都能在接近其能力上限的状态下稳定运行。

DeepResearch Bench是当前对深度研究型Agent最全面的评测基准，从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一，支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位，后者在此基础上叠加多轮推理与因果分析，将碎片信息提炼为结构化研究成果。

百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图

自2026年3月上线以来，DuMate保持一天一版的更新节奏，已通过信通院两项安全测评且均获最高等级。

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首成全球最能打的龙虾

最近关注

追梦人｜在“三江两极”当警察的年轻人

美国一客机起飞时撞上行人，已致1死12伤

事关新兴领域、百姓生活一批重要国家标准发布

七旬老人外出迷路警民联手暖心救助

彭措泽加的技能致富与传承之路

友情链接

雄安新区大学城疏解配套二期项目加紧建设

国安部：某手机芯片厂漏洞被不法分子利用

中国铁路、成都交投、川航等企业招人啦

当年帅出圈的童星阿尔法长大了，27岁出演“油腻大叔”被嘲长歪，本人回应：为角色增重40斤，增肥容易减肥难，愿大家多些宽容

赵心童荣获WST年度最佳球员、媒体评选最佳球员，吴宜泽荣获球迷票选最佳球员

世乒赛四强出炉！

陕西蒲城法院：雷霆出击护营商利剑执行促发展

双员值守，智护电网：国网浙江电力以“酷德+洛格”打造信息系统主动式运维体系

伊方回应“因储油罐已满而将石油排入海中”

受贿数额特别巨大江西省政协原党组成员、副主席胡幼桃被提起公诉

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾

最近关注

友情链接

百度搭子DuMate一天连登PinchBench与DeepResearch双榜首成全球最能打的龙虾