Python Task - 搜索 News

从 Harness 工程到 Loop 工程落地实践

很多人可能会焦虑：Harness 工程还没学完，Loop 工程怎么又来了？它们之间到底是什么关系？企业又该如何落地？我们就来彻底拆解：从 Harness 工程到 Loop 工程的落地实践蓝图。大家好，我是玄姐。在过去的一年里，大模型行业流行着一句话：“大模型负责貌美 ...

Tencent News

国产万亿级模型技术报告公开！蚂蚁这样攻克能力成本延迟“不可能 ...

智东西（公众号：zhidxcom）编译 | 杨京丽编辑 | 李水青智东西6月16日消息，今天，蚂蚁百灵团队发布Ling-2.6-flash、Ling-2.6-1T 和 Ring-2.6-1T三款模型的Ling & Ring ...

Tencent News

东京大学与理化学研究所联手揭秘：你的AI编程助手，有没有在 ...

这项由东京大学与理化学研究所（RIKEN）联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.07379。研究团队提出了名为CapCode与CapReward的两套框架，专门用于检测和防止AI编程智能体在评测中弄虚作假。

2 天

当AI Agent开始工作，安全该如何跟上？AgentDoG 1.5开源发布

最近，同事.skill（colleague.skill）在社区中的快速传播，让很多人开始直观地感受到：AI Agent 正在从「聊天助手」走向「工作伙伴」。 Agent ...

3 天

把真实GitHub仓库转化为可执行终端轨迹！TerminalTraj入选ICML 2026

一个面向终端智能体的大规模轨迹生成管道（pipeline）。 TerminalTraj从真实GitHub仓库出发，自动构建Docker化的可执行环境（Dockerized execution environments），生成与环境对齐的终端相关的任务（terminal tasks），并通过可执行的检验代码（executable validation code）验证Agent是否真正完成任务。

Top168

国产 Coding 争霸赛：MiniMax 爆冷登顶，DeepSeek 性价比称王

你很难把 Coding 仅仅视为大模型的诸多能力维度之一。和单纯的文本或图像生成相比，代码更明确的规则、严格的语法和可验证的结果只是部分原因。更为特殊之处在于，在 ChatBot 到 Agent 这条进化链上，Coding 意味着的工具调用、数据处理和复杂流程自动化，几乎承载了模型从“会说”走向“能干”的绝大部分期待。一个值得关注的变化是，Coding 正在从眼花缭乱的 Benchmark 榜 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果