← 返回资讯
大模型 HuggingFace Daily Papers 2026-06-30

SWE-Together:交互式用户会话中的编程智能体评估

SWE-Together:交互式用户会话中的编程智能体评估

SWE-Together 是一个多轮编程基准测试,基于真实用户与智能体交互创建,包含反应式 LLM 模拟器,可根据最终正确性和交互效率评估智能体。

查看原文
解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。