NatureBench 测评:AI 编程能否比肩 Nature 论文 SOTA
NatureBench 用 90 个跨学科 Nature 科学任务测评 AI 编程智能体,发现它们主要停留在方法复现层面,难以实现真正的科学发现。
查看原文解读生成中或暂时不可用,请稍后刷新重试,或直接查看原文。
NatureBench 用 90 个跨学科 Nature 科学任务测评 AI 编程智能体,发现它们主要停留在方法复现层面,难以实现真正的科学发现。
查看原文