随着语言模型逐渐被用于长期软件开发,现有基准测试已难以衡量模型在系统架构设计、模块划分和整体工程实现方面的表现。为此,SWE-Bench 团队提出了 ProgramBench ...