检验Agent水平的唯一标准是长任务。这个判断,建立在一个简单的事实上:短任务可以靠记忆完成,长任务必须靠理解完成。短任务中,模型只需处理当前输入;长任务中,模型需要保持上下文的连贯性,需要在数百步后还记得最初的意图,需要在遇到异常时自主调整策略。学 ...