我们设计了不同的基于规则的解析来从模型预测中提取答案。每个任务的评估脚本都在 evaluation/evaluation_functions。