Python Function Arguments

Benchmarking Legal Knowledge of Large Language Models

我们设计了不同的基于规则的解析来从模型预测中提取答案。每个任务的评估脚本都在 evaluation/evaluation_functions。

一些您可能无法访问的结果已被隐去。