好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

微软推出一个专门用于评估大语言模型的工具库

微软推出了一个专门用于评估大语言模型的整合性工具库:PromptBench

提供了一系列工具,包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击(即测试模型对恶意输入的抵抗力)等。

以支持研究人员从不同方面对LLMs进行评估和分析。

主要特点和功能:

1、支持多种模型和任务:能够评估多种不同的大语言模型,如GPT-4,以及多种任务,比如情感分析、语法检查等。

2、多种评估方式:提供标准评估、动态评估和语义评估等不同的评估方法,以全面测试模型的性能。

3、提示工程:实现了多种提示工程方法,例如:少量样本的思维链(Few-shot Chain-of-Thought)、情感提示(Emotion Prompt)、专家提示(Expert Prompting)等。

4、对抗性测试:集成了多种对抗性测试方法,用于检测模型对于恶意输入的反应和抵抗力。

5、分析工具:包括用于解释评估结果的分析工具,如可视化分析和词频分析。

6、易于使用:提供了一个界面,允许快速构建模型、加载数据集,并评估模型性能。可以通过简单的命令安装和使用,方便研究人员构建和运行评估管道。

7、支持的数据集和模型:支持多种数据集和模型,包括GLUE、MMLU、SQuAD V2、IWSLT 2017等。

8、支持的模型:

google/flan-t5-large
databricks/dolly-v1-6b
Llama2 series
vicuna-13b, vicuna-13b-v1.3
Cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
Google/flan-ul2
PaLM 2
ChatGPT
GPT-4
phi-1.5, phi-2
Gemini Pro

上一篇:

下一篇:


标签