微软推出一个专门用于评估大语言模型的工具库

Heping 12月 26, 2023 1.63k 浏览 0

微软推出了一个专门用于评估大语言模型的整合性工具库：PromptBench

提供了一系列工具，包括创建不同类型的提示、进行数据集和模型加载、执行对抗性提示攻击（即测试模型对恶意输入的抵抗力）等。

以支持研究人员从不同方面对LLMs进行评估和分析。

主要特点和功能：

1、支持多种模型和任务：能够评估多种不同的大语言模型，如GPT-4，以及多种任务，比如情感分析、语法检查等。

2、多种评估方式：提供标准评估、动态评估和语义评估等不同的评估方法，以全面测试模型的性能。

3、提示工程：实现了多种提示工程方法，例如：少量样本的思维链（Few-shot Chain-of-Thought）、情感提示（Emotion Prompt）、专家提示（Expert Prompting）等。

4、对抗性测试：集成了多种对抗性测试方法，用于检测模型对于恶意输入的反应和抵抗力。

5、分析工具：包括用于解释评估结果的分析工具，如可视化分析和词频分析。

6、易于使用：提供了一个界面，允许快速构建模型、加载数据集，并评估模型性能。可以通过简单的命令安装和使用，方便研究人员构建和运行评估管道。

7、支持的数据集和模型：支持多种数据集和模型，包括GLUE、MMLU、SQuAD V2、IWSLT 2017等。

8、支持的模型：

google/flan-t5-large
databricks/dolly-v1-6b
Llama2 series
vicuna-13b, vicuna-13b-v1.3
Cerebras/Cerebras-GPT-13B
EleutherAI/gpt-neox-20b
Google/flan-ul2
PaLM 2
ChatGPT
GPT-4
phi-1.5, phi-2
Gemini Pro

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/55124.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

微软推出一个专门用于评估大语言模型的工具库

文章推荐：

标签