一个基于大语言模型(LLM)的先进学术论文搜索代理平台
PaSa 是一个由大语言模型驱动的学术论文搜索代理,能够自主决策并获取准确的学术论文搜索结果。它通过调用搜索工具、阅读论文并筛选相关参考文献,为用户提供复杂学术查询的全面结果。由字节跳动开发,基于强化学习优化,使用合成数据集(AutoScholarQuery)进行训练,并在真实世界查询数据集(RealScholarQuery)上表现出色。
核心技术
- 大语言模型(LLM):PaSa 基于大语言模型(如 GPT-4)构建,具备强大的自然语言处理和推理能力。
- 强化学习:通过强化学习优化搜索和筛选过程,显著提升了召回率和精准率。
- 工具调用:PaSa 能够自主调用外部工具(如 Google Search API、ArXiv API)获取实时数据,扩展其知识范围。
- 多代理架构:PaSa 系统由两个核心代理组成:
- Crawler:处理用户查询,调用搜索工具并扩展引用。
- Selector:阅读论文并评估其与用户查询的相关性。
主要特点
- 高召回率与精准率:PaSa 在真实世界查询数据集(RealScholarQuery)上的表现显著优于传统搜索引擎(如 Google Scholar)和基于 GPT-4 的方法。
- 自主决策:能够自主规划搜索策略、筛选论文并生成最终结果,减少用户干预。
- 多轮推理:支持复杂的多轮推理框架(如 ReAct、Chain-of-Thought),确保搜索结果的高质量。
- 实时数据获取:通过与外部工具(如 Google Search API)的集成,PaSa 能够获取最新的学术论文和相关信息。
应用场景
- 学术研究:为研究人员提供高效的论文搜索和参考文献筛选服务。
- 教育领域:帮助学生和教师快速找到相关学术资源。
- 企业研发:支持企业研发团队获取最新的技术文献和行业动态。
性能表现
- 数据集:
- AutoScholarQuery:包含 35,000 条细粒度的学术查询和相关论文,用于训练和优化 PaSa。
- RealScholarQuery:包含 50 条真实世界的学术查询,用于评估 PaSa 在实际场景中的表现。
- 性能对比:
- PaSa-7B 在召回率(Recall@20、Recall@50)和精准率(Precision)上显著优于 Google Scholar 和 GPT-4 驱动的搜索方法。
如何使用
- 访问网站:用户可以直接访问 https://pasa-agent.ai,输入学术查询,PaSa 将自动生成搜索结果。
- API 集成:开发者可以通过 PaSa 提供的 API 将其集成到自己的应用中。
未来发展方向
- 多模态支持:未来可能支持图像、表格等多模态数据的搜索和分析。
- 个性化推荐:根据用户的历史查询和偏好,提供个性化的论文推荐服务。
PaSa 是一个基于大语言模型的学术论文搜索代理,通过自主决策和多轮推理,为用户提供高效、准确的学术资源搜索服务。其强大的性能和广泛的应用场景使其成为学术研究和教育领域的重要工具。