好望角:让你的每次点击都有价值:byteclicks.com | 搜索引擎正在被AI污染信息源,中文优质信息越来越少了 |

研究人员开发搜索流(SoS)框架:赋能语言模型独立运用搜索策略学习解决复杂问题

语言模型(LM),尤其是基于Transformer架构的模型,在自然语言处理领域取得了显著成就。然而,它们在面对复杂决策、长远规划以及推断后续多个步骤的后果时仍显力不从心。这种局限性部分源于训练过程中过于依赖单一预测下一个标记的任务,而非考虑更广泛的决策后果,加之错误的累积效应和前瞻性任务的复杂性,使得基于Transformer的模型难以进行有效规划。

为了提升语言模型的搜索与规划能力,一组来自斯坦福大学、麻省理工学院和哈维·穆德学院的研究者提出了一个创新的方法,该方法教导语言模型如何执行搜索和回溯。他们创造性地将搜索过程转化为一种可被模型理解和操作的形式——搜索流(Search as a Sequence, SoS)。这是一种序列化字符串表达,它描绘了搜索算法的每一步骤,从而使模型能像解析自然语言一样理解搜索过程。

研究团队设计了一种通用的搜索语言,并通过倒计时游戏作为实验平台展示其效果。他们在搜索流数据上预训练了一个基于Transformer的语言模型,结果显示,这种方法在倒计时游戏中将准确率提升了25%。不仅如此,经过策略改进方法进一步微调后,该模型成功解决了之前未能解决的36%的问题,证实了语言模型确实可以通过搜索机制学会解决问题、实现自我改进,并自发发现新的应对策略。

现有研究已尝试将语言模型整合到搜索和规划系统中,利用模型生成和评估可能的操作或状态变化。这些方法常运用广度优先搜索(BFS)或深度优先搜索(DFS)等符号搜索算法来指导探索。尽管如此,语言模型的核心功能在于推理,而在高层次规划和复杂决策方面仍有待加强。

相比之下,上下文演示法利用语言描述引导LM进行树搜索,但这受限于预先编写的演示脚本。另外的过程监督技术则是训练独立的验证者模型来为LM提供详尽的反馈信号,这种方法虽比仅关注输出结果的传统监督方式更为有效,但需要大量的标注数据支持。获取更多前沿科技信息访问:https://byteclicks.com

研究中所探讨的问题域是马尔可夫决策过程(MDP),在这个框架下,状态、动作、状态转移和奖励函数共同决定了搜索过程的本质。针对倒计时任务,研究者构建了一个包含多种搜索策略的合成数据集,以此衡量模型生成正确解决方案轨迹的能力,并通过准确度和状态重叠指标评估不同搜索策略间的匹配程度。

研究人员深入探究了在最优或次优搜索轨迹上训练LM以求解倒计时问题的效果,他们选用GPT-Neo模型对这两类数据集分别进行训练。结果显示,在次优搜索轨迹上训练的模型在某些情况下表现得更好。此外,他们还借助强化学习(RL)研究了自我改进策略,如专家迭代和优势诱导策略调整(APA),这些策略有助于模型攻克以往无法解决的难题,有力地证明了模型在搜索空间导航中的效率和准确性得到显著提升。

SoS框架开创了一种让语言模型通过模拟语言形式的搜索过程来学习解决问题的方法。它有效地回应了对规划型语言模型的诟病,赋予模型回溯和探寻备选路径的能力,进而增强其适应性,有效克服错误滚雪球效应。相较于传统的符号搜索方法,SoS模型能够在内部学习一个“世界模型”来进行搜索,这可能极大地提升其泛化能力。尽管当前研究主要聚焦于倒计时游戏,但SoS展现出了应用于解决现实世界复杂任务的巨大潜力。

未来的研究方向可能包括结合形式化操作以及探索SoS在不同领域的可迁移性。SoS展示了语言模型通过多样化搜索策略和不断迭代优化,在解决实际问题上展现出非凡的能力和广阔前景。

查看 Paper 和 Github

上一篇:

下一篇:


标签