像GPT-3这样的语言模型预示一种新型搜索引擎
1998年,一些斯坦福大学的研究生发表了一篇论文,描述了一种新型的搜索引擎:“在本文中,我们介绍了Google,这是大型搜索引擎的原型,该原型大量使用了超文本形式的结构。Google旨在有效地对Web进行爬网和编制索引,并产生比现有系统更令人满意的搜索结果。” 关键的创新是一种称为PageRank的算法,该算法通过基于与网络上其他页面的链接来计算搜索结果与用户查询的相关程度,从而对搜索结果进行排名。在PageRank的支持下,Google成为了通往互联网的门户,而Sergey Brin和Larry Page建立了世界上最大的公司之一。
现在,一组Google研究人员发布了一项彻底重新设计的提案从而淘汰了排名方法,并用单一的大型AI语言模型(例如BERT或GPT-3或它们的未来版本)替代了排名方法。这个想法是,用户不是在庞大的网页列表中搜索信息,而是会提出问题并在这些页面上训练语言模型来直接回答问题。这种方法不仅可以改变搜索引擎的工作方式,而且可以改变互动的方式。
[唐纳德·梅茨勒(Donald Metzler)和他的Google Research同事]对行为像人类专家的搜索引擎感兴趣。它应产生自然语言的答案,并由多个文档合成,并像维基百科的文章一样,以支持证据的形式备份其答案。大型语言模型使我们成为其中的一部分。GPT-3在大多数网络和数百本书上接受了培训,可以从多种来源中获取信息,以自然语言回答问题。问题在于它无法跟踪这些来源,也无法提供答案的证据。无法判断GPT-3是在骗取可信赖的信息或虚假信息,还是只是散布自己的废话。
梅茨勒(Metzler)和他的同事们称语言模型不重要-“他们被认为知道很多,但是知识很肤浅。” 他们声称,解决方案是构建和培训未来的BERT和GPT-3,以保留其单词来源的记录。尚无此类模型能够做到这一点,但原则上是可行的,并且朝着这个方向开展了早期工作。英国谢菲尔德大学的Zizi Zhang说,在不同的搜索领域,从回答查询到总结文档再到结构化信息,已经取得了数十年的进展,他在网络上研究信息检索。但是,这些技术都没有彻底改革搜索,因为它们每个都解决特定的问题并且无法推广。他说,本文令人兴奋的前提是大型语言模型能够同时完成所有这些操作。
