ReadAgent：Google开发一个模仿人类阅读方式的阅读代理

Heping 2月 17, 2024 3.38k 浏览 0

ReadAgent：Google开发的一个模仿人类阅读方式的阅读代理

它可以处理非常长的上下文

ReadAgent采用人类阅读长文本时遗忘具体信息但保留模糊要点信息的策略，来提高处理和理解长文本的效率。

就是当你面对一本厚厚的书时，你可能会只记住重要的信息，而忽略次要内容，当你需要详细信息时再回头查找。

ReadAgent就是通过模拟这种人类的阅读方式来工作的。

功能特点：

1、记住关键信息：就像人们阅读时倾向于记住故事的大概情节而忘记具体的细节，ReadAgent也会把长文本中的主要信息转化为“要点记忆”。这让它能够保持对全文的大致理解，即使不记得每一个词。

2、智能存储和压缩：ReadAgent会决定哪些信息是重要的，应该被记住，然后把这些信息存储为简短的记忆片段。这就像是把一篇长文章总结成几句话，便于快速回顾和理解。

3、主动查找信息：当需要更多细节来完成一个任务（比如回答一个问题）时，ReadAgent会像人类一样回到原文去寻找答案。这让它能够有效地处理和回应复杂的查询。

4、理解长文本：ReadAgent在阅读长篇幅的文档时表现得非常出色，能够理解和记忆比普通阅读工具更多的信息。这使得它在理解长文章或书籍时更为高效。

在处理长文档阅读理解任务时，ReadAgent展现出优越的性能。它通过使用要点记忆和原始长文本，能够在保持高效理解的同时，扩大有效上下文窗口3到20倍。

5、零次学习检索：ReadAgent实现了一种基于上下文化要点记忆的检索方式，通过零次学习LLM提示进行推理，直接利用LLM的语言理解强大性和灵活性来决定检索哪些文档。这种检索方式非常适合处理密集相关的长文档片段，如一系列书籍或对话历史。

也就是它不仅仅是通过关键词搜索，而是通过理解文本的大意来决定哪些内容是相关的。这就好比你不需要告诉它具体去哪里找答案，它就能明白你需要什么，并找到相关的信息。

6、适应不同场景：除了阅读文本，ReadAgent还能适应如网页导航这样的复杂任务，表现出灵活性和有效性。这意味着它不仅能帮你理解长文章，还能在复杂的网站中找到需要的信息。

举例解释：

假设你正在准备一篇关于气候变化的报告，需要阅读和理解大量的研究论文、报告和文章。这里有成千上万的页面，充满了复杂的数据、理论和论点。这就是一个ReadAgent大显身手的完美场景。

记住关键信息

首先，当你通过ReadAgent阅读这些长文本时，它就像是在为你做笔记，但不是记下每一个细节。相反，它抓取并保存关键信息的要点，比如全球平均温度上升的速率，重要的气候变化趋势，或者国际社会的应对措施。这样，即使你不记得每一篇论文的每一个数据点，你也能快速获取到你需要的主要信息。

智能存储和压缩

接下来，假设你读过一篇详细讨论北极冰盖融化影响的研究。ReadAgent会将这篇文章的核心信息转换成简短的要点记忆，比如“北极冰盖加速融化，对全球海平面上升和生物多样性产生重大影响”。这就像是将整篇文章的精华压缩成一句话，让你随时可以快速回顾。

主动查找信息

现在，假设你在写报告时需要引用关于特定年份北极冰盖融化速度的数据。你可能不记得具体的数字，但ReadAgent记得它在哪篇文章中。于是，它能够帮你迅速定位到那篇论文，并找到确切的数据和引用，就好像你有一个随时待命的研究助手。

理解长文本和找到需要的内容

在整个过程中，ReadAgent不仅帮你摘录和记住了海量文本中的重要信息，还能在你需要深入细节时迅速找到答案。这种能力特别适用于需要跨文档查找和对比不同来源信息时，比如在比较不同科学团队对气候变化影响的预测时。

适应不同场景

最后，如果你需要在网上搜索最新的气候变化新闻或政策声明来更新你的报告，ReadAgent同样能派上用场。它能帮助你导航通过复杂的网站结构，快速找到并理解相关信息，就像有一个能指引你直达需要内容的导航系统。

通过这个例子，你可以看到ReadAgent如何使得处理和理解大量复杂文本变得更加高效和简单，让你能够专注于创造性的思考和写作，而不是被繁琐的信息检索和记忆负担所拖累。

技术原理：

1、要点记忆构建：

分页（Episode Pagination）：ReadAgent在阅读长文本时会决定哪些内容应一起存储在记忆片段中，即选择暂停阅读的合适位置。通过提示LLM从文本中选择自然的段落分隔点，每个暂停点之间的内容视为一个片段（页）。

记忆压缩（Memory Gisting）：对于每个页面，ReadAgent使用LLM将页面内容压缩为更短的要点（gist），并将这些要点与其对应的上下文（例如，要点来自哪一页）相关联，形成要点记忆。

2、互动式查找：

并行和顺序互动式查找：对于长文档的特定任务，ReadAgent会采取行动在原始文本中查找相关细节，同时使用其要点记忆。实现了两种查找策略：并行查找（一次性请求多个页面）和顺序查找（一次请求一个页面，最多到某个页面数量上限）。

3、计算开销和可扩展性：

分页、记忆压缩和互动式查找需要迭代推理，可能导致计算开销。然而，该开销是有限的，呈线性增长，使得该方法能够很好地适应输入长度的增加。

实验结果：

ReadAgent在三项长文档阅读理解任务——QuALITY、NarrativeQA和QMSum——上的实验与评估结果显示了其显著的性能优势。

ReadAgent在所有三个任务上均优于基线方法，表明它能够更有效地处理和理解长文本。

特别地，在NarrativeQA Gutenberg测试集上，该测试集的平均长度为71k词，最长为343k词，ReadAgent将LLM评分提高了12.97%，ROUGE-L提高了31.98%，相比于最佳的检索基线，有效上下文长度增加了约20倍。

在QuALITY任务中，尽管文章可以适应8K的上下文窗口，ReadAgent通过扩大3倍的有效上下文长度，仍然超越了使用完整文本的性能。

版权声明：除特殊说明外，本站所有文章均为字节点击原创内容，采用 BY-NC-SA 知识共享协议。原文链接：https://byteclicks.com/56292.html 转载时请以链接形式标明本文地址。转载本站内容不得用于任何商业目的。本站转载内容版权归原作者所有，文章内容仅代表作者独立观点，不代表字节点击立场。报道中出现的商标、图像版权及专利和其他版权所有的信息属于其合法持有人，只供传递信息之用，非商务用途。如有侵权，请联系 gavin@byteclicks.com。我们将协调给予处理。

ReadAgent：Google开发一个模仿人类阅读方式的阅读代理

文章推荐：

标签