使用语言模型的文档自动摘要技术机器学习博客

2026-01-27 13:11:00

使用语言模型进行文档自动摘要的技术

关键要点

本文探讨了使用自然语言处理NLP和生成式人工智能AI进行文档摘要的各种技术。自动摘要在信息丰富的时代至关重要，可以帮助压缩冗长的文本，提高交流效率。文章涵盖了提取式和生成式摘要技术以及多层次摘要方法，包括具体的技术步骤和应用场景，提供实际的编码示例和实施建议。

摘要是一种将大量信息浓缩成简洁而富有意义的形式的技术，意味着在我们信息丰富的时代中，有效沟通的基石。在这个数据泛滥的世界里，将长文本总结为简短摘要不仅节约了时间，还帮助做出明智的决策。摘要能够提炼内容，节省时间并提高信息的准确性，是处理大量内容和管理信息时不可或缺的工具。

银河vnp加速器

摘要方法的应用范围广泛，服务于多种目的，例如：

新闻聚合新闻聚合将新闻文章简化为供媒体行业使用的通讯。法律文书摘要法律文书摘要帮助法律专业人士从冗长的文件如条款、条件和合同中提取关键信息。学术研究摘要帮助标注、索引、浓缩和简化学术论文中的重要信息。内容策划可为博客和网站创建吸引人和原创的内容摘要，特别是在营销中。财务报告和市场分析可从报告中提取财务见解，为投资者演示制作执行摘要。

在自然语言处理NLP、语言模型和生成式人工智能不断进步的背景下，处理不同长度文本的摘要变得更加可行。像 LangChain 这样的工具结合了由 Amazon Bedrock 或 Amazon SageMaker JumpStart 提供的大语言模型LLM，简化了实施流程。

本文将深入探讨以下摘要技术：

使用 BERT 提取式摘要模型的提取式摘要使用专业摘要模型和 LLM 的生成式摘要两种多层次摘要技术：使用提取生成内容摘要策略EACSS的提取生成摘要采用 Map Reduce 和 Map ReRank 的生成生成摘要

完整的代码示例可以在 GitHub 仓库中找到。你可以在 Amazon SageMaker Studio 中启动此解决方案。

点击此处打开 AWS 控制台并跟随示例。

摘要类型

文本摘要的技术可以大致分为两类：提取式和生成式摘要。此外，多层次摘要方法包括一系列步骤，结合了提取式和生成式技术。这些多层次方法在处理超出 LLM 最大令牌限制的文本时特别有效，从而帮助理解复杂的叙述。

提取式摘要

提取式摘要是在自然语言处理和文本分析中创建摘要的一种技术，通过提取关键信息句子生成摘要。不同于生成式摘要产生新句子或内容，提取式摘要侧重于识别并提取原文中最相关和最具信息量的部分。

尽管提取式摘要在保留原始内容并确保高可读性方面有优势，但也存在局限性。它缺乏创造性，无法生成新句子，并可能忽视细微的细节，从而可能遗漏重要信息。此外，它可能生成冗长的摘要，有时会使读者不知所措。许多提取式摘要技术可供使用，例如 TextRank 和 LexRank。在此文中，我们将重点关注 BERT 提取式摘要模型。

BERT 提取式摘要模型

BERT 提取式摘要模型是一种以 BERT 语言模型为基础，通过提取文中最重要的句子创建摘要的模型。BERT 是一种预训练语言模型，能够为多种任务进行微调，包括文本摘要。它首先通过 BERT 嵌入文本中的句子，从而为每个句子生成一个捕捉其意义和上下文的向量表示。然后，模型使用聚类算法将句子分组，选择离每个聚类中心最近的句子形成摘要。

与 LLM 相比，BERT 提取式摘要模型的优势在于相对容易训练和部署模型，并且更易解释。其劣势在于生成的摘要缺乏创造性，仅从原文中选择句子。这限制了其概括复杂或细腻文本的能力。

生成式摘要

生成式摘要是自然语言处理和文本分析中创建摘要的一种技术，超越单单从源文本中提取句子或短语的方式。生成式摘要生成新的句子或短语，以更简洁和连贯的形式捕捉原始文本的核心含义和主要思想。此方法要求模型理解文本内容，并以未必出现在源材料中的方式表达。

专业摘要模型

这些预训练的自然语言模型，例如 BART 和 PEGASUS，专门为文本摘要任务设计。它们采用编码器解码器架构，并且参数较小，这使其更容易进行微调和在小型实例上部署。然而，需要注意的是，这些摘要模型的输入和输出令牌大小相对较小。与更通用的模型不同，这些模型专门用于摘要任务，因此其输入仅限于需要摘要的文本。

大语言模型

所谓“大语言模型”是指经过大规模、多样数据集的训练，通常通过自监督学习实现，并能够微调以适应各种特定的下游任务。这些模型参数较大，且在任务中的表现更佳。值得注意的是，它们的输入令牌大小显著增加，有些可以达到 100000，例如 Anthropic 的 Claude。要使用这些模型，AWS 提供了全托管服务 Amazon Bedrock。如果需要对模型开发生命周期有更多控制，可以通过 SageMaker 部署 LLM。

由于其多样性，这些模型需要通过输入文本提供具体任务说明，这称为提示工程。这一创造性过程的结果因模型类型和输入文本而异。模型性能和提示质量的有效性大大影响模型输出的最终质量。以下是进行摘要时提示工程的一些技巧：

包括摘要文本输入需要摘要的文本。这是摘要的源材料。定义任务清楚地表明目标是文本摘要。例如：“总结以下文本：[输入文本]。”提供上下文给予需要摘要的文本简单的介绍或背景。这帮助模型理解内容和上下文。例如，“您被提供关于人工智能及其在医疗中的作用的以下文章：[输入文本]。”提示生成摘要提示模型生成提供文本的摘要。明确摘要的期望长度或格式。例如：“请为给定的关于人工智能及其在医疗中的作用的文章生成简明摘要：[输入文本]。”设置限制或长度指导选择性地通过指定期望的单词数、句子数或字符限制来指导摘要的长度。例如，“请生成不超过 50 个单词的摘要：[输入文本]。”

有效的提示工程对于确保生成的摘要准确、相关以及与预期摘要任务一致至关重要。通过实验和迭代优化提示以获得最优的摘要结果。建立了有效性之后，可以使用提示模板重复使用这些提示。

多层次摘要

提取式和生成式摘要适合较短的文本。然而，当输入文本超过模型的最大令牌限制时，多层次摘要变得必不可少。多层次摘要涉及将多种摘要技术如提取式和生成式方法的组合，旨在通过应用多层摘要过程有效浓缩较长文本。本文将讨论两种多层次摘要技术：提取式生成式摘要和生成式生成式摘要。

提取式生成式摘要

提取式生成式摘要的工作原理是先生成文本的提取摘要。然后使用生成式摘要系统对提取摘要进行优化，使其更简洁、更具信息量。这个过程比单独提取方法提供了更高的准确性。

提取生成内容摘要策略EACSS

EACSS 技术结合了两种强大的技术的优势：用于提取阶段的 BERT 提取式摘要和用于生成阶段的 LLM，如下图所示。

EACSS 具备多项优势，包括保留关键信息、提高可读性和适应性。然而，实施 EACSS 具有计算成本高和复杂性大的问题。存在潜在信息丢失的风险，且摘要的质量在很大程度上依赖于底层模型的性能，因此在实现时需要仔细选择和调优模型。实施步骤如下：

首先将大型文档例如一本书分解为较小的部分或块。这些块根据摘要所需的粒度定义为句子、段落或甚至章节。在提取阶段，使用 BERT 提取式摘要模型。此部分通过嵌入块内每个句子，然后采用聚类算法找出与聚类中心最接近的句子。这一提取步骤有助于保留每个块最重要、最相关的内容。在为每个块生成提取摘要后，进入生成摘要阶段。在此阶段，我们利用能够生成连贯且上下文相关的摘要的 LLM。这些模型将提取的摘要作为输入，生成捕捉原始文档本质的生成摘要，同时确保可读性和一致性。

通过结合提取式和生成式摘要技术，此方法为总结较长的文档如书籍提供了一种高效而全面的方式。确保提取重要信息的同时生成简洁易读的摘要，使其在文档摘要领域的多种应用中具备价值。

生成式生成式摘要

生成式生成式摘要是使用生成式方法同时提取和生成摘要的一种方法。它具备良好的可读性、连贯性和调节摘要长度及细节的灵活性，非常擅长语言生成，避免冗余。然而，它也存在一些缺点，如计算成本高、资源密集，且质量严重依赖下层模型的有效性。如果模型训练不良或缺乏多样性，可能会影响生成摘要的质量。选择合适的模型对于减轻这些挑战和确保高质量的生成式摘要至关重要。在讨论生成式生成式摘要时，我们将介绍两种策略：Map Reduce 和 Map ReRank。

使用 LangChain 的 Map Reduce

这一两步流程包括一个 Map 步骤和一个 Reduce 步骤，如下图所示。此技术使您能够总结超出模型输入令牌限制的输入。

流程主要包括三个步骤：

将语料库拆分为适合 LLM 令牌限制的较小块。在 Map 步骤中，独立地应用 LLM 链提取每个段落的重要信息，这些输出被用于形成新的段落。具体形式取决于语料的大小和结构，可能是整体主题或者简短摘要。Reduce 步骤将来自 Map 步骤的输出段落合并成适合令牌限制的段落，然后再输入到 LLM。这一过程重复进行，直到最后输出为一个单独的段落。

使用此技术的优势在于其高度可扩展和可并行处理。每一步中的所有处理都是相互独立的，这得以利用分布式系统或无服务器服务，降低计算时间。

使用 LangChain 的 Map ReRank

此链在每个文档上运行初始提示，不仅试图完成任务，还为答案的可靠性打分。返回得分最高的响应。

这一技术与 Map Reduce 非常相似，但其优势在于总调用较少，从而简化了摘要过程。然而，它的限制在于无法跨多个文档合并信息。这使得它在预期单一、直接答案的情况下最为有效，不适合涉及多个来源的复杂信息检索任务。因此，在决定此方法是否适合特定摘要需求时，必须仔细考虑上下文和数据的性质。

Cohere ReRank 使用一种基于语义的重新排序系统，能够超越关键字关联的意义语境化。可用于向量存储系统和基于关键字的搜索引擎，具有灵活性。

摘要技术比较

每种摘要技术都有其独特的优缺点：

使用语言模型的文档自动摘要技术机器学习博客提取式摘要保留原始内容并确保高可读性，但缺乏创造性，可能生成冗长摘要。生成式摘要则具有创造性，可以生成简洁流畅的摘要，但也存在无意修改内容和语言准确性挑战，并且开发资源消耗大。提取生成的多层次摘要有效概括大型文档，并为提取部分的模型提供更好的微调灵活性。然而，其计算成本高、耗时且缺乏并行性，使参数调优具有挑战性。生成生成多层次摘要同样有效总结大型文档，具有提升可读性和连贯性的优势，但计算成本高、资源密集，极度依赖底层模型的有效性。

在这一方法中，仔细选择模型至关重要，以化解挑战并确保高质量生成摘要。以下表格总结了每种摘要类型的能力。

方面提取式摘要生成式摘要多层次摘要生成创造性且吸引人的摘要否是是保留原始内容是否否平衡信息保留和创造性否是是适用于短小、客观文本输入文本长度小于模型最大令牌数是是否对于较长复杂文档输入文本长度大于模型最大令牌数有效否否是结合提取和内容生成否否是

多层次摘要技术适合对输入文本长度超出模型令牌限制的长篇复杂文档。以下表格比较这些技术。

技术优点缺点EACSS提取生成保留关键信息，允许对提取部分的模型进行微调。计算成本高，潜在信息丢失，缺乏并行处理。Map Reduce生成生成可扩展且可并行处理，计算时间短。生成创造性且简洁的摘要的最佳技术。内存密集型过程。Map ReRank生成生成基于语义的排名使得摘要流程更为简化。信息合并能力有限。

摘要文本时的注意事项

在总结文本时请考虑以下最佳实践：