抽取式摘要方法通过识别文本的重要部分并逐字生成来工作;抽象式摘要方法旨在以新的方式生成重要材料。换句话说,它们使用先进的自然语言技术来解释和检查文本,以便生成新的较短的文本,传达原文中最关键的信息。
“”文本摘要技术:简要调查,2017年。
我们将使用简单的词汇和提取式摘要,运用算法从文档中选择并组合最相关的句子。使用抽象摘要方法,我们将运用复杂的 NLP 技术(例如深度神经网络)来阅读和理解文档,从而生成新颖的句子。
在抽取方法中,文档可以看作一张图,其中每个句子是一个节点,句子之间的关系是带权重的边。这些边可以通过分析每个句子中词集的相似度来计算。然后,我们可以使用类似 Page Rank(在本文中我们称之为 Text Rank)的算法来提取文档图中最核心的句子。
在这里,文档被视为理解词集的图表
NLP 的碳足迹以及我为什么更喜欢使用提 电报筛查 方法来创建元描述
在最近的一项研究中,马萨诸塞大学阿默斯特分校的研究人员对几种常见的大型人工智能模型的训练进行了生命周期评估,重点关注语言模型和自然语言处理任务。他们发现,训练一个复杂的语言模型产生的排放量是 美国普通汽车生命周期排放量的五倍(包括制造汽车本身所需的一切!)。
虽然自动化至关重要,但我们不想因为滥用现有技术而加剧地球污染。原则上,使用抽象方法和深度学习技术在将文章压缩成 30-60 字的段落时能够提供更高的控制度,但考虑到我们的最终目标(吸引更多来自自然搜索的点击),我们或许可以在 如果网站上有很多未关注的链接 不耗费过多计算(和环境)资源的情况下找到一个不错的折衷方案。我知道这听起来有点天真,但……事实并非如此,我们希望所做的一切都可持续且高效。
什么是 BERT?
BERT:强大的Transformer
现在,考虑到已经花费了大量能源来训练 BERT(根据上述论文,耗费了 1,507 kWh),我决定值得对其进行测试以运行提取摘要。
我还必须承认,我已经很久没有尝试过在线内容的自动文本摘要了,在接触 BERT 之前,我已经尝试了很多不同的方法。
BERT 是由 Google 创建并作为开源程序发布的预训练无监督自然语言处理模型(耶!),它在 11 个最常见的 NLP 任务上发挥着神奇的作用。
BERTSUM 是 BERT 的一个变体,专为提取 电话号码 摘要而设计,目前是最先进的(您可以在这里找到其背后的论文)。
Derek Miller利用这一进展,为将这项技术推广给大众(包括我自己)做出了卓越的贡献。
人工智能万岁,让我们用我们可爱的机器人来扩展元描述的生成
以下是本文链接的代码中所有工作原理。