基于改进TextRank的中文文本摘要方法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:littlewolfwolfwolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字信息时代的快速发展,由此引发的信息过载现象日益严重。如何在海量文本中快速获取关键信息,显得尤为重要,因此文本自动摘要相关算法,成为目前研究的热点方向。本文以呈现高质量摘要的角度出发,对中文文本摘要抽取算法进行相关研究。本文针对中文文本摘要任务,基于TextRank算法进行优化,改进主要分为三个方向:(1)改进TextRank算法对中文文本直接摘要抽取首先,本文从能够影响摘要生成质量的各类因素出发,在构建文本的TextRank网络图时,将节点由句子改为由句子进行BERT预训练模型生成的句向量,引入语义信息优化句子之间相似度,得到摘要候选句群,并采用最大边界相关算法思想对候选句群进行筛选。通过实验证明了该方法较之原TextRank算法的有效性。(2)改进TextRank算法进行关键词抽取,根据关键词分布进行摘要抽取考虑到包含非重复关键词数量越多的句子,更能表征该文本的含义。本文根据目前存在的各种关键词抽取算法的优劣性以及单文本的独特性,选取TF-IDF算法以及TextRank算法进行改进,指导关键词集的生成。生成的关键词集中每个关键词具有不同的权重分值,根据句子中包含的关键词进行句子排序。通过实验证明该方法在单句摘要抽取中表现突出,代表关键信息包含程度的Rouge-1由原来的25.3%提升至31.2%,该方法的有效性得到了验证。(3)借助集成学习思想,优化TextRank算法进行摘要抽取将目前主流的几种摘要抽取算法对TextRank算法抽取结果进行辅助纠正,保证模型具有更强的泛化能力以及抽取的句子能携带更多的重要信息。通过中国新闻网数据验证,改进模型在Rouge-1、Rouge-2、Rouge-L指标中由原来的34.4%、46.6%、21.4%提升至40.2%、55.4%、29.6%,证明该方法摘要抽取效果优于原算法,且具有更强的泛化能力。
其他文献
通信网络飞速发展的现状对数据中心的网络质量、运维能力提出了更高的要求。传统骨干网使用的VPLS技术将网络全连接,这样的方式存在消耗网络资源、容易引起ARP洪泛的缺陷,后续的演进中提出了将MAC学习迁移到控制层、使用BGP通告对端的EVPN解决方案,能够有效提升网络性能。NP芯片使用微码编程,具有快速的响应能力和高效的计算能力能够很好地适应转发层要求,所以采用NP芯片与CPU共同参与MAC学习的方案
物联网设备数目庞大且具备一定的网络攻击能力,大多数物联网设备也会涉及用户隐私并关联用户的敏感设备。随着物联网行业的迅捷发展和物联网设备的大规模投入使用,在智慧城市与物联网深度融合的规模化发展的趋势下,物联网设备带来的安全问题引起广泛关注。为了满足智慧消防系统由于应急管理对设备一致性的高要求,本文基于主动式和被动式设备指纹构建方式,将智慧消防系统中的物联网设备分为感知器和执行器进行相关实验研究,验证
机器阅读理解是当前自然语言处理领域最为前沿和热门的研究方向之一,它的研究目的是利用计算机建立模型,使计算机能像人类一样阅读文章、分析语义和回答问题,有着重要的研究价值和实用价值。随着硬件算力的不断提升、大数据的爆炸式增长,以及深度学习技术的不断发展,机器阅读理解研究有了长足的进步,在一些特定的任务中,计算机模型的回答已经可以媲美人类的水平了。机器阅读理解模型需要充分理解问题和文章的语义信息,通常采
模拟画像是由画像师通过目击证人的描述,结合刑事相貌学和画师个人经验,对嫌疑人进行肖像绘画,在刑侦工作中具有重要作用。由于其专业性,使用门槛较高,且现有模拟画像系统依赖图像合成,存在拼接人脸图像生硬、缺失启发性推荐、人脸编辑不够灵活、肖像人脸细节缺失的问题和不便于进行大规模检索的问题。本文针对模拟画像系统存在的问题和关键技术展开研究,具体研究内容如下:(1)目前人脸肖像化和重建主要依靠成对的数据建立
本文采用前沿神经网络算法研究成果,结合追踪算法,在此基础上结合肤色检测、清晰度检测、人脸姿态估计构建一个面向图像序列的人脸检测、追踪、优选为一体的方式,相信可以用于人脸识别的应用里并且发挥很好的改善作用。针对人脸区域在图像中提取问题,采用MTCNN网络算法作为人脸检测算法,能够有效快速地检测出图像中的人脸部分。人脸在图像序列之中,位置可能会随着时间的改变而不断变化,针对人脸区域无法动态锁定的问题,
当今城市中摄像头的数量大幅度增加,这为现场监控和事故的追踪提供了极大的便利。但由于摄像头的监控信息中,有效信息较少,如果需要按照行人属性对行人进行检索或分类,手动整理的工作量将是巨大的。因此,为了节省工作成本,研究一种端到端的、自动地对行人属性进行识别的模型是很有必要的。虽然当前已经提出了许多行人属性识别方法,但存在较多难点需要解决。典型的待解决三个问题有:(1)行人属性空间依赖关系和属性间的语义
近几年移动互联网技术的广泛传播使得移动端应用程序的安全性也逐渐受到人们的重视,而Android系统作为时下流行的智能手机操作系统,它的安全性自然也受到大众广泛的关注。怎样能够高效快捷的实现恶意代码的检测识别成为保护用户信息安全的关键问题。本文主要针对Android恶意代码的图像特征的有效提取以及利用机器学习算法实现分类系统模型的设计做了深入研究,主要工作内容如下:1.本文提出将Android应用程
随着社会的发展,基于位置移动的室内定位服务深入到各个行业和人们的日常生活中。智能家居、机器人、自动驾驶等项目的兴起,促使精准的室内定位的需求也越来越强烈。在技术领域,室内定位技术主要基于射频、蓝牙和声波等媒介,基于视觉的室内定位技术还不像其他技术那么成熟。视觉定位有设备容易获取、成本低、可以充分利用图像信息等优势,所以有着广阔的发展前景。基于视觉的室内定位,首先要从图像中获取有效的像素点,本文借助
软件测试作为一种检查实际软件产品是否符合预期要求并确保软件产品无缺陷的方法,对提高产品质量有着重要作用。目前敏捷开发和持续集成等手段广泛应用于软件开发过程,缩短开发周期的同时也限制了软件产品的测试时间,导致产品质量难以得到保证。并且本着用户至上的原则,软件需求屡屡变更,产品版本频繁发布。测试人员往往需要花费大量时间针对不同版本,做重复的测试工作,极大地浪费时间和人力资源,存在严重的效率低下问题。为
在互联网信息时代的今天,人们每时每刻都在产生大量与地址有关的信息。中文地址是描述空间坐标最有效的信息,这些信息与人的行为密切相关,可以通过这些信息定位推测出一个人一整天的行为流程和运动轨迹,这些记录普遍存在于网上购物、短视频APP、通信、银行等领域,对于这些数据进行充分的挖掘与分析,会对个人发展和国家经济产生积极的影响。目前,国内对于中文地址的研究还处在刚刚萌芽的阶段,中文地址研究的困难点在于其地