基于语义的自动文本摘要生成技术的研究与应用

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:sentown
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,文本数据的激增,自然语言处理领域得到了良好的发展。在自然语言处理领域中,自动文本摘要生成技术是一个重要的研究方向,该技术能够大大缩减人工摘要形成的时间,帮助相关人员快速获取国内外新闻动态,并及时作出应急响应处理。此外,利用数据挖掘、机器学习等技术,能够深层次地挖掘文本背后的语义,形成质量和准确度都较高的摘要。本文提出一种基于语义的自动文本摘要生成算法,以海外新闻文档为研究对象,利用抽取式摘要生成技术进行多文档摘要抽取。然而,传统的抽取式摘要生成技术,很少考虑到新闻文本时效性强、主题明确的特性。此外,鲜有方法能够有效利用文本中的语义信息和结构信息,对文本中的重要信息进行提取。针对这些缺陷,本研究以文本网络为核心模型,设计了一个适用于新闻文本的自动文本摘要生成系统,旨在生成质量更高、主题性更明确、冗余度更小、语义性更强的摘要。具体来说,本文的贡献主要包括以下四点:1.本文提出了一种基于改进的TF-IDF的文本特征向量化算法,将新闻热度融入到词项权重的计算公式中,使得词项的权重随新闻热度的消退而变小,是一个符合新闻本身特点的权重计算方法。2.本文设计了一种基于语义的文本网络构建算法,利用文档间及句子间的相似度分别构建文档级网络和句子级网络。本文在考虑文档相似度时,利用了LSA的思想,在传统的“词项-文档”矩阵的基础上,通过奇异值分解,对矩阵进行降秩,并在此低秩矩阵的基础上,利用余弦相似度进行文档相似度计算。降秩操作,能够去除文本中的噪声,突出文本主题,使相关的文档间距离更小,不相关的文档间距离更大,有助于形成“高内聚、低耦合”的聚类效果。本文在考虑句子相似度时,充分考虑到了句子结构和语义对句子相似度的贡献,设计了符合本研究应用场景的句子相似度计算公式。3.本文提出了一种两阶段的密度聚类方法,分别对文档级网络和句子级文本网络进行聚类。该算法具有自适应性,无需手动确定簇的个数,能够通过“幂次法则”,自动确定簇的个数。此外,两阶段的聚类过程能够提升聚类的效率。4.本文提出一种基于特征融合的文本摘要单元提取算法,在考虑指数函数和余弦函数的曲线特性的同时,融入了新闻文本发布时间的因素,设计了符合新闻文本特征的句子重要度计算公式,使得生成的摘要时效性更强。最后,本研究在人工数据集和标准数据集上分别进行了实验验证。通过多个角度的验证分析,本研究所提出的基于语义的自动文本摘要生成模型能够有效地生成质量较高的摘要,在新闻文本上效果更佳。
其他文献
对于大多数Android应用程序而言,网络在提供应用程序功能方面起着至关重要的作用,同时网络使用导致的错误占了应用程序崩溃的很大比例。由于许多与网络相关的错误只能在特定条件下触发(例如,当网络速度较慢时,网络响应需要较长的等待时间),因此现有的常规或GUI测试方法很难将其检测出来。据统计,较少有测试应用程序中网络使用情况的工作。为解决上述问题,本文从移动应用网络相关的错误展开研究,借助软件定义的思
子空间聚类是传统聚类问题的拓展,目的是将位于多个子空间的并集上的数据点分割到其相应的子空间中。稀疏子空间聚类(SSC)和基于低秩表示(LRR)的算法是最有代表性的两种子空间聚类算法。为了获取结构更加理想的系数矩阵,本文提出了基于图正则化的子空间聚类算法。子空间聚类算法的基本方法是,建立模型寻求数据理想的表示系数矩阵,然后通过增广拉格朗日乘子法求解模型,并根据系数矩阵构建相似度矩阵,最后用谱聚类的方
视频目标分割任务是计算机视觉领域中一个非常基础但又充满挑战性的问题。这个问题可以描述为:已知视频中目标在第一帧的分割掩膜,求解后续每一帧内对应目标分割的结果。视频分割技术作为大数据处理应用中的重要一环,在当代生活中发挥着越来越不可替代的作用。与此同时,视频目标分割技术已经在视频监控、虚拟现实、异常检测和自动驾驶等领域获得了广泛的应用。现存的方法主要有两个问题需要面对:第一点是在遮挡、外观变化大、背
视频拍摄中,图像采集环境差、成像系统退化和目标物体运动等容易导致采样视频存在不必要的模糊。研究者们提出了许多优秀的视频去模糊方法。但由于视频图像特有的时空相关性,如何综合利用时空信息依然有很大的改进空间。本文首先综合回顾了国内外研究现状,分析并实现了三种经典的视频去模糊算法:加权傅立叶聚合视频去模糊算法(Weighted Fourier Accumulation Algorithm,WFA),基于
随着数字化等信息技术的不断发展,数字图像信息不管是从数量上还是规模上都在飞速增长,如何管理和应用这些海量图像资源成为当前重点研究问题之一。就图像检索技术而言,传统利用人工标注关键字进行图像检索的技术已满足不了人们的实际需要,最近几年,基于内容的图像检索技术逐渐成为了新的研究热点。通常人们判别两张图像的相似程度并非根据图像的底层特征,而是根据图像描述的内容。而计算机对图像底层特征的理解较为容易,对获
为了探索大学生在网络学习中师生交互与学习投入的关系,以及自主动机和学业情绪在其中的中介作用,本研究采取问卷调查法,使用师生交互问卷、自主动机问卷、大学生学业情绪量表、学习投入量表,对563名大学生开展调研。结果发现:网络学习中的师生交互既可以直接显著正向预测学习投入,也可通过积极情绪间接影响学习投入,还可依次通过自主动机和积极情绪的链式中介作用正向预测学习投入,而消极情绪在其中的中介作用不显著。研
多模态视网膜成像可以为视网膜疾病的解读与评估提供多方位的信息,将不同模态图像提供的互补信息进行多模态融合可以辅助临床医生进行病情诊断及评估。本文利用图像处理和分析的方法来对视网膜病变图像进行多模态融合,主要包括以下研究内容:(1)提出一种基于频域光学相干断层成像技术(SD-OCT)和相干光断层扫描血管成像(OCTA)体数据的脉络膜新生血管(CNV)多模态融合算法,算法主要包括以下四个部分:预处理、
随着我国智慧城市、智慧交通等项目的持续开展,智能视频监控得到了越来越多的关注。智能视频监控主要包括对人或物的识别、运动轨迹跟踪以及个体状态或场景状态分析等任务。多目标跟踪算法为流量统计、异常行为检测等任务提供基础数据,是智能视频监控中的关键算法。因此,本文提出了基于深度哈希特征的多目标跟踪算法。此外,针对无人机道路监控场景,本文提出了基于多目标跟踪的异常行为检测算法,同时开发了一套无人机道路监控系
微光相机电子学性能评测系统用于评估微光相机的综合性能。随着微光相机技术的发展,用户对微光相机的性能提出了各种各样新的需求,完整、准确地评测微光相机的整体性能变得至关重要。然而,目前被国内外广泛认可的相机评测标准都是针对适光相机制定的,这些评测标准并不完全适用于微光相机。为了解决这个问题,本文提出了一套基于相机输出图像的微光相机成像电子学评测方法,并在此基础上搭建了一套可以高效操作的评测系统。通过微
如今,通过脑成像技术研究精神类疾病诊断受到了越来越多的关注。基于功能磁共振成像(fMRI)数据对大脑功能连通性相互作用的探索和对大脑功能连接的动态性分割对于精神类疾病的研究至关重要。由于注意力缺陷/多动障碍(ADHD)是一种影响数百万儿童的慢性疾病,而且难以诊断,因此在疾病诊断的准确率方面仍有很大的改进空间。本文分别在分类算法研究和脑动态网络稀疏性建模方面有所改进,用以提升ADHD患者儿童和正常儿