基于Doc2Vec算法和图模型的中文自动摘要研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户：ffanhaixin

【摘要】

：

在飞速发展的大数据时代,知识资源日益丰富和膨胀,为使用户能够从海量互联网信息中快速获取准确信息,需利用自动摘要技术,浓缩文本信息。自动摘要是运用计算机技术对文本文档

【作者】

：

赵宁

【出处】

：

西安建筑科技大学

【发表日期】

：

2020年01期

【关键词】

：

Doc2Vec模型 TextRank算法最大边缘相关算法自动摘要

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在飞速发展的大数据时代,知识资源日益丰富和膨胀,为使用户能够从海量互联网信息中快速获取准确信息,需利用自动摘要技术,浓缩文本信息。自动摘要是运用计算机技术对文本文档进行压缩,提炼出文档的主要内容,方便读者快速把握文章主旨。本文主要针对单文档的抽取式自动摘要技术进行研究。TextRank算法是基于图模型自动摘要领域的经典算法之一,属于无监督方法,无需训练语料,可操作性较强。该算法的主要思路是将句子作为图模型节点,将句子间相似度作为图模型的边,创建图模型,采用TextRank的迭代公式计算出每个句子的最终权重,抽取出权重得分较高的一定数量的句子作为摘要。考虑到该方法在图模型构建中对于边权重相似度计算方法不够理想、节点权重计算考虑不全面以及抽取多个句子作为摘要句会出现冗余这三方面的问题,本文结合中文文本的特点对TextRank算法进行了优化:(1)TextRank自动摘要在构建图模型的边时,简单的通过两句子间词汇覆盖率来衡量句子间的相似度,忽略了句子的语义信息。因此,本文利用Doc2Vec模型,将文本转化为包含语义和上下文信息的指定维度的数字向量,在此基础上结合余弦相似度公式对句子间的相似度进行度量,能够更加准确反映句子间的关系。(2)对传统TextRank算法的句子权重部分进行改进,在TextRank算法的句子权重基础上,综合考虑句子与文章标题的相似度、句子所处段落中的位置以及标志词等摘要句特征,对句子权值进行修正,这样能够更加突出特殊句子本身的结构特征,为摘要句的提取奠定基础。(3)考虑到提取摘要句时受句子相似度影响较大,会有多个表达相同含义的句子被提取从而造成冗余,使用最大边缘相关算法对得到的摘要候选句群作冗余处理。实验结果表明,本文“Doc2Vec结合改进的TextRank算法”提取出的摘要句与改进前相比,以“10%”和“20%”压缩率提取的摘要F值分别提高了12.73%和17.19%,说明该算法能够有效提高自动摘要的准确性。

其他文献

Born Injured:The Theatre of Sam Shepard英汉翻译实践报告

学术著作是某一领域研究成果的呈现,也是这一领域的学者们在进行研究时重要的参考资料。因此翻译学术著作对推动学术发展具有重要意义。山姆·谢泼德是当代美国最伟大的戏剧作家之一,共创作过50多部戏剧。他一生获奖无数,凭借《被埋葬的孩子》于1979年摘得普利策奖。《剑桥文学指南—山姆·谢泼德》是研究谢泼德的权威著作之一。《与生俱来的创伤:山姆·谢泼德的戏剧之旅》是本书的第一章,此次翻译实践报告基于的翻译语料

学位

衔接与连贯理论学术著作山姆·谢泼德

基于FDTD的涡旋波束传播特性的数值仿真

有限的信道容量和数据传输速率,逐渐制约用户合理的工作,以往的信道复用技术已经力不从心。轨道角动量(OAM)描述了电磁波携带动量的轨道部分,波束特征是螺旋状的相位分布,以

学位

时域有限差分法轨道角动量模式纯度散射雷达散射截面积

基于改进亚像素配准的数字图像相关法研究

数字图像相关法(Digital Image Correlation,DIC)是一种新发展起来的光学测量方法,其主要目的是研究待测物体的应力应变情况。目前,国内外学者对数字图像相关法的研究主要围

学位

数字图像相关法Tikhonov正则化亚像素配准X射线CT

基于YOLOv3的流水线上重叠目标检测研究

目标检测是计算机视觉研究的热门领域,也是目标跟踪、姿态识别和行为识别的关键,在视频目标智能监控、目标行为姿态识别、流水线产品检测识别、医学图像分析等系统中被广泛应

学位

重叠检测深度学习高斯背景建模网络结构特征提取

基于FPGA的制冷型红外成像电路设计

制冷型红外成像系统的主要特点是其系统组件多了制冷机,主要用于负责红外探测器的制冷,使其工作温度恒定在一定的低温下,保证了红外探测器的灵敏度,降低了系统自身产生的热噪

学位

制冷型红外探测器FPGA红外成像

高一学生科学本质观现状调查及对策研究

全面提高每个学生的科学素养已经成为了科学教育的核心理念,而评价学生科学素养的重要指标之一是学生的科学本质观水平。那么学生的科学本质观现状水平如何?形成这种差异的原

学位

科学本质观科学本质教学现状调查对策研究

基于异构多核环境下微内核操作系统通信机制的研究

随着智能硬件逐渐进入大众的视野,使得嵌入式设备的开发愈来愈繁杂。使用广泛的单核处理器以及同构多核处理器的处理性能已经很难达到应用需求。为了减弱开发难度提升计算机

学位

异构多核处理器微内核操作系统通信机制任务映射算法

高分子量聚乙烯/线性低密度聚乙烯/超支化聚酯酰胺共混纤维的制备与研究

高强高模聚乙烯(HSHMPE)纤维具有高强、高模、质轻柔软、优良的耐磨、耐化学和抗冲击等许多优异的性能,被广泛的应用于工业和一些特殊领域中。但是由于HSHMPE分子量极高,大分

学位

HMWPE/LLDPE/HBP共混纤维超支化聚酰胺酯流动改性结晶性能纺丝改性结构与性能

基于对抗迁移网络的室内Wi-Fi位置指纹地图生成及定位方法研究

随着Wi-Fi接入点的广泛覆盖,基于Wi-Fi的室内定位技术成为室内定位技术的热门研究方向之一。现有研究多是针对同一环境中的Wi-Fi定位问题,建立或优化基于Wi-Fi位置指纹库的多

学位

环境迁移的Wi-Fi定位对抗迁移网络Wi-Fi位置指纹地图控制点约束变换

基于敏感信息邻近抵抗的匿名方法研究

数据匿名化因其安全性和有效性所特有的优势,常被用于解决数据发布的隐私泄露问题。针对相似性攻击造成隐私泄露的问题,本文提出(r,k)–匿名模型,基于敏感属性邻近关联,设定

学位

隐私保护数据匿名邻近关联模糊聚类数据泛化

基于Doc2Vec算法和图模型的中文自动摘要研究

与本文相关的学术论文