基于Doc2Vec算法和图模型的中文自动摘要研究

来源 :西安建筑科技大学 | 被引量 : 0次 | 上传用户:ffanhaixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在飞速发展的大数据时代,知识资源日益丰富和膨胀,为使用户能够从海量互联网信息中快速获取准确信息,需利用自动摘要技术,浓缩文本信息。自动摘要是运用计算机技术对文本文档进行压缩,提炼出文档的主要内容,方便读者快速把握文章主旨。本文主要针对单文档的抽取式自动摘要技术进行研究。TextRank算法是基于图模型自动摘要领域的经典算法之一,属于无监督方法,无需训练语料,可操作性较强。该算法的主要思路是将句子作为图模型节点,将句子间相似度作为图模型的边,创建图模型,采用TextRank的迭代公式计算出每个句子的最终权重,抽取出权重得分较高的一定数量的句子作为摘要。考虑到该方法在图模型构建中对于边权重相似度计算方法不够理想、节点权重计算考虑不全面以及抽取多个句子作为摘要句会出现冗余这三方面的问题,本文结合中文文本的特点对TextRank算法进行了优化:(1)TextRank自动摘要在构建图模型的边时,简单的通过两句子间词汇覆盖率来衡量句子间的相似度,忽略了句子的语义信息。因此,本文利用Doc2Vec模型,将文本转化为包含语义和上下文信息的指定维度的数字向量,在此基础上结合余弦相似度公式对句子间的相似度进行度量,能够更加准确反映句子间的关系。(2)对传统TextRank算法的句子权重部分进行改进,在TextRank算法的句子权重基础上,综合考虑句子与文章标题的相似度、句子所处段落中的位置以及标志词等摘要句特征,对句子权值进行修正,这样能够更加突出特殊句子本身的结构特征,为摘要句的提取奠定基础。(3)考虑到提取摘要句时受句子相似度影响较大,会有多个表达相同含义的句子被提取从而造成冗余,使用最大边缘相关算法对得到的摘要候选句群作冗余处理。实验结果表明,本文“Doc2Vec结合改进的TextRank算法”提取出的摘要句与改进前相比,以“10%”和“20%”压缩率提取的摘要F值分别提高了12.73%和17.19%,说明该算法能够有效提高自动摘要的准确性。
其他文献
学术著作是某一领域研究成果的呈现,也是这一领域的学者们在进行研究时重要的参考资料。因此翻译学术著作对推动学术发展具有重要意义。山姆·谢泼德是当代美国最伟大的戏剧作家之一,共创作过50多部戏剧。他一生获奖无数,凭借《被埋葬的孩子》于1979年摘得普利策奖。《剑桥文学指南—山姆·谢泼德》是研究谢泼德的权威著作之一。《与生俱来的创伤:山姆·谢泼德的戏剧之旅》是本书的第一章,此次翻译实践报告基于的翻译语料
有限的信道容量和数据传输速率,逐渐制约用户合理的工作,以往的信道复用技术已经力不从心。轨道角动量(OAM)描述了电磁波携带动量的轨道部分,波束特征是螺旋状的相位分布,以
数字图像相关法(Digital Image Correlation,DIC)是一种新发展起来的光学测量方法,其主要目的是研究待测物体的应力应变情况。目前,国内外学者对数字图像相关法的研究主要围
目标检测是计算机视觉研究的热门领域,也是目标跟踪、姿态识别和行为识别的关键,在视频目标智能监控、目标行为姿态识别、流水线产品检测识别、医学图像分析等系统中被广泛应
制冷型红外成像系统的主要特点是其系统组件多了制冷机,主要用于负责红外探测器的制冷,使其工作温度恒定在一定的低温下,保证了红外探测器的灵敏度,降低了系统自身产生的热噪
全面提高每个学生的科学素养已经成为了科学教育的核心理念,而评价学生科学素养的重要指标之一是学生的科学本质观水平。那么学生的科学本质观现状水平如何?形成这种差异的原
随着智能硬件逐渐进入大众的视野,使得嵌入式设备的开发愈来愈繁杂。使用广泛的单核处理器以及同构多核处理器的处理性能已经很难达到应用需求。为了减弱开发难度提升计算机
高强高模聚乙烯(HSHMPE)纤维具有高强、高模、质轻柔软、优良的耐磨、耐化学和抗冲击等许多优异的性能,被广泛的应用于工业和一些特殊领域中。但是由于HSHMPE分子量极高,大分
随着Wi-Fi接入点的广泛覆盖,基于Wi-Fi的室内定位技术成为室内定位技术的热门研究方向之一。现有研究多是针对同一环境中的Wi-Fi定位问题,建立或优化基于Wi-Fi位置指纹库的多
数据匿名化因其安全性和有效性所特有的优势,常被用于解决数据发布的隐私泄露问题。针对相似性攻击造成隐私泄露的问题,本文提出(r,k)–匿名模型,基于敏感属性邻近关联,设定