基于深度语义挖掘的标题生成技术研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:jimmy7872
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化的迅速发展给人们带来便利的同时,也使得网络中充斥着大量冗余、非结构化的文本信息,这也大大降低了人们获取信息的效率。自动摘要技术可以帮助人们快速地获取信息,而利用标题生成技术则可以获得更加简洁的摘要。本文将其作为研究任务,针对短文本语料和长文本语料,分别从文本特征表示和层级模型两个方面深入挖掘文本语义信息进行标题生成。在文本特征表示方面,为了深入挖掘语义信息,本文针对短文本语料进行了基于词向量的文本特征表示研究。在词向量基础上,引入多种抽取式摘要中常用的特征,如词频、位置、聚类以及层次分布等特征,使文本特征表示对标题生成具有任务倾向性,并对这些文本特征的不同组合和表示进行相关研究;引入这些特征可以从语言学、统计学等角度对文本语义进行深入挖掘。在特征表示时,本文将词向量与引入特征直接进行拼接;并在此基础上,针对标题生成任务训练专门的词向量,利用命名实体,词性、主题特征等信息构造新的词向量训练语料,以期得到的词向量包含部分语言学和统计学信息等。在标题生成任务中引入抽取式摘要特征可以与词向量在表示语义时相互补充,从而全面多角度地深入挖掘文本语义信息。通过对比实验验证其有效性。此外,对稀疏词语义进行不同类别的细化表示,实验表明其对性能提升有一定作用。在模型方面,本文提出了一种标题生成的层级模型,利用抽样算法和序列映射两个过程深入挖掘文本的重要语义信息。其中,抽样算法包括抽样概率公式和行列式点过程(Determinantal Point Processes,DPPs)抽样;序列映射主要利用序列到序列模型实现输入序列到输出序列的语义映射。针对短文本语料先利用所构造的抽样概率公式进行词抽样挖掘重要语义信息,然后利用序列到序列模型生成标题;针对长文本语料先利用DPPs进行句子抽样筛选语义信息,并提出静态DPPs抽样算法和动态DPPs抽样算法增加筛选语义的多样性;实验结果表明,层级模型中动态DPPs抽样算法将抽样得到长摘要的字数限制在一定范围时,能够提高长文本语料标题生成的质量。
其他文献
有关乡村治理的学术研究和政策研究,著述颇丰。但问题是,过于宏大、抽象的宏观理论分析与专注于个别经验的微观研究,以及各种建言献策,似乎不能对乡村治理的经验事实带来多大
本文介绍了一种地坪漆刮涂设备的结构设计及制造过程,将传统的手工作业方式加以创新,设计成一款集称重、配比、刮涂于一体的机械设备,并在生产实践中加以应用。
通过对高位池养殖的斑节对虾体长和体质量的跟踪测量,研究了其生长特性及规律,结果表明,斑节对虾体长和体质量呈幂函数关系:W=9.613×10-6L3.069,b接近于3,呈等速生长;其生长
针对当前英语词汇和英语口语的教学需求,结合实际的教学情况,借助文本的自动分类、自动标注和信息检索技术,结合网络和人工的方法,建立大学英语口语语料库。通过对语料库中涉
为了解高校图书馆参考咨询延伸服务读者需求,笔者于2013年6月13日~16日以问卷调查的方式对中山大学图书馆内的读者进行调查。调查结果表明,当前读者主要通过网络获取信息,他
目的:通过检测2型糖尿病(type 2 diabetes mellitus,T2DM)患者血清C1q/肿瘤坏死因子相关蛋白9(CTRP9)、白介素-6(IL-6)等水平,一、探讨血清CTRP9与肥胖、T2DM患者慢性炎症、
以我国中部地区公共图书馆为例,分析公共图书馆数字参考咨询服务本地化管理现状,从人力资源、管理机制、服务方式等方面对公共图书馆数字参考咨询服务本地化管理进行探讨,以
随着3D应用在娱乐业、制造业等行业的普及,如3DTV、自由视点电视、虚拟现实、3D游戏和机器人视觉等,多样的3D应用已经悄然来到人们身边。其中多视点视频系统采用基于深度的绘
俗话说:“五千年文明看山西”,在山西这片黄土地上蕴藏着古老深厚的华夏文化。这里既是炎黄传说的发源地,也是中国古老神话的故乡:女娲补天、后羿射日、精卫填海等神话故事,多起源于此。三晋文明,源远流长,在黄河水的浸润滋养下,三晋母亲给予了舞蹈艺术工作者们创造“黄河派”舞蹈的丰厚资源与肥沃土地。山西,她不仅是中华舞蹈文化的摇篮,也是民间舞蹈艺术的海洋,而山西民间舞则是山西~((1))悠长历史文明的“活化石
陕西关中地区农村住宅建筑热工性能普遍偏差,建筑缺乏节能设计指导,建筑能耗高,不利于农村能源的可持续发展。而关中大部分属于寒冷气候区,采暖能耗是当地建筑能耗的主要部分