基于WMD语义相似度的单文档核心主题句识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:xmzhkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络科技论文的逐渐丰富,开放获取及语义出版带来的全文数据的日益普及,对海量论文资源进行分析、挖掘以及有效组织的需求愈发明显。识别领域科技论文中的核心主题句,即对全文中描述和揭示研究主题的关键语句进行鉴别和抽取,不仅能实现科技论文的自动摘要,帮助研究者快速发现论文中相对有价值的内容,同时也可实现领域核心内容的有效组织,为领域内大规模的文本理解、知识问答等提供可靠的数据基础。  本研究以领域英文科技论文为研究对象,目标是识别单文档中的核心主题句,利用词向量以训练数据量大小不同构建了两种句子分类模型,并基于WMD语义相似度,以无监督TextRank迭代计算和外部特征优化的方法实现了核心主题句的有效识别,较传统方法效果有所提升。具体而言,主要进行了以下工作:  (1)详细调研、分析了与核心主题句识别与分类的相关研究,包括文本表示、文本分类及核心主题句识别;对科技论文核心主题句的特征进行分析,并归纳为统计特征与语言特征;对词向量的训练过程、所具有的语义特性进行分析,并使用领域语料进行实验与总结。  (2)在句子类型特征基础上,数据量较小时选择小样本自训练方法;数据量较大时,采用添加Word2vec层优化输入层搭建LSTM句子分类模型,同时进行了分类实验,并针对实验结果总结了可取和不足之处,提出了可能的改进方案。  (3)基于词向量利用WMD改进了句子相似度计算方法,以论文小节为单位对各句子进行TextRank迭代计算,利用外部特征对句子权值进行了调整,识别科技论文中的核心主题句。使用示例领域数据进行了实验,对实验结果进行了分析、总结及改进,最终识别F1值为35.24%,较原方法提升了5%。
其他文献
在分析图书馆读者满意度评价工作中指标体系关键作用的基础上,给出基于相关性理论的指标集智能优化技术和具体步骤以及基于BP神经网络的权值优化模型和步骤,并针对具体权值优
张家口市在地市合并之后,消除了城乡分割的状况,充分发挥自然资源和地理优势,市场建设有较大突破,仅去年就新建和改建市场74个,注入固定资产和土地投资达4500万元,比地市合
总集观念的基本特征在于将“总集”与“总集类”区别对待,这有助于廓清以往关于总集的模糊认识.西晋挚虞的以例称善,标举其为总集之轨则.“总集类”只是以“总集”之名提其纲
语义相似度计算是信息处理技术中的一个关键问题.提出基于叙词表、基于距离的概念语义相似度计算方法,详细叙述其计算流程.在此基础上,利用中的实际数据展开分析验证,从计算
介绍国内数字资源招标采购的现状,归纳外文数字资源招标采购存在的问题,提出有效开展外文数字资源政府采购的三种模式:委托联盟采购、区域联盟采购纳入地方政府采购和用户自
政府商业性信息资源强调政府信息的可经营性与市场化开发利用特征,与政府增值信息、政府信息再利用等概念既有区别又有联系。在总结西方国家政府商业性信息资源市场化开发利
估算题是考试中一种新题型,它的特点是物理背景或物理过程比较模糊,待求量与已知量之间的联系比较隐秘,同学们往往感到无从下手,本文总结介绍几种常用方法供参考.rn直接判判
期刊
知识管理简单来说是指帮助人们对拥有的知识进行反思,帮助和发展支持人们进行知识交流的技术和企业内部结构,并帮助人们获得知识来源,促进他们之间进行知识的交流的一种管理
情报学理论原创首先意味着情报学要成为自身,那么情报学缘何“殖民化”就逻辑地成为情报学理论原创这一课题必需解答的问题.目前的情报学存在着一种狂妄的理性,没有区分情报
题源:冠霆和敬康同学在社团活动室做实验.如图1甲所示,盛有水的瓶子静止在水平桌面上,瓶子重1N、高9cm、底面积40 cm2,瓶内水重2N、深5 cm,水的密度为1.0×103 kg/m3,取g=10
期刊