面向开放文本的领域概念间层次结构抽取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:mwd2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,网络数据呈现爆炸式增长趋势。如何从海量的网络数据中快速高效获取知识信息成为了网络数据时代亟需解决的问题。在众多知识获取的方法中,构建领域知识库的方法因其高效实用性得到人们的广泛关注。  在领域知识库中,领域概念的层次结构是必不可少的关键要素。领域概念层次结构的构建也是领域知识库构建的首要步骤。领域概念层次结构由领域概念和领域概念关系构成。针对这两个组成部分,现有的领域概念层次结构存在低频领域概念识别率低,领域概念关系识别不准确,概念层次结构数据稀疏等问题。本文针对开放文本无结构,噪声大的特点,提出并实现了一种自动化的领域概念层次结构抽取方法。该方法能够构建领域概念丰富、概念关系准确,层级组织结构严谨的领域概念层次结构。具体的研究内容如下:  (1)针对低频领域概念识别率低的问题,本文提出了一种利用词向量扩展的加权HITS(WHITS)的领域概念抽取方法。该方法首先提出了一种新的词向量扩展方法,在此基础上,利用领域概念和领域概念对应的词向量构建二分图,使用WHITS算法获取领域相关的概念。实验表明,WHITS较已有的基于领域概念统计的互信息(MI)方法,领域一致性(Domain Cohesion)方法,HITS的领域概念方法在低频词抽取的F1值上分别提高了5%,6%,15%。  (2)针对领域概念关系识别不准确的问题,本文提出了利用相似概念对共现句子集合共同表征同一关系特征的“基于多句特征概念关系抽取方法”。该方法首先利用领域概念的词向量特征,语义特征,字面特征组合进行聚类,得到领域概念相近的聚类团。在同一聚类团中提取相近的候选概念对统一表达某种关系特征,训练分类模型进行关系识别。实验表明,这种方法较基于单句特征的关系抽取方法在F1值上提高了3.4%。  (3)针对构建的概念层次结构的稀疏性的问题,本文提出了基于概念相似度的潜在概念关系推断的方法。实验表明,这种潜在关系推断方法能够有效的改善概念层次结构稀疏带来的层次结构“扁平化”的问题。  最后,本文将领域概念层次结构的抽取方法应用在特定领域文档集合中,并将抽取的概念层次结构应用到系统中进行概念关联推荐和概念谱系展示,证明了该方法的实用性。
其他文献
桌面云作为云计算的一个典型应用,能够缓解传统实验室机房的诸多弊端:硬件成本高、资源利用率低、管理维护成本高、噪音辐射大等。本质上,桌面云成本的降低和资源利用率的提高
松散的结构化数据的提取和整合方法在很多方面都得到了应用,例如基于论坛的模式识别,博客数据分析,书评分析和新闻评论分析。但是目前的方法都只是针对刚性的结构化数据,还没有一
近年来,随着证券市场的迅猛发展,证券市场面临着前所未有的波动,日益增大的风险严重威胁着证券公司的生存和发展,同时内外部环境的迅速变化对于证券公司的风险控制能力提出了更高
云计算是当前互联网IT领域的最重要的发展趋势之一,大量的数据中心将采用云平台进行更新换代。云平台主要有公有云和私有云两种模式,前者用户将服务和数据托管到第三方服务商的
异构系统通过适度的“定制”计算、存储资源来满足计算资源需求各异的不同类型应用。与同构系统相比,异构系统具备高能效的优势。然而,相较于同构系统,异构系统结构复杂,优化空间
随着企业信息化、网络化的飞速发展,各种基于网络的应用不断扩展延伸,各种新的系统不断的被引入,使企业形成了一种多应用系统并存的局面。这给企业对这些应用系统的管理和应
学位
随着物联网技术的提出,以需求为导向的各类物联网应用不断出现。其中传感器网络作为物联网重要的信息感知与传输部分,是目前的研究热点。然而,传感网自身具有一些显著的特点:资
学位
本文主要研究了如何基于TCL语言开发脚本程序,从而对三层交换机网络协议功能进行测试。三层交换机技术的出现使IP网络成为更加经济的网络连接方式,它具备路由器所具有的路由
随着硬件技术的不断革新,硬件平台的处理能力不断增强,硬件成本不断下降,嵌入式软件已成为产品的数字化改造、智能化增值的关键性、带动性技术,嵌入式软件开发在软件领域的比重越