面向领域知识库构建的实体识别及关系抽取技术

被引量 : 0次 | 上传用户:lvyuguo_sh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任何一个信息处理系统都离不开数据和知识库的支持,自然语言处理系统尤其如此。人类理解自然语言需要积累大量必要的知识,计算机系统也是如此,所以要构建自然语言处理系统就要为其建立一个高质量的知识库。通过构建领域信息系统提供信息保障和智能化的决策支持,获取信息优势从而形成决策优势最终转化为领域优势。所以对于现代领域智能信息处理系统,构建领域知识库意义重大。因此,需要获取专业领域知识,构建特定领域的知识库,为自然语言处理系统“理解”特定领域的问题并顺利完成任务提供知识保障。现有的知识库多是通用领域知识库,对于一些特定领域的自然语言处理系统需要的更多是特定领域的知识。构建知识库的关键在于知识获取,知识获取方法多样主要在于知识源的选择。对于网络知识源知识获取有两项基本的任务:命名实体识别和实体关系抽取。本文将从面向特定领域知识库的角度进行这两个方面的研究。本文中的具体研究内容涉及以下几个方面:(1)本文研究了一种基于多模式融合的半监督命名实体识别方法,该方法融合了原有的利用Bootstrapping方法的命名实体识别方法和利用内模式的命名实体识别方法。针对特定领域实体将两种方法融合,F值提高了14%。(2)研究了基于中文百科的领域实体属性知识库构建方法。从面向领域的知识库构建角度从维基百科中抽取相关领域知识的语料库。并利用维基百科的Inforbox构建领域知识库。利用知识库自动标注获取的领域语料库,制定标注规范并人工标注一部分语料。在人工标注语料上平均自动标注,自动标注在两个类别的F值分别达到71.45%和75.86%。(3)利用构建好的语料库,分析实体属性抽取相关特性。针对实体属性关系抽取任务,进行特征提取。训练了最大熵和支持向量机这两种模型的有监督实体属性关系抽取分类器。利用人工标注的语料进行测试,给出相应实验结果和结果分析。
其他文献
一调查经过1997年,河北省清苑县东安村村民在村南200米处发现两个卧式石虎,命名为“东安石虎”[1 ]。两虎在距地表约 30~40厘米深处,东西相距约 7米,形态相类,相向而卧。后东
作为用途最为重要的一类水资源,饮用水安全关系到人民群众的切身利益,尽管我国饮用水在水质、水量及水资源管理方面取得了令人可喜的成绩,但仍存在些许问题。近年来,国内又发生了
随着人口的增长,城市化进程的加速,以及人们对人居环境质量更高的追求,山地居住区越来越受到当代中国城市发展进程当中居住区建设的选择与青睐。山地居住区由于其特殊性,不但受到
随着航空航天等高新技术的发展,具有优良高温比性能的TiAl系金属间化合物日渐受到人们关注。而Ti2AlNb基合金作为一种TiAl系金属间化合物,在结构材料领域,也逐渐成为研究热点。
随着我国教育的不断改革和发展,我国教育的数量得到大幅度的发展、质量得到大幅度的提高。普及九年制义务教育基本完成,高等教育大众化也进入发展阶段。而经济全球化和各国之
隶属函数是模糊数学中最为基本的一个概念,模糊集合完全由其隶属函数决定。应用模糊数学解决实际问题时,隶属函数的确定非常重要。隶属函数的确定过程,本质上说应该是客观的,
公路桥梁事业的发展不仅能推动我国经济社会整体发展,同时与我国社会安定也有着密不可分的关系,而提升公路桥梁施工整体质量已成为大势所趋和必然要求。公路桥梁类型以及种类
<正>"资本时代是产业整合、升级、创新的时代。重视资本价值,利用资本特有的凝聚力、渗透力、辐射力、扩张力,重构视野、创新业态,成为企业做大做强的有效武器"1。互联网作为
聚偏氟乙烯(PVDF)由于其机械性能强、具有良好的耐热性、耐化学腐蚀性、价格低廉等优势,因而在分离膜领域得到广泛地应用。然而,由于PVDF本身的疏水特性,在使用过程中,PVDF纯膜存
近年来,在建成的高速公路路面中,都或多或少的存在着水损坏的现象,水损坏现象降低了路面的行车舒适性和使用寿命。公路路基和路面结构的破坏,很大程度是由于水的存在造成的,