基于文本的领域本体学习方法及其应用研究

来源 :大连理工大学 | 被引量 : 29次 | 上传用户:renxin216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域本体是某一领域(或某一应用)的共享概念模型的形式化的明确说明。目前,领域本体已经被广泛应用于知识管理、语义服务、电子商务、人工智能等多个领域。但是,构建领域本体是一项困难的任务,人工构建费时费力。为此,相关应用领域开始热研能够支持本体(半)自动构建的本体学习方法,即,从数据源中(半)自动地提取本体对象以支持本体构建,提高构建效率并优化结果的机器学习方法。在(半)自动构建领域本体的过程中,主要存在三个问题:提取文档词语、构建领域概念集合和构建本体关系集合。相应地,本文研究了三个本体学习方法,用于从中文文本语料中半自动地提取本体对象,简化中文领域本体的构建过程:1)提出一种新的词语提取方法——原子词步长法。该方法结合原子词词性分析与串频统计来判断汉字串是否成词并建立词语集合,有效地解决了从文档中自动提取所包含的中文词语集合的问题。2)提出一种新的领域概念学习方法——领域隶属同义词分析法。该方法由两个子方法组合而成:领域隶属度分析方法和同义词合并方法,前者用于提取领域专有术语集合,后者用于消除术语集合中的同义现象。在给定合适的文本语料库的情况下,该方法能够解决领域概念集合的构建问题。3)提出一种新的本体关系学习方法—概念特征词法。该方法基于概念的特征词模型来计算两个概念之间的相关程度,学习非类属关系。合成既有的类属关系学习方法后,该方法能够有效支持本体关系集合的构建。上述三个中文领域本体的学习方法均在中文语料上做过多次试验、性能分析和算法改良,学习结果令人满意。并且,这些方法被综合使用到一个国家自然基金委项目(即信息管理和知识管理领域的术语标准化)中,得到了实际应用和验证。本文提出的基于文本的领域本体学习方法具有较高的性能和较强的实用性。在给定合适的文本语料的情况下,采用这些方法可以以人机结合的方式构建面向应用的中文领域本体。实现了构建过程中一定程度的自动化,简化了本体构建任务,从而起到促进本体的产业化发展的作用。经过适当的调整和整合之后,这些本体学习方法还可应用于语义检索、文本摘要等其他诸多领域。
其他文献
目的:探讨我国儿童感觉统合失调对学习能力的影响。方法:选取2007年1月~2009年3月收治的32例感觉统合失调儿童为病例组。以与病例组年龄、性别及智商相匹配的正常儿童作为对照组
雷电灾难常常给人们带来自身生命以及经济方面的巨大损失,同时还为社会造成了很难评估的间接性的损失,给社会带来极大的影响。电力通信系统在整个电力系统中占有重要的地位,增强
建筑模型制作的目的,不仅是审查和展示,还是创作、设计者推演、研究自己作品的重要手段。建筑模型根据不同用途分为设计研究模型、展示陈列模型及工程构造模型。针对城乡规划
混合所有制改革已经成为了国有企业改制的新方向。其中,特定领域国有上市公司民营化是推进混合所有制改革的重要方式,也是深入实施创新驱动发展战略的一种制度创新。在此背景
酸奶因其营养价值高、风味独特以及良好的保健效果,深受广大消费者的青睐。传统的酸奶是以牛乳为原料,经嗜热链球菌(Streptococcus thermophilus)和德氏乳杆菌保加利亚亚种(L
<正> 西北大学本部校园是唐长安城太平坊遗址的所在地。2002年3月,我校在平整教学十号楼(这里位于教学八楼、地质系教学楼之南,原拟建楼,后改为花园绿地)、教工第二食堂和校
中国是一个钢铁生产大国,产量约占到全球产量的一半。钢铁企业占地面积大、污染物排放量大、排污节点多,是大气污染防治管控的重点行业。钢铁企业具有废气排污节点多、无组织
大学文化软实力就是共性文化、共同理念、共守制度,持久吸引大学人凝聚共识、发展大学的力量,决定着大学的整体精神风貌、价值认同、内在品质和核心竞争力,是大学赖以生存发
正义与公平的基本涵义相近,具有一定的内在联系和相通性,但也存在着明显的差异。正义相对于公平而言,是更抽象、更上位的,正义统率着公平,公平体现着正义。符合公平原则的就
现代物流园区的信息化管理是全方位、多层次的。一般而言,物流园区规模较大,管理半径与管理纵深相应变大,做出准确决策的难度大大增加。园区管理单位不仅要负责整个物流园区