基于本体的知识库分类研究

被引量 : 0次 | 上传用户:myhotdonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言知识库是自然语言处理的基础资源,知识库中知识的丰富程度、知识表示形式以及知识的组织方式直接关系到基于知识库的自然语言处理应用的性能。现有基于领域分类的知识库大多是在以人为对象的词典基础之上建立起来的,知识的覆盖度低,知识库更新周期长,独立存储的领域知识无法满足知识共享以及降低知识冗余的需求。另一方面,现有自然语言处理应用大多只涉及到词汇层面的知识,而以概念以及概念之间的关系为描述对象的语义知识很少被使用,从而限制了相关应用的性能。针对现有知识库在构建和使用中存在的不足,本文提出一种基于通用电子词典来自动扩充领域词典的词汇领域标注方法,并借助本体知识库良好的分类特性、概念的形式化描述来改善现有知识库在知识表示、知识存储和知识共享等方面的性能。本文的主要工作包括以下四个方面:1.提出一种基于词汇注释信息的单词领域标注方法。该方法利用领域词典和一部包括词汇注释信息的通用电子词典来训练领域标注模型,并利用该模型自动为通用电子词典中的新词加注领域标记,在降低人力成本的前提下提高知识库的覆盖度;2.提出一种自适应的层次化分类体系生成方法,并在该分类体系的基础上实现层次化的领域标注。该方法利用领域词典所包含的词汇信息来分析领域之间的相关度,在此基础上自动生成层次化分类树,并进一步实现自顶向下的层次化领域标注方法;3.针对领域术语存在“一词多义”和“多词同义”的问题,提出一种基于本体的概念化特征描述模型C-VSM,通过将文本中的词汇映射到本体上的概念节点,达到词义消歧和合并同义词的目的,在有效减少文本特征数量的同时提高主要特征的权重,从而提高文本表示的准确性;在此基础上实现训练文本和待分类文本的概念化表示,从而将C-VSM用于传统的文本分类器;4.研究实现了基于C-VSM模型的文本分类算法,包括特征选择方法、特征权重计算和文本相似度计算等。针对低频特征和非平衡语料对文本分类性能的影响,提出一种信息增益和文档频率相结合的均匀特征选择方法;在此基础上通过分析概念间的语义关系来调整特征的权重值,并实现了一种新的文本相似度计算方法。
其他文献
目的:了解T淋巴细胞相关肿瘤免疫疗法的研究进展,以期为肿瘤的免疫治疗提供参考。方法:笔者查阅近年来国内外相关文献,就T淋巴细胞相关肿瘤免疫疗法的研究进行归纳和总结。结
工程文化教育是一种全新的工程教育模式.它将工程教育与科学文化教育、人文文化教育有机融合,是一种学科交叉渗透整合性的教育,知识、能力、素质三维目标统一性的教育,文化、
随着城市的迅速发展和工业化进程加速,国民经济不断提高,但是随之而来的各种城市污染问题却越来越严重,其中水资源的污染问题尤为突出,成为一个亟待解决的问题。新建污水厂进
当今社会的大环境下,隧道的建设已经非常普遍,岩溶地区的隧道修建也越来越多。然而,岩溶地区隧道修建过程中,经常遇到突水突泥、岩爆、瓦斯等地质灾害,其轻则冲毁机具、贻误
混凝土获得高耐久性的关键因素是提高混凝土的抗渗性。首先对比分析了现有的关于混凝土材料水分渗透性评价方法,然后采用渗透高度法以及稳态渗流法推导出几组添加不同粉煤灰用
众所周知,语言和文化密不可分,人们越来越重视文化教学在外语教学中的作用。但是这种文化教学主要体现在对于目的与文化的教学,从而忽视了学习者本族语文化的输入,导致他们无法用
自由基是具有非偶电子的基团或原子,在人体内积累到一定量时,攻击细胞膜、酶、糖类、DNA等,引起氧化损伤相关疾病,如老年性痴呆、帕金森病、肿瘤及炎症等。目前应用于临床上的抗
HD房地产公司作为以房地产开发为主的中大型国有企业,为改变法人治理结构不健全,业务布局不合理,市场开拓能力较弱等现状,难以规避房地产行业周期性的变化的系统风险,将房地
研究背景维生素D3是目前临床上治疗骨质疏松的常用药物,它在体内通过羟化生成活性代谢产物1,25(OH)2D3(1a,25-dihydroxyvitamin D3)而发挥生理作用。1,25(OH)2D3是一种具有多
随着人类社会的发展,文化与经济、科技之间的相互渗透性、相互交融性日益增强,文化在整个社会中的意义与价值越来越明显。文化产业越来越引起人们的重视和青睐,许多国家都把