基于百科词条的概念聚类方法研究

来源 :福州大学 | 被引量 : 1次 | 上传用户:betty5918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体在知识管理、语义检索、人工智能、语义Web等相关领域的广泛应用,使得本体学习,即采用机器学习方法(半)自动构建本体,得到了深入研究。对于不同的本体对象,本体学习可以分成概念学习与关系学习。其中,关系学习是指采用计算机(半)自动地快速地发现概念间关系。在这个信息快速发展的时代,新的概念层见叠出,也改变了概念之间的关系。针对自动获得概念之间的关系的困难,本文提出一种基于百科词条的概念聚类方法,支持自动构建领域本体。本文主要研究内容:(1)研究基于百科词条的概念向量模型。基于已有的领域概念集合,分别获取每个概念的百科词条文本并进行语料预处理,然后对每一领域概念建表并存储词语和词频,为之后概念聚类中计算概念向量之间的距离需要扩展词语时提供数据依据。依据左信息熵和右信息熵,过滤不独立词语,获得领域特征词。基于领域的特征词建立领域的概念向量模型,其中,向量模型中的每个概念由领域特征词在概念中的词频表示。将整个语料作为共现窗口,可以提高概念聚类算法的准确率。(2)研究基于距离判别的概念聚类方法。基于概念向量模型,即采用马氏距离计算概念间距离,采用重心距离计算概念到类中心的距离,每次迭代都需要改变所属的类别,经过多次迭代后直至聚类结果不再改变。所得到的概念类别中的概念间视为存在语义关系,提交领域专家人工修正。对电子商务领域、知识管理领域和管理信息系统领域三个领域的概念集合,分别采用本文方法和k-means方法进行概念聚类试验进行性能分析,结果表明,在聚类匹配度、准确率、F-Score与度量聚类结果相似度RI方面,本文的概念聚类方法均比k-means聚类方法高。(3)概念聚类方法应用研究。设计实现了一个基于百科词条的概念聚类方法实验系统,展示了实验步骤和结果界面,证实了本文提出的概念聚类方法的有效性与可行性。总体上,跟经典的聚类方法作比较,本文中提出的概念聚类方法有更好而且更加稳定的概念聚类结果。
其他文献
急倾斜煤层开挖扰动区煤体动态变形具有明显局部化特征,易诱致动力学破坏。以大洪沟矿巷道动压防治为目标,通过煤岩局部化变形指标分析,室内测试、现场光学观测和表面变形监测等
类NADC30毒株是猪繁殖与呼吸综合征病毒(PRRSV)的一个新亚型毒株,近年来在我国不少地区被分离发现。不同于经典毒株和高致病性变异株,类NADC30毒株的出现增加了PRRSV流行毒株
随着互联网+时代的到来,互联网已经在我们生活中越来越普及,渗透着我们生活的各个方面。而在各种运营模式中O2O运营模式,这种中文名离线商务模式,就是利用互联网给线下商务提
加强对常见病症的研究,提出有效的防治技术,有利于促进水稻种植业的发展.本文探讨了水稻病虫害产生的具体原因,如缺乏早期病虫害的防治意识、选择药物不合理、防治方法较为单
武汉地区长江一级阶地是典型的二元结构地层,承压水与长江和汉江贯通,地下水位的变化极易对该区域的基坑工程造成危害,尤其是当基坑地连墙存在渗漏点时。假设承压水位上升导
据湖北省畜牧兽医局网站2018年12月16日报道,为解决防控非洲猪瘟期间规模养殖场生猪压栏、种猪仔猪调运困难等问题,湖北省重大动物疫病防控指挥部办公室印发了《关于省内生猪
在西部大开发的背景下,站在经济全球化的高度,全面审视一个壮族大县,建设农业强县,是建设广西农业强省的重要组成部分,对于振兴壮族经济,促进民族地区稳定具有深远意义.在此,
期刊
<正>1964年,周恩来同志亲手种下第一棵油橄榄。时至今日,当初的希望火种历经几十年的传递,点亮了中华大地。我国油橄榄种植面积曾达到2300万株、遍布全国16个省区。油橄榄枝
阐述了天然气集输及处理站场中几种典型液位计的基本原理、特点和典型配置,以及在天然气集输及处理站场中的应用。在几种液位计进行比较后,以延长气田天然气地面集输工程中集
本文以西安高端数控机床项目为例,利用BIM技术从组织策划工作到场地布置、施工模拟、三维可视化技术交底、VR质量样板展示、图纸问题查找、型钢混凝土粱柱节点等方案选型方面