基于维基百科的渔业知识库构建研究

被引量 : 3次 | 上传用户:fky12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的目标在于利用维基百科作为语义知识源,构建一个渔业知识相关的语义知识库,文中针对渔业知识的特点,着重对语义相似度计算方法和实体歧义消解方法的分析与研究,并对语义相似度计算方法提出了改进,提出了自己的实体消歧算法。本文抽取维基百科页面的信息框(infobox)知识,并以三元组的形式进行表示。许多不同的语义相似度计算方法应用于自然语言处理领域,知识获取领域和信息检索领域。目前,很多研究者致力于已经存在的方法支持多本体的相似度计算,以提高相似度的关联值,本文中使用了基于特征的相似度计算方法,整个过程支持多本体方法,并使用了启发式函数。通过渔业知识数据的采集,对实体相似度计算进行了实验。经典的基于本体的语义相似度主要分为以下三种:基于路径的方法,基于特征的方法,基于信息内容的方法。基于路径的方法是最简单的一种方法,通过is-a链接计算本体节点间的最短路径,但所有的路径必须统一相等的长度。基于特征的相似度计算方法克服了基于路径相似度计算方法的缺点,基于特征的相似度计算方法中,本体中的分类链接不需要统一为相等的长度,但是要考虑本体特征集合的重叠程度。基于特征的语义相似度方法可以用于交叉本体,而基于路径的相似度计算方法不能。本文的语义相似度的优点在于,相比于Tversky的方法,本文的基于特征的相似度计算方法不使用权重参数去衡量语义特征,提高了方法的通用性。对于知识库的更新来说,知识库新实体的内容获取是比较重要的一件事情。输入新的知识到知识库之前,需要实体链接,以保证新知识的实体能够链接到知识库的实体。整个过程中,实体消歧是一个比较有挑战性的任务。命名实体消歧有很多算法。本文中,命名实体消歧的处理可以通过不同的语义关系,相似度方法分析相关文本。基于提出的方法构建了渔业知识库。本文的实体消歧算法主要侧重点有两点:第一,从维基百科,百度百科,互动百科收集大量的同义词集,以支持用户不同的搜索习惯;第二,对于存在无法消歧的实体,提出了二次消歧算法,以解决有的实体无法消歧的问题。对于渔业知识库的表示、构建、挖掘以及在搜索中的应用。目前存在的主要问题有:1)目前知识库还处于初期阶段;2)人工干预很重要;3)结构化数据在知识库的构建中起到决定性作用;4)各大搜索引擎公司为了保证知识库的质量多半采用成熟的算法;5)知识卡片的给出相对比较谨慎;6)更复杂的自然语言查询将崭露头角(如命名实体歧义消解算法)。此外,知识库的构建是多学科的结合,需要自然语言理解,机器学习和数据挖掘等多方面知识的融合。有很多开放性问题需要学术界和业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进知识库的发展。
其他文献
随着社会的发展,经济水平的不断提高,人们也越来越关注自身的健康。旅途、休息以及工作时不可避免的出现一些颈椎上的劳累,通过对充气枕的市场调查与分析,发现目前市场中充气枕类
<正>资产负债管理的调整必然伴随着对资产负债管理架构、绩效考核机制、内外部资金定价机制以及资本配置机制等的更高要求,不仅关系到银行业务发展方向、企业战略定位,还将在
威尔第在意大利歌剧历史上有着举足轻重的地位和巨大的贡献。19世纪50年代,他的歌剧《弄臣》《游吟诗人》《茶花女》等把意大利歌剧从神话传说转向了现实世界。音乐技巧娴熟,
目的:研究生大黄和酒大黄的大承气汤对其泻下作用的差异性。方法:将72只试验小鼠随机分为阳性对照组及生、空白对照组、生大黄的大承气汤(生DCQ)6、10 g·kg-1剂量组、酒大黄的
新居民学生的学习及教育问题开始越来越受到国家和各级政府的关注,而数学作为最基础的学科之一,是发展学生智力,培养学生素质的一门重要学科。本文选取嘉善县部分学校的七年级学
新中国的生育政策历经了波浪式的发展历程,从"限制节育"到"计划生育",从理论探讨到初步实施,从局部开展到全面推行。在这一过程中,伴随着经济经济结构及资源配置效率的变化,
<正>之平管理从整体社区运营的角度,精心策划运营,不仅满足业主衣食住行的需求,同时为业主创造极具价值性、愉悦的生活空间。如今,房地产开发商应该站在未来运营的角度来重新
汉赋的形成实际经历楚骚-宋玉赋-汉赋的流变过程,从写作的角度看,《诗》与汉赋并无太大关系,而论者诸如班固等将《楚辞》纳入《诗》的流变系统,将汉赋的源头上导于《诗》,曲说“赋
目的:探讨丝/苏氨酸激酶Pim-3基因对人肝癌细胞Hep G2自身生长的影响,并揭示STAT3信号通路在此过程中发挥的作用。方法:将人工合成的靶向Pim-3基因的短发夹RNA(Pim-3shRNA)和阴性