基于维基百科的领域概念语义知识库的自动构建方法

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:songshaona
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以大型开放式网络课程MOOC(massive open online courses)为代表的网络化教学模式的兴起,为了更好地满足学习者对学习资源的细粒度、高质量的检索要求,利用信息抽取方法构建面向机器算法使用的、能动态更新的领域概念语义知识库,该知识库对支持MOOC系统对学习资源按语义进行检索具有重要意义。本文在研究分析现有语义知识库存在静态性和有限性的不足,难以满足大规模网络文本信息检索需要的基础上,对语义知识库的自动构建和动态更新进行了深入研究,具体工作如下:(1)针对信息抽取方法存在抽取的关键词不能准确地表示概念的语义和抽取到的关键词权重值区分度不明显的问题,提出使用LDA主题模型与TF-IDF算法相结合的方法,充分利用LDA主题模型抽取的关键词语义表示全面、TF-IDF算法抽取的关键词权重值区分度明显的优点,较好地解决了语义表示不准确和关键词权重值区分度不明显的问题,与其它关键词抽取方法相比效果有显著提升。(2)针对概念知识库语义表示不全面的问题,提出采用关键词表示概念本身的语义,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库,不仅有概念间的链接关系,还有概念自身的语义关系,构建的概念知识库语义表示全面。(3)针对概念间语义相似度计算不准确的问题,对构建好的概念语义知识库采用图的随机游走算法计算概念间语义相似度,充分利用随机游走算法经过多次迭代概率值达到稳定的优点,本实验准确率能够达到84%以上,充分验证了采用图的随机游走算法计算知识库概念语义相似度的有效性。(4)针对语义知识库概念节点规模相对较小需要动态更新的问题,充分利用Word2vec的Skip-gram模型“能跳过某些符号”的优点,通过获取一个词的近义词来扩充节点个数,从而实现了知识库的动态更新。
其他文献
新时期,随着我国经济的发展,社会的转型,我国的教育体制不断的进行完善和改革,传统的教学模式已经完全不能适应时代的发展,教学改革已经成为我国各大高校的必然之路。本文就
随着我国证券市场改革的深化和资本市场的快速发展,上市公司也更显著地暴露在错综复杂的市场风险之中,许多公司由于种种原因发生了财务危机,甚至面临退市的风险。上市公司的
由于近年来全球范围的石油能源的短缺和全球变暖导致的极端天气带来的巨大影响,易获得的生物质作为可替代型能源越来越受到关注。微生物燃料电池作为利用电化学活性微生物作
随着职业技术教育的课程改革,学分制的普及势在必行,本系统即是为选修课的顺利开展而开发的网上选课系统。以往的选课方法是填表报名,这种方法虽然直接,但是造成选课的盲目性
在自然条件较为严酷的黄土高原干旱半干旱地区,生态环境一直是制约当地经济发展、人民生活水平的主要因素,长期以来,人类为治理生态环境付出了艰辛的努力,也取得了一定的成绩
在企业成长的过程中,企业的社会网络关系发挥了重要的作用。本文通过研究我国上市公司间连锁董事关联关系,总结出我国连锁董事网络发展的原因和规律,这对于企业中董事作用的
近年来,全民健身已经成为国家重点发展的领域,本文在调查的基础上,对北京市居民的健身现状进行了全面描述,通过对北京市居民进行问卷调查和对资深健身者进行访谈获取一手数据
目的:肠特灵水丸为我院经多年临床实践研制的治疗溃疡性结肠炎的院内制剂,通过该项目研究,对肠特灵水丸的临床疗效进行综合评价,并进一步明确其作用机理,为开发六类新药及临
植物纤维/聚乳酸(PLA)复合材料由于其能够完全降解、来源于可再生资源等优势逐渐引起研究者的关注。但其不足也很明显,植物纤维和聚乳酸亲和性差,造成复合材料的界面性能较差,
在Web2.0时代,互联网在成为世界上最大的知识库以给人们带来巨大便利的同时,也引发了 “知识迷航”、“知识泛滥”等问题。近年来兴起的Web知识推送能够解决这些问题,其以Web