基于维基百科构建语义知识库及其在文本分类领域的应用研究

被引量 : 0次 | 上传用户:anying_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代,如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务,成为了一个非常重要的研究课题。研究发现目前语义知识的来源大致可以分为两类:一类是人工构造的语义知识库(如Hownet);另一类是大规模的真实文本,包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库),各种百科知识库(如维基百科等)。研究表明:人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此,本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面:1.本文在知识的形式化表示方面采用了以语义标签为指代,语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑,并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略,并引入了概率信息,从而更精准的描述语义,并且可以很方便的融入到现有的文本计算模型中去。2.本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法,针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作,对维基百科页面之间的丰富链接关系进行挖掘,建立起了一个维基百科语义知识库。3.为了证明该语义知识库的有效性。结合之前对中文文本分类的研究,本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。实验结果表明,本文所构造的语义知识库在文本分类领域确实能提高分类精度,证明了语义知识库的有效性。
其他文献
本文在遵循第二次地名普查技术规程的基础上,通过结合天地图·广西,利用互联网,设计了基于天地图·广西与互联网+的地名普查工作流程。探讨了新的工作流程下开展工作
背景:临床医学的发展已先后经历了经验医学、实验医学和整体医学3个时代,医学模式正在逐步向实现生物-心理-社会医学模式过渡,疾病的干预模式也正在从主要对下游疾病终末期的
森工林区企业自成立以来,一直担负着政府职能,应当由政府承担的公检法经费一直由企业负担。随着林业可采资源的枯竭,林区已陷入危困境地,为此,国家发布文件将林区公检法人员纳入国
新形势下,党外知识分子的思想状况总体上健康稳定、积极向上。但是随着改革进程的深入和经济社会的快速发展,特别是队伍结构中呈现的年轻化和代际更替趋势,党外知识分子的思
【本刊讯】 恒天然宣布将投资近2 000万新西兰元扩建位于特拉帕的工厂,从而满足中国市场对于高附加值乳制品,特别是奶油、奶酪和小黄油的旺盛需求。中国是恒天然消费品牌和餐
就云南西石高速公路内在美建设,从功能美、安全美、经济美、和谐美、持续美等方面分别进行了介绍。
本文从气象因素、水稻耕作制度因素及化学防治因素等方面分析了我国近年来水稻褐飞虱暴发成灾的原因。褐飞虱迁入足够的虫源基数是大发生的基础,适宜的气候条件是大发生的关键
高效数学学习是从三个维度来认识的:在学生的时间投入方面,指能够充分利用时间,数学学习时间合理;在数学学习结果方面体现为达到多方面的学习效果(掌握相应的数学知识和思想方
随着社会各界对青少年教育问题的日益关注,越来越多的教育专家和学者意识到亲职教育的重要性和必要性。青少年的健康成长关系到国家的未来,而亲职教育是提高青少年素质的必要
随着中国社会经济快速而全面的发展,高等职业技术教育也相应得到了长足发展。高职的教育研究和实践理论都获得了很大提高。然而由于种种原因,我国高职公共基础课程教学没有走