论文部分内容阅读
随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。在如今信息发达的时代,如何从海量的文本信息中获取其丰富的语义知识、如何利用这些语义知识为现有的自然语言处理提供可靠的服务,成为了一个非常重要的研究课题。研究发现目前语义知识的来源大致可以分为两类:一类是人工构造的语义知识库(如Hownet);另一类是大规模的真实文本,包括互联网上的海量文本、各种离线文本集合(如各种规模的语料库),各种百科知识库(如维基百科等)。研究表明:人工构造的语义知识库已经很难满足日益增长的网络信息处理的需求。因此,本文提出了从一定规模的维基百科语料库中自动构建知识库的方法。本文的主要工作包含以下几个方面:1.本文在知识的形式化表示方面采用了以语义标签为指代,语义指纹来刻画语义的方法。该表示方法认为每一个概念(词条)都是有一定的背景信息作为支撑,并且提出了以概率公式来量化语义指纹对语义标签的贡献度。该表示方法借鉴了人工知识库显式表征语义知识的策略,并引入了概率信息,从而更精准的描述语义,并且可以很方便的融入到现有的文本计算模型中去。2.本文利用所提出的语义标签、语义指纹形式化表示知识单元的方法,针对一定规模的维基百科语料库进行了预处理、语义标签选取、相关概念抽取、贡献度值的确定等操作,对维基百科页面之间的丰富链接关系进行挖掘,建立起了一个维基百科语义知识库。3.为了证明该语义知识库的有效性。结合之前对中文文本分类的研究,本文提出了利用该语义知识库对文本词条进行扩充从而提高文本分类精度的方法。并且利用该方法与传统的文本分类方法进行了对比实验证明知识库的有效性。实验结果表明,本文所构造的语义知识库在文本分类领域确实能提高分类精度,证明了语义知识库的有效性。