论文部分内容阅读
本论文针对目前Web文本挖掘工具的不足之处,综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术,数理统计知识,构建了一个简单易行的信息提取模型,即文本层次模型,针对因特网上三种结构类型数据,进行了基于知识库,即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义:使分类知识库建设系统化和流程化;提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案;提高同义词的识别能力;增强未登录词挖掘能力。 文本分类知识库的构建主要是利用了数据挖掘技术,数理统计知识,在进行关键词与分类号的相关度度量时,我们为了克服以前度量方法的缺陷,引入了Dice测度的方法。为了确定知识库的规模,我们对Web概念挖掘系统的实际运行结果,进行抽样分析,选择了一个整体性能较好的分类知识库,另外还引入篇名知识来进一步完善分类知识库。 在进行Web文本的主题提取时,为了区分网页不同标引源的主题表达能力,本文根据一定规模的数据调查结果,确定了具有文献依据的权重方案,对文本不同标引源的测试,获得了页面和普通文本的标引源选择方案,随后还对文本多主题挖掘进行了初步的研究。 在同义词的识别上,首次引入《同义词词林》,作为语义体系,提出了基于《同义词词林》语义体系的同义词识别算法,利用词汇间的语义相似度度量,来进行同义词识别,提高了同义词识别系统的识别性能。此外,在进行文本的自动分类时,将语义相似度匹配代替了字面相似度匹配,提高了文本的自动分类能力。 为了解决未登录的挖掘问题,提出了基于字词正向扩展的未登录词识别方法,不同于N-Gram模型的是,本方法不需庞大的语料库,利用局部统计信息即可识别出具有检索意义的未登录词。 本文最后给出了系统的实际测评结果,证明整个系统的可行性。 Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。