论文部分内容阅读
随着知识的爆炸性增长,如何从浩瀚的信息中找到用户最需要的部分已成为一大难题。为解决这个问题,信息检索和推荐系统从不同的层面提供了很好的帮助。信息检索通过分析文档内容提供通用的信息查询功能,而推荐系统利用用户和内容之间的关联,提供个性化的信息推送。但是,这些方法依然无法从总体上对知识进行理解,即从总体上把握知识的组成和各部分知识之间的关系。概念关系网是知识结构描述的有效手段,用于描述知识的组成部分以及各部分之间的关系。一个优良的概念关系网可以直观的展示知识的内部关系,帮助挖掘隐含的知识,用于提高知识管理系统的性能。在分析比较了现有的知识库,包括格式化的语义关系库和半结构化的知识集的基础上,文章结合了维基百科的特性和共现分析技术,提出了概念关系网快速构建和自动维护的完整解决方案。本文的关键研究内容如下:结合维基百科的知识处理技术和共现分析技术,本文提出了基于维基百科和web共现分析的概念关系网构建框架CACN-WCA(Construction Architecture of Conceptual Network Based on Wikipedia and Co-occurrence Analysis)。该框架根据概念关系网构建阶段和更新维护阶段的不同需求,分别提出了基于维基百科数据集和web数据集的解决方案。在概念关系网初始化阶段,充分利用维基百科丰富的语义信息对概念进行标记,提出维基百科中的概念关系识别模型,实现概念关系网的快速初始化;在概念关系网更新阶段以概念共现和相关度之间的联系为基础,在大规模的web数据集中,通过对概念共现信息的跟踪,实现了概念关系网的动态更新。在CACN-WCA系统结构的指导下,文章对概念关系网构建和维护的核心技术,包括维基百科概念重要度算法、维基百科概念对分析算法、新概念/新概念对识别算法以及概念对权重调整算法,进行了深入的研究。在概念关系网初始化阶段,文章以维基百科提供的数据库文件为分析素材。首先利用改进的Croughton-London规则移除数据集中包含的不完善页面,又称为stub页面,在剩余文档中,根据文档内容的完整性、可靠性等标准给不同的概念标记相应的重要度。接下来,概念对分析算法以维基百科文档为分析单位,引入了维基百科文档星型模型来表示文档词条和标记概念中的关系,从中生成概念关系对。对于每个概念对权重的计算,算法中根据这一原则:标记概念在文档中的重要度反映了该概念与文档词条的相关程度,从而利用文档中概念的语义信息计算出概念对的相关度权重。在关系网更新阶段,文章以基于web数据的共现分析技术为基础,利用新概念/新概念对识别算法和概念对权重调整算法分别实现新元素的增加和已有元素属性的调节。在新概念/新概念对识别算法中,除了出现频率这一标准,文章中还提出了累计增益的概念,从变化趋势中识别出重要的元素。在概念对权重的调节中,文章提出了概念权重衰减模型和概念权重冲激模型,在使概念权重自然衰减的同时,利用共现信息来重新提升概念对的相关权重,实现概念关系网的动态平衡。最后,由于本系统架构已经使用在具体的项目中,在理论研究的基础上,文章对于该系统结构的具体实现进行了简单的介绍,并对文章中提出的关键算法进行了实验分析。实验数据证明,基于维基百科和web共现分析的概念关系网构建框架具有较好的使用效果。