基于维基百科和web共现分析的概念关系网构建系统研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:winbourbit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识的爆炸性增长,如何从浩瀚的信息中找到用户最需要的部分已成为一大难题。为解决这个问题,信息检索和推荐系统从不同的层面提供了很好的帮助。信息检索通过分析文档内容提供通用的信息查询功能,而推荐系统利用用户和内容之间的关联,提供个性化的信息推送。但是,这些方法依然无法从总体上对知识进行理解,即从总体上把握知识的组成和各部分知识之间的关系。概念关系网是知识结构描述的有效手段,用于描述知识的组成部分以及各部分之间的关系。一个优良的概念关系网可以直观的展示知识的内部关系,帮助挖掘隐含的知识,用于提高知识管理系统的性能。在分析比较了现有的知识库,包括格式化的语义关系库和半结构化的知识集的基础上,文章结合了维基百科的特性和共现分析技术,提出了概念关系网快速构建和自动维护的完整解决方案。本文的关键研究内容如下:结合维基百科的知识处理技术和共现分析技术,本文提出了基于维基百科和web共现分析的概念关系网构建框架CACN-WCA(Construction Architecture of Conceptual Network Based on Wikipedia and Co-occurrence Analysis)。该框架根据概念关系网构建阶段和更新维护阶段的不同需求,分别提出了基于维基百科数据集和web数据集的解决方案。在概念关系网初始化阶段,充分利用维基百科丰富的语义信息对概念进行标记,提出维基百科中的概念关系识别模型,实现概念关系网的快速初始化;在概念关系网更新阶段以概念共现和相关度之间的联系为基础,在大规模的web数据集中,通过对概念共现信息的跟踪,实现了概念关系网的动态更新。在CACN-WCA系统结构的指导下,文章对概念关系网构建和维护的核心技术,包括维基百科概念重要度算法、维基百科概念对分析算法、新概念/新概念对识别算法以及概念对权重调整算法,进行了深入的研究。在概念关系网初始化阶段,文章以维基百科提供的数据库文件为分析素材。首先利用改进的Croughton-London规则移除数据集中包含的不完善页面,又称为stub页面,在剩余文档中,根据文档内容的完整性、可靠性等标准给不同的概念标记相应的重要度。接下来,概念对分析算法以维基百科文档为分析单位,引入了维基百科文档星型模型来表示文档词条和标记概念中的关系,从中生成概念关系对。对于每个概念对权重的计算,算法中根据这一原则:标记概念在文档中的重要度反映了该概念与文档词条的相关程度,从而利用文档中概念的语义信息计算出概念对的相关度权重。在关系网更新阶段,文章以基于web数据的共现分析技术为基础,利用新概念/新概念对识别算法和概念对权重调整算法分别实现新元素的增加和已有元素属性的调节。在新概念/新概念对识别算法中,除了出现频率这一标准,文章中还提出了累计增益的概念,从变化趋势中识别出重要的元素。在概念对权重的调节中,文章提出了概念权重衰减模型和概念权重冲激模型,在使概念权重自然衰减的同时,利用共现信息来重新提升概念对的相关权重,实现概念关系网的动态平衡。最后,由于本系统架构已经使用在具体的项目中,在理论研究的基础上,文章对于该系统结构的具体实现进行了简单的介绍,并对文章中提出的关键算法进行了实验分析。实验数据证明,基于维基百科和web共现分析的概念关系网构建框架具有较好的使用效果。
其他文献
人脸识别到目前为止还是一个比较困难的课题,特别是在人脸识别系统中针对光照不均,不稳定的问题,一直以来是人脸识别系统中必须要解决的问题,同时也是影响人脸图像识别率的关
工作流(WorkFlow)就是工作流程的计算模型。目前市场上的很多工作流产品不支持工作流模型的仿真。国家高技术研究发展计划(863计划)——“高可信软件生产工具及集成环境”中
油藏历史拟合是油藏数值模拟的关键环节。传统历史拟合存在成本高、效果差等问题。支持向量机是一种新的机器学习方法,它具有推广能力强、非线性和高维数等一系列优点。鉴于
随着网络对软件开发目标的影响,B/S架构成为中小型软件项目的主要运行模式。由于B/S架构本身的特点,应用系统的用户界面与业务逻辑分别运行于不同的运行环境中,出于降低开发成本
随着计算机技术的快速发展,图像处理技术在人们生活中得到了广泛的应用。经过特定算法处理后的图像,给人们带来更精彩的视觉效果,让交通、生活更加便利,提高了工作效率。近年
学位
随着全球化进程的加快,Web作为一种重要的沟通手段受到的关注越来越多,对Web服务描述的正确性投入的精力随之增加。BPEL(Business Process Execution Language)作为描述Web服
农业科技成果转化资金项目于2001年开始使用了单机C/S版软件,于2006年使用项目上报、受理、审理、监理、验收为一体的网络管理系统,使农业科技成果转化资金项目全面实行数字
随着计算机技术和网络通信技术的飞速发展,以及多媒体技术的广泛应用,海量的各种类型的信息正在被人们采集、传输和应用。多媒体信息的表现方式除了最初单一的文本方式外,还
信用风险是现代商业银行面临的最主要的风险之一,也是导致银行破产的最常见因为之一。我国商业银行信用信息化建设滞后、信息不对称,导致银行实际操作过程中的高风险、高成本