基于CPN网络的Deep Web集成系统中结果模式语义标注方法

来源 :东北大学 | 被引量 : 0次 | 上传用户:confusion00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和快速发展,Web已经成为富含多种信息资源、遍布全球的共享信息仓库,成为人们获取信息的有效手段和重要方式。而Deep Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到他所感兴趣的信息。当前Deep Web中最具代表性的就是电子商务网站,这些网站将自己后台数据库中的相关数据填充到它们的模板页面中,形成了结果页面。通过一定的技术手段,可以将结果页面中用户感兴趣的数据抽取出来。但是存在计算机无法识别抽取出来数据所具有的实际语义信息这个问题。所以需要为抽取出来的数据添加语义标签。为解决Deep Web信息集成中的语义标注问题,本文提出了一种语义标注方法。这种方法具有较高的标注全面性,而标注精度上和当前的主流算法持平。本文首先定义了结果模式概念,讨论了基于结果模式的Deep Web语义标注问题,提出了Deep Web语义标注的评价准则。根据观察大量的结果页面的属性值,提出七个属性值的特征,并根据计算特征的需要,提出了属性值数据类型分类模型,同时讨论了特征向量标准化的必要性。然后,通过样本的学习训练得到CPN网络,并使用CPN网络来完成语义标注。为此,本文研究了结果页面信息的获取技术、结果页面属性值的特征分析提取技术、特征向量标准化技术、使用CPN网络语义标注技术,提出了一个改进的CPN算法,该算法在结果页面的属性值提取、属性值的特征分析与计算、特征向量的标准的基础上,通过样本学习训练建立了CPN网络,然后使用CPN网络对属性值语义标注,能够减少学习时间。针对在实际的处理中会出现学习死循环问题,本文进一步对CPN网络进行了改进,有效的降低了死循环的概率。
其他文献
在密码学的最新进展研究中,圆锥曲线密码学是密码学发展的一个新方向。在圆锥曲线群上的各项计算比椭圆曲线群上的更简单,在其上的编码和解码都很容易被执行。同时,还可以建
煤炭是我国的主要能源,以煤炭消耗为主的经济格局在长时期内不会改变。然而近年来,煤矿事故频繁发生:如矿井火灾事故,瓦斯、煤尘爆炸事故,煤与瓦斯突出事故,矿井水灾事故和冒顶事故
边缘检测技术是图像处理和计算机视觉等领域最基本的技术之一。如何准确、快速的检测图像的边缘一直是这些领域的研究热点。自适应边缘检测的特点是能够在系统运行时动态的改
“计算机组成原理”是计算机相关专业学生需要学习的基础课程之一。对于学生而言,他们想要真正了解“计算机组成原理”这门课程的精髓,并掌握计算机内部的工作原理,这是有一定难
近年来,互联网的爆炸式发展,给人类社会、经济、文化等带来了无限的机遇,同时也给信息安全带来了严峻的挑战。人们采用反病毒,防火墙和入侵检测等技术手段来保证网络信息安全。随
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没有考虑到将来组织机构的变化及信息共享的需
随着信息技术的高速发展,各种各样的互联网应用产生了大量的网络流量,消耗了巨大的网络资源,不仅给网络服务质量带来了极大的挑战,同时也会导致互联网安全问题的产生。为了合
近年来随着电子商务的飞速发展网上的交易量日渐增大,这就对网上交易的安全性提出了更高的要求。有些学者提出采用指纹识别技术来提高网上交易的安全性。相比较于传统的由字
本课题针对公用设施难以准确计费的问题提出了一种新颖的解决方案。在无需对原有设备电路进行改造的前提下,使用摄像头采集电表读数,并对其进行数字识别,然后通过一种新兴的
开源软件是由全世界的开源爱好者、团队或者商家开发出来,在开源社区公布源代码供其他爱好者或团队使用、修改,并且不收取任何费也不受版权的限制。随着开源软件的壮大和发展