论文部分内容阅读
随着Internet的普及和快速发展,Web已经成为富含多种信息资源、遍布全球的共享信息仓库,成为人们获取信息的有效手段和重要方式。而Deep Web信息门类齐全、数据量庞大,几乎无所不包,然而面对如此庞大的信息海洋,用户关心的只是其中很小的一部分信息,需要提供有效的搜索引擎或信息集成工具,帮助用户快速、准确地找到他所感兴趣的信息。当前Deep Web中最具代表性的就是电子商务网站,这些网站将自己后台数据库中的相关数据填充到它们的模板页面中,形成了结果页面。通过一定的技术手段,可以将结果页面中用户感兴趣的数据抽取出来。但是存在计算机无法识别抽取出来数据所具有的实际语义信息这个问题。所以需要为抽取出来的数据添加语义标签。为解决Deep Web信息集成中的语义标注问题,本文提出了一种语义标注方法。这种方法具有较高的标注全面性,而标注精度上和当前的主流算法持平。本文首先定义了结果模式概念,讨论了基于结果模式的Deep Web语义标注问题,提出了Deep Web语义标注的评价准则。根据观察大量的结果页面的属性值,提出七个属性值的特征,并根据计算特征的需要,提出了属性值数据类型分类模型,同时讨论了特征向量标准化的必要性。然后,通过样本的学习训练得到CPN网络,并使用CPN网络来完成语义标注。为此,本文研究了结果页面信息的获取技术、结果页面属性值的特征分析提取技术、特征向量标准化技术、使用CPN网络语义标注技术,提出了一个改进的CPN算法,该算法在结果页面的属性值提取、属性值的特征分析与计算、特征向量的标准的基础上,通过样本学习训练建立了CPN网络,然后使用CPN网络对属性值语义标注,能够减少学习时间。针对在实际的处理中会出现学习死循环问题,本文进一步对CPN网络进行了改进,有效的降低了死循环的概率。