基于本体的Deep Web数据源的分类研究

来源 :南京信息工程大学 | 被引量 : 2次 | 上传用户:fanhaoguohuifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网按“深度”可以分为Deep Web和Surface Web。随着互联网的飞速发展,大量信息在我们的日常工作和生活中不断产生和积累。为了利用这些资源,尤其是Deep Web资源,学界引入了Deep Web数据集成问题的研究。而Deep Web数据源的分类作为Deep Web数据集成中的重要环节,需要更多关注和研究。本文针对Deep Web数据源分类所涉及到的相关技术进行了研究,将本体应用到Web数据源的分类中,提出了相关的算法和模型。主要研究工作包括:(1)Deep Web查询接口模式信息抽取技术研究。本文基于页面—表单模型,提出对页面进行内容文本特征和超链接的提取,同时对表单特征提取进行了规范。之后进行预处理。(2)本体构建方法研究。本文给出了本体模型,结合知网和WordNet来构建了几个领域的本体,同时提出了新的权重计算方法。(3)基于本体的Deep Web数据源分类方法。提出了在基于查询接口特征分类的同时,将本体引入Deep Web数据源分类的方法。并改进了分层表单识别架构(HIFI)和权重计算方法,形成了基于本体的Deep Web数据源分类算法。在实验平台Weka上分别用C4.5、贝叶斯分类方法、KNN方法、支持向量机四种方法进行对比实验,实验表明,基于领域本体的Deep Web数据源分类比已有的单纯利用查询接口特征进行分类的分类效果更好,同时改进的权重计算方法以及改进的HIFI构架对于分类准确性的提高具有较好的效果。
其他文献
目前,随着Web服务技术的不断推广与应用,面向服务的计算已经成为软件工程领域的研究热点。通过重用现有服务,将服务进行组合,企业能够更为快速有效的构建具有灵活、松耦合特
语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要论题之一。目前我国在中文语料库
随着互联网信息技术的快速发展,企业信息化程度不断提高,各个行业内的数据信息急剧增长,而且信息的存在形式也越来越多样。这也使得如何使用户能够快速、精确的从企业的海量
实验教学是高校教育的一个重要环节。作为新型教学方式的虚拟实验室,由于其具有开放性好、实验成本低、扩展性强、易于开展自主性实验和远程实验等特点,成为了高校未来实验室
随着移动设备的大量使用和移动技术的日臻成熟,出现了新的网格架构AdHoc网格。Ad Hoc网格是Ad Hoc网络和网格计算两种技术相结合的产物。AdHoc网格是利用本组织或跨组织里移动
无线传感器网络(Wireless Sensor Networks)作为一种新兴的无线网络技术,在军事、工农业、环境监测和其它众多领域有着很高的应用价值和广阔的应用前景,是目前学术界研究的热点
随着网络技术的飞速发展,攻击者采用的攻击行为隐蔽性越来越强,且对网络造成的危害也越来越大。为了有效保障网络的服务质量和业务的效率,人们将大量的网络安全产品如防火墙
智能算法是模拟自然界中生物繁殖、觅食、筑巢等行为来求解复杂优化问题的方法,其凭借简单的迭代过程、高效的求解效率、优良的算法性能得到了国内外学者的广泛关注。聚类就
随着微电子技术、通信技术的发展,功耗相对较低而且具有多种应用前景的传感器得以迅速发展,与此同时,由传感器组成的无线传感器网络应运而生。无线传感器网络由大量随机密集
随着微控制单元和通信技术的发展,无线通信技术在人们生活中的地位越来越重要。将嵌入式Linux操作系统和32位的ARM9处理器相结合的解决方案,也已成为嵌入式领域中更好的选择