Web资源质量信息提取与管理技术的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:camino
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web成为世界上最大、类型最齐全的海量信息库,以企业运营分析决策为主的商务智能发展到了一个新的层次。Web作为商务智能系统至关重要的数据来源,但是Web数据在质量上还存在着诸多问题,如何从互联网中快速高效的获得高质量信息成为迫切需要解决的问题,Web资源质量挖掘应运而生。本选题针对Web资源质量挖掘的数据源问题,解决对Web质量评测数据的提取与集成,构建Web资源质量数据仓库,对将来开展基于Web资源质量数据Cube的OLAP分析和Web资源质量数据的离群点检测等工作有着重要意义。本文首先通过对现有的Web数据提取技术的分析与研究,设计并实现一个基于HTML结构的Web数据提取系统。整个系统由页面预处理、网页聚类、规则生成和数据提取四个模块构成:预处理模块中采用HtmlCleaner工具对页面进行清洗,将页面文档转换为XML格式并解析为DOM树;网页聚类模块中通过STM算法计算页面相似度,然后根据标签树的距离对Web页面进行聚类;规则生成模块采用XPath技术对数据区域进行定位,通过归纳学习的方法对每一个类簇生成相应的规则。最后根据提取规则将页面中的数据内容提取出来。系统通过实验测试证明是实用有效的。最后,通过SQL Server 2005 BI系统对提取到的Web资源质量评测数据进行管理,并设计多维数据模型,实现Web资源质量数据仓库的构建与部署。
其他文献
随着科学技术的发展,高清多视点自由自立体电视也已经逐渐成为研究热点,它具有不需要佩戴眼镜及辅助装置就可以感觉到立体效果,高分辨率等优点,可以广泛地应用在用包括立体视
随着信息技术的飞速发展,计算机软件系统的应用逐渐扩展到了社会的各个领域。软件规模和复杂度在不断增加,软件出现错误的可能性也随之增加。如何保证软件的质量、提高软件的
神经网络一直以来是实现分类器的重要方法之一.在多年的研究中,不同年代出现了几种有代表性的网络学习算法:如60年代的Widrow-Hoff神经网络学习算法;70年代的BP神经网络学习算法
视觉目标跟踪技术是计算机视觉领域中一个基础且重要的研究方向,在视频监控、自动驾驶、智慧交通、军事目标定位等诸多领域具有重大的研究意义和实际应用价值。基于跟踪任务
本文在分析高校就业管理业务的特点和发展趋势基础之上,将操作数据存储和OLAP技术应用到了高校就业管理与决策分析领域。通过对学生就业方面的各类数据从多个方面进行分析,找出
以并行计算为基础的高性能计算科学当前已经成为科学研究的第三大支柱。使用并行计算的首要因为是高性能高效率,而并行程序的首要条件是正确性。以往的设计和分析工具都只关
学位
语义Web服务自动组合技术是Web服务领域的研究重点和热点之一,这项技术的发展对网络中各种异构和分散的系统进行集成和交互具有重要意义和巨大的推动作用。本文将着重对此进
近来伴随互联网信息技术和产业链迅猛发展,各行业数据规模均呈现指数级增长,尤其以电商和社交网络为服务内容的企业数据中心。尽管数据量规模巨大,方便基本事务都有迹可循,但
粗糙集理论和证据理论都是处理不确定问题的重要工具。粗糙集理论处理不确定数据的优点在于不需要先验信息,在信息融合领域得到了广泛的应用。证据理论用基本可信度分配函数
数据挖掘技术在众多领域得到了广泛地应用。其中,在健康医疗领域产生的数据,数量巨大且形式复杂,无法通过传统的方法进行分析和处理。因此,本论文将尝试采用数据挖掘方法和技