论文部分内容阅读
随着互联网技术的发展,Web成为一个拥有海量数据的信息源。DeepWeb主要由Web中可在线访问的数据库构成,信息更丰富、主题性更强、结构化更好。随着分析型应用如市场情报分析、舆情分析、电子商务等需求的增长,亟需对Deep Web数据进行集成,从中分析挖掘有用知识。但由于DeepWeb具有大规模性、数据海量性、实时动态变化、异构性以及分布性等特点,并且Deep Web数据只能通过向Web数据库的查询接口提交查询这一特殊方式获取,使得如何自动地从Deep Web数据源获取数据成为一项十分具有挑战性的工作。作为集成工作的第一步,Deep Web数据获取为Deep Web数据集成奠定数据基础,是数据抽取和数据整合工作的前提。目前,Deep Web数据获取工作主要存在以下问题有待解决:(1)Deep Web网站的增长速度快、时刻动态变化,而分析挖掘需要全面的数据,因此面向分析的Deep Web数据获取需要自动发现尽可能多的Deep Web数据源。(2)Deep Web数据源质量良莠不齐、爬取过程繁杂并且爬取周期长,为了合理分配资源需要择优汰劣,分析挖掘需求要求对已发现的数据源进行评估,选择优质数据源以获得更多更全面的信息。(3)Deep Web数据源中的数据众多,数据爬取过程中提交不同的查询词返回的结果集合存在大量的数据重叠,为了全面高效获取Deep Web数据源中的数据,需要对提交的查询词进行选择。本文以面向分析的Deep Web数据获取为目标,对Deep Web查询接口判定、Deep Web数据源采样、评估以及Deep Web数据爬取等多个具有挑战性的实际问题进行了系统和深入地研究,主要工作与贡献概括如下:1.提出了一种基于集成学习的Deep Web查询接口判定方法,有效解决了大量Web页面中Deep Web查询接口识别问题,能够准确地将Deep Web查询接口与搜索引擎的查询接口区别开来,提高了Deep Web查询接口识别的准确率。本文提出了一种使用决策树以及SVM进行集成学习的方法建立DeepWeb查询接口判定模型,达到更有效地识别Deep Web查询接口的目的。一方面针对Deep Web查询接口页面进行分析,提出了判断页面中是否含有查询接口的6条规则,利用简单高效的决策树对页面进行分类;另一方面针对Deep Web查询接口与搜索引擎的查询接口提交查询后获得的结果页面进行分析,主要利用结果页面的特征训练SVM对页面进行分类,采用重抽样思想得到训练数据集,有效减弱类别不平衡性对学习算法的影响;最后基于投票的方式对决策树和多个SVM进行集成。该方法可以将Web数据库的查询接口与搜索引擎的查询接口有效地区别开来,达到更准确地识别Deep Web查询接口的目的。实验表明该方法具有良好的可行性和运行效率,与使用简单机器学习的识别算法相比可以获得更高的查全率和查准率。2.在随机漫步算法的基础上,提出了一种基于关键词选择模型的DeepWeb数据源采样方法,有效地从Deep Web数据源中获得近似随机的高质量样本,以供Deep Web数据源评估使用。本文提出了一种针对关键词属性扩展随机漫步算法的Deep Web数据源采样方法,使采样过程不受查询接口中属性表达形式的限制。采样过程中,对于关键词属性构建选择模型,从目前的样本集中按照出现频率降序选择该属性的一个值,将其递交给查询接口;对于分类属性和范围属性采用随机漫步算法策略。该方法有效地从Deep Web数据源中获得近似随机的高质量样本,通过样本可以了解该数据源的领域相关性、准确性、完整性、数据规模等有用的特征,以供Deep Web数据源评估和选择使用。3.提出了一种基于多目标决策理论的Deep Web数据源质量量化评估方法,有效解决了同一领域大规模Deep Web数据源质量评估问题。本文提出基于多目标决策理论的Deep Web数据源质量量化评估方法,通过建立Deep Web数据源质量评估模型,对每一个Deep Web数据源进行量化评分,将评估问题映射到多目标决策领域进行求解,对Deep Web数据源排序,以选择优质数据源。针对分析型应用对Deep Web数据集成的需求,提出了Deep Web数据源质量评估体系,利用已获得的数据样本,从Web数据源质量、查询接口及结果返回质量、数据质量以及用户评价等4个维度对16个质量评估因素进行量化评分,将评分结果映射为多目标决策问题求解,对各质量评估因素计算权重,最终获得每一个Deep Web数据源的总评估值进而对Deep Web数据源排序,选择优质数据源,尽可能减少需要爬取的DeepWeb数据源的数量。4.提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法,有效解决了中文环境中的Deep Web数据页面的大规模获取问题。本文提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法。该方法针对某一特定领域统计汉字字频,获取一个面向领域的属性高频字列表;构建属性高频字覆盖率图模型用于估算候选汉字的新数据获取率,以较少次的数据库查询获得尽可能高的数据覆盖。该方法有效解决了中文环境中的Deep Web数据爬取问题,爬取过程中构建的属性高频字覆盖率图模型对同一领域的其他Deep Web数据源爬取具有很好的指导作用。实验结果验证了其可行性和有效性。