Deep Web数据获取问题研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:holyturtle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,Web成为一个拥有海量数据的信息源。DeepWeb主要由Web中可在线访问的数据库构成,信息更丰富、主题性更强、结构化更好。随着分析型应用如市场情报分析、舆情分析、电子商务等需求的增长,亟需对Deep Web数据进行集成,从中分析挖掘有用知识。但由于DeepWeb具有大规模性、数据海量性、实时动态变化、异构性以及分布性等特点,并且Deep Web数据只能通过向Web数据库的查询接口提交查询这一特殊方式获取,使得如何自动地从Deep Web数据源获取数据成为一项十分具有挑战性的工作。作为集成工作的第一步,Deep Web数据获取为Deep Web数据集成奠定数据基础,是数据抽取和数据整合工作的前提。目前,Deep Web数据获取工作主要存在以下问题有待解决:(1)Deep Web网站的增长速度快、时刻动态变化,而分析挖掘需要全面的数据,因此面向分析的Deep Web数据获取需要自动发现尽可能多的Deep Web数据源。(2)Deep Web数据源质量良莠不齐、爬取过程繁杂并且爬取周期长,为了合理分配资源需要择优汰劣,分析挖掘需求要求对已发现的数据源进行评估,选择优质数据源以获得更多更全面的信息。(3)Deep Web数据源中的数据众多,数据爬取过程中提交不同的查询词返回的结果集合存在大量的数据重叠,为了全面高效获取Deep Web数据源中的数据,需要对提交的查询词进行选择。本文以面向分析的Deep Web数据获取为目标,对Deep Web查询接口判定、Deep Web数据源采样、评估以及Deep Web数据爬取等多个具有挑战性的实际问题进行了系统和深入地研究,主要工作与贡献概括如下:1.提出了一种基于集成学习的Deep Web查询接口判定方法,有效解决了大量Web页面中Deep Web查询接口识别问题,能够准确地将Deep Web查询接口与搜索引擎的查询接口区别开来,提高了Deep Web查询接口识别的准确率。本文提出了一种使用决策树以及SVM进行集成学习的方法建立DeepWeb查询接口判定模型,达到更有效地识别Deep Web查询接口的目的。一方面针对Deep Web查询接口页面进行分析,提出了判断页面中是否含有查询接口的6条规则,利用简单高效的决策树对页面进行分类;另一方面针对Deep Web查询接口与搜索引擎的查询接口提交查询后获得的结果页面进行分析,主要利用结果页面的特征训练SVM对页面进行分类,采用重抽样思想得到训练数据集,有效减弱类别不平衡性对学习算法的影响;最后基于投票的方式对决策树和多个SVM进行集成。该方法可以将Web数据库的查询接口与搜索引擎的查询接口有效地区别开来,达到更准确地识别Deep Web查询接口的目的。实验表明该方法具有良好的可行性和运行效率,与使用简单机器学习的识别算法相比可以获得更高的查全率和查准率。2.在随机漫步算法的基础上,提出了一种基于关键词选择模型的DeepWeb数据源采样方法,有效地从Deep Web数据源中获得近似随机的高质量样本,以供Deep Web数据源评估使用。本文提出了一种针对关键词属性扩展随机漫步算法的Deep Web数据源采样方法,使采样过程不受查询接口中属性表达形式的限制。采样过程中,对于关键词属性构建选择模型,从目前的样本集中按照出现频率降序选择该属性的一个值,将其递交给查询接口;对于分类属性和范围属性采用随机漫步算法策略。该方法有效地从Deep Web数据源中获得近似随机的高质量样本,通过样本可以了解该数据源的领域相关性、准确性、完整性、数据规模等有用的特征,以供Deep Web数据源评估和选择使用。3.提出了一种基于多目标决策理论的Deep Web数据源质量量化评估方法,有效解决了同一领域大规模Deep Web数据源质量评估问题。本文提出基于多目标决策理论的Deep Web数据源质量量化评估方法,通过建立Deep Web数据源质量评估模型,对每一个Deep Web数据源进行量化评分,将评估问题映射到多目标决策领域进行求解,对Deep Web数据源排序,以选择优质数据源。针对分析型应用对Deep Web数据集成的需求,提出了Deep Web数据源质量评估体系,利用已获得的数据样本,从Web数据源质量、查询接口及结果返回质量、数据质量以及用户评价等4个维度对16个质量评估因素进行量化评分,将评分结果映射为多目标决策问题求解,对各质量评估因素计算权重,最终获得每一个Deep Web数据源的总评估值进而对Deep Web数据源排序,选择优质数据源,尽可能减少需要爬取的DeepWeb数据源的数量。4.提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法,有效解决了中文环境中的Deep Web数据页面的大规模获取问题。本文提出一种基于属性高频字覆盖率图模型的Deep Web数据爬取方法。该方法针对某一特定领域统计汉字字频,获取一个面向领域的属性高频字列表;构建属性高频字覆盖率图模型用于估算候选汉字的新数据获取率,以较少次的数据库查询获得尽可能高的数据覆盖。该方法有效解决了中文环境中的Deep Web数据爬取问题,爬取过程中构建的属性高频字覆盖率图模型对同一领域的其他Deep Web数据源爬取具有很好的指导作用。实验结果验证了其可行性和有效性。
其他文献
低年级语文教学中,培养学生的口语交际能力既是教学重点也是难点。低年级学生年龄小,口语交际水平还处在低级阶段,教师要不失时机地挖掘、创造教学中的可利用资源,善于捕捉教
目的:分析糖化血红蛋白与血脂检测在2型糖尿病检测中的临床意义。方法:选择2016年2月至2017年2月间至本院体检且40例糖耐量正常的患者作为参考对象并命名为对照组,再将同时期
目的:探讨急性心肌梗死的护理经验,突出早期分级活动护理对康复的积极作用。方法:将60例急性心肌梗死患者分为两组,各30例,对照组采用常规护理方法,试验组采取早期分级活动的护
目的:探讨胰十二指肠切除术的临床处理体会。方法:选择实施胰十二指肠切除术患者80例,对其进行回顾性分析。结果:经过治疗后,出现并发症患者15例,2例死亡。结论:针对胰十二指肠切
网格是利用互联网技术把分散在不同地理位置上的多种资源,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等全面连通与统一分配、管理及协调起来,通过逻辑关
5G发牌一周年,5G建设正以超预期的速度发展,5G应用也在创新实践中丰富内涵。在新基建战略下,业内对5G未来发展充满期许。在此背景下,通信世界全媒体于6月5日举办了"2020新基
11月27日上午,国家发展和改革委员会主任张平介绍进一步扩大内需有关问题时表示,中央4万亿投资实际上只是全社会投资的一部分,去年全社会总投资超过了13万亿,今年要超过17万亿,明
现今网络规模和复杂度日益增长,传统的集中式管理模式已经不能满足网络管理的需求,网络管理研究也随之向分布式管理模式发展。Web Services作为一种新兴的分布式技术,以其良
目的:探讨KATP的心血管保护作用机制及钾通道开放剂在心血管疾病中治疗效果。方法:选择650例心血管疾病患者为研究对象。患者均在常规治疗的基础上行钾通道开放剂治疗。观察高
5G网络建设持续加速,成为数字经济社会的底座,创造ICT产业新价值。只有极简融合的5G网络,才能既让消费者获得连续一致的体验提升,又帮助全行业实现数字化。2020年5G进入大规