Deep Web集成中若干技术研究

来源 :复旦大学 | 被引量 : 16次 | 上传用户:wq999999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息,根据蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大类。其中:Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web是指通过填写表单(Form)形成对网站后台数据库的查询而得到的动态页面。如何有效地组、管理Deep Web信息,快速、准确地访问用户所需要的信息是当前信息科学和技术领域面临的一大挑战。随着动态网页技术的发展和日益成熟,Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,而对Deep Web的研究也越来越受到人们的关注。作为组织和处理大规模Deep Web信息的关键技术,Deep Web数据集成可一定程度上解决用户访问互联网中这些“深度”数据库的需求;同时,Deep Web数据集成的相关技术在信息检索、数据挖掘、数据抽取、个性化服务、数字图书馆等领域有广阔的应用前景。本文研究内容和创新工作主要包括以下几点:(1)Deep Web集成模式的研究现实中Deep Web的类型多种多样,用户需求也各不相同,需要考虑不同情况的Deep Web数据集成。论文研究了Deep Web间的关系,以及这些关系对Deep Web数据集成系统查询处理的约束,并在此基础提出Deep Web数据集成的集成模式,以及不同集成模式下查询处理的过程。为不同类型Deep Web数据集成的进一步研究和应用提供参考。(2)基于机器学习的Web数据库分类大量的deep Web源的存在,对他们的分类是通向deep Web分类集成和查询的关键步骤。论文提出了一种Deep Web表示模型和基于机器学习的分类模型,并在此基础上提出一种新的权重计算方法。实验结果表明:这种分类方法经过少量样本训练后,就能达到很好的分类效果;且随着训练的样本的增加,该分类器的性能保持稳定。(3)基于本体的Deep Web查询接口分类本体是一种知识表示模型,用来在某个特定领域中定义基本术语、关系和一些规则,并将之表示成机器可读的形式。针对deep Web查询接口,论文提出一种分类本体模型和建立本体的推理规则,并提出了deep Web空间向量模型(VSM)。试验表明,这种分类方法具有良好的分类效果。(4)基于知识的deep Web集成环境变化处理的研究研究了Deep Web集成环境中构件的依赖关系,在此基础上,论文提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考。实验结果表明,该方法不仅可以处理Deep Web集成环境的变化,还可以大幅度提高集成系统的性能。(5)基于Deep Web的个性化服务的研究个性化推荐可以实现“信息找人”,可一定程度上解决由于海量信息而导致的“信息过载”和“信息迷向”问题。论文提出了一种基于Deep Web的个性化服务的框架,包括:基于资源元数据描述为语义基础的用户兴趣模型、Deep Web爬虫和个性化推荐,并在个性化推荐的算法中提出了一种新的基于语义的相似度度量方法。最后,基于上述思想的基础上,开发了一个科技文献推荐系统,使用户在尽可能少的参与下,就完成科技文献的个性化服务。
其他文献
为解决传统机场驱鸟效率不高的问题,将多无人机协同技术引入该领域,基于自创的'伏击法'的驱鸟策略完成任务规划建模,并设计了一种基于遗传算法的任务分配方法。分别
各民族共同团结奋斗、共同繁荣发展(简称“两个共同”)是民族工作的主题,而中国特色社会主义是改革开放以来党的全部理论和实践的主题,这两个“主题”既紧密关联,又主次分明
目的探讨维生素D3治疗儿童重度持续哮喘的临床疗效。方法回顾性分析126例儿童重度持续哮喘患儿的临床资料,根据治疗方案不同将患儿分为观察组和对照组,各63例。对照组予以抗
新型研发机构作为推进高校、科研院所与地方政府及企业产学研合作的重要载体,能有效整合创新资源开展源头性技术创新。然而,不同类型的新型研发机构采用的产学研合作模式存在
2003年下半年以来,国家相继出台了一系列宏观调控政策,包括《国务院办公厅转发发展改革委等部门关于制止钢铁电解铝水泥行业盲目投资若干意见的通知》(国办发[2003]103号)、《国
教师的价值观是独特的,职业精神、行为准则、规范、信念与思想则是相通的,所有这些被称作教师文化,具体包括个人主义文化、人为合作文化、派别主义文化和自然合作文化。其中,共建
目的:对影响血常规检测因素进行分析研究。方法:选择进行血常规检测,并发现其血液采集检测标本不合格的42例患者的临床资料进行探讨和研究,通过统计学方法对其进行了分析。结果
唐人最爱牡丹,北宋人也爱牡丹。但从北宋开始,有一种低调的花朵,不声不响地渐渐占满了文人心中的山坡。从唐到宋,整个中国的气候变得越来越冷,北方的梅花越来越难以生长,而江南乃至
期刊
目的观察血清Ca2+、ALP及肿瘤标志物在肺癌骨转移预测价值。方法选取236例中晚期肺癌病例(本院2016年1月至2018年12月收治)作为研究对象,所有病例均于确诊时行血清Ca2+、ALP
【目的】揭示呼伦贝尔沙区4种生境土壤真菌群落结构与多样性及其影响因素,探究不同生境对土壤真菌的影响。【方法】选择裸沙地、草地、樟子松人工林和樟子松天然林4种生境土