基于XML的动态信息触发机制的研究

来源 :中国人民解放军国防科学技术大学 | 被引量 : 0次 | 上传用户:zcb999999999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web数据的日益增长,当前Internet信息供求存在两个突出问题:1)用户能够访问的信息过于庞大而个体信息需求相对有限,怎样从浩如烟海的信息中快速找到用户感兴趣的内容。2)如何使得用户具有对信息变化的合理的跟踪能力。为此,系统至少需要具备两种能力。一种是给定一个信息单元,系统能够通过分析知道哪些用户对其中的信息感兴趣,然后将这些信息以合适的粒度和形式发送给相应的用户。另一种是系统能够在合理的时间间隔内完成相关信息的刷新,通过分析知道哪些用户对其中的变化感兴趣,并最终将这些变化发送给相关的用户。这两种能力本质上都是要建立一种从信息或者信息的变化到用户意向的关联机制,称为信息触发机制。信息触发机制分为静态触发和动态触发两种形式,本文重点研究基于XML的动态信息触发机制。 首先,本文以变化检测和意向匹配为核心技术,提出了基于XML的动态信息触发机制的系统框架,目的在于能够每天监控Internet范围内大规模的XML文档的获取,并同时支持大规模的用户意向,使得系统能够根据用户的需求对获得的XML文档进行过滤,并将其中的内容以合适的粒度和途径发给相关的用户。 在系统框架设计的基础上,论文重点研究XML文档的变化检测技术和XML文档的意向匹配技术。 对于前者,针对已有算法大多依赖非常耗时的结点签名,并且算法过程复杂的问题,本文提出了一种文档变化检测的处理方法,该方法利用文档固有信息建立特征参照体系,通过特征路径相关的一系列概念的引入,将传统标号树匹配问题转化为无重复路径的标号树匹配问题,有效地解决了路径等价类比较的问题,简化了XML文档的比较。 在特征路径相关概念的基础上,本文提出了适合无序模式文档比较的KF-Diff算法。在算法复杂度上从先前的多项式时间提高到O(nlogn),其中n为文档结点数。该算法能够检测所有的移动操作,使得匹配环节的效率得到提高,同时提高了过滤能力并能得到高质量的解。该算法的问题是只能适合中小规模的应用。 为适应大规模应用的需要,本文提出了直接利用特征路径进行文档比较的KF-Diff+算法,同时适于有序和无序两种模式,在时间复杂度上从先前的O(nlogn)提高到O(n),更加适合Internet规模的应用。 在特征路径相关的计算中,本文引入面向半结构数据的Key约束思想,并且针对先前判定算法过于复杂的问题,提出了基于多实例结点集合的Key约束的概念以及相关的处理方法,在一定程度上简化了计算。在此基础上,本文阐述了Key约束相关的路径相容性判定问题,给出了相应的推导规则以及判定算法,同时阐述了Key约束相关的满足与隐含问题,给出了相关的推导规则、判定算法以及相应的算法分析。 对于后者,针对先前研究存在的问题,本文首先提出了抽象文档模式空间的概念,从模式空间有限超集的层次上将有模式定义文档和无模式定义文档的处理统一起来。在此基础上,本文提出了两级意向关联模型(模式级意向关联和文档级意向关联)。不仅有效地压缩了候选意向的规模,而且提高了计算过程的共享和重用。在意向关联模型的基国防科学技术大学研究生院学位论文础上,本文提出了增量式的意向匹配算法,能够充分地利用先前的计算过程来实现意向匹配状态的连续推演,从而实现状态级计算共享。 另外,由于在意向匹配过程中涉及大量索引问题,为此针对先前研究在处理基于相对路径的意向表示上存在的问题,本文提出了一种基于相容关系的索引模式,利用系统抽象数据拓扑结构进行相对路径到绝对路径的转换,通过基于相容关系的数字方式编码,能够快速确定对应结点的依赖关系,同时提出了新的路径转换算法,将时间复杂度由过去的平方时间变为线性。 论文所描述的内容己经在原型系统XFDS中得到部分实现,实验证明系统在大规模意向的情况下能够达到较高的文档处理能力,尤其在文档变化率相对较低的情况下,效果更为显著。这对于以变化为中心的工nternet规模XML应用具有重要意义。
其他文献
目前随着流媒体的快速发展,对传统的媒体行业产生不小的冲击。面对这一新的情况,传统的媒体企业既面临着挑战,也有了新的机遇。当前,紧跟新媒体潮流,并借助新媒体的传播平台
本文主要对档案管理信息化的相关概念以及实行公路工程档案管理信息化的意义进行了阐述,据此对档案管理信息化的主要路径进行了分析。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着网络应用的普及和多媒体业务在网络上的剧增,因特网同时面临着高速交换、服务质量、安全和移动性四个方面的严峻挑战。由于基于现有网络的增强措施难以从根本上解决以上
随着信息技术的飞速发展,对直接关系到航海安全的,并集数据加密、数字签名、通信和计算机网络技术、密码学、生物识别和图像处理等理论于一体的船员身份认证技术随着不同实体
工程图信息系统(EDIS)是由华中理工大学CAD中心研制的,它的功能覆盖了从图纸的扫描输入到识别后的矢量智能后处理,各种类型的数据都由工程数据库系统来管理。介绍了EDIS1.0的
理论上,新能源汽车产业联盟是发展电动汽车最好的组织形式。因为产业联盟可以共同就电池、充电系统、电机及控制系统等关键零部件共同研发,甚至可以联合制定向国家推荐的统一
提高学生思维能力是语文教学的根本任务。语文学科就本身的教育内涵而言,有思维教育的基本任务.更强调对学生的思维教育。在语文教学中教师可以用多种方法来实施思维教育。
香港的机械工程与香港的繁荣及工商业一起增长。在香港与机械有关一包括制造业、建筑机械及设施产品设计、机械自动化、公共设施、交通运输、维修保养、顾问工程、技术设备引
介绍了一种利用啤酒废酵母来制备富铬酵母的新工艺.通过对各主要影响因素的分析和优化,确定了其最佳工艺条件,本工艺制得的产品中有机铬的浓度可迭192.3μg/g.