基于XML的文本数据挖掘的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:wjw842008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的迅速发展,现有的信息搜索技术严重落后于WWW的发展,如何从繁杂的互联网数据中高效的寻找到用户感兴趣的有用信息,是当前网络信息搜索的研究重点.本文在数据挖掘和信息检索技术的基础上引入了基于XML的文本数据挖掘模型,其模型设计包括以下几部分:1. XML页面的信息搜索首先在引入数据联合查询思想的基础上,提出了一种网络数据联合查询的优化方案,将互联网上的信息来源根据测试标准分为大、小数据源,在进行robot搜索时优先搜索大数据源中的数据,缩短搜索时间提高搜索效率.然后在面向XML文档的信息检索中,将结构检索和语义检索相结合,通过结构检索帮助用户快速定位到文档结构细节,利用语义检索则满足读者语义层次的需求,从而实现较全面的概念检索.2.XML页面的信息抽取及数据模式的转换根据XML文档的结构形式,利用XML+DOM技术提取文档中的数据信息转化为记录存储到关系数据库中.在这个过程中,DOM(Document Object Model)技术,实现对XML文档的解析和定位.另外通过建立XML虚拟数据源,可以为应用系统提供更为方便的数据访问服务,完成由异构数据源向单一XML文档的转换工作之后,可在逻辑层上采用XML数据存储机制对XML数据源进行访问.3.用户查询接口设计将向量空间模型和隐含语义索引模型作为文档信息的检索模型,通过相关反馈技术进一步提高检索的质量.信息检索强调使用一种好的检索模型,将文档和用户查询表示成相同的形式,并计算它们之间的相似性,然后将检索结果按照一定的顺序呈现给用户,并且检索模型还应当提供一种比较灵活的机制,让用户参与到检索的过程,以期进一步发现满足用户检索需求的相关文档.本课题主要包括XML页面信息搜索模块、XML页面信息抽取及模式转换模块和用户查询接口模块,除此之外还对网络数据联合查询的优化;XML到关系数据库的映射等方面内容进行了较深入的研究,并指出了基于XML的文本数据挖掘模型存在的不足以及改进的方向.
其他文献
该文在参考了各种馈线自动化方案后,阐述了自己对馈线自动化的理解,在比较和参照了国内外同类装置的基础上,设计开发了一种以TMS320F206DSP为核心的FTU,相对于传统的基于普通
实时系统需要具备容错功能的观点,已经被实时与容错这两个领域的研究者所广泛认同?而分布处理和分布控制技术显示的广泛应用前景,各种分布的软硬件系统的大量开发使用,加之分
人类通常以创造新概念或拓展旧概念的方式来更新知识体系,维基百科是这个知识体系中最具代表性的缩影和镜像之一。近年来的研究发现,在不断演化的知识库中蕴含着有价值的概念关
随着信息技术的快速发展,海量的信息在满足人们信息需求的同时,也为快速准确地定位相关信息带来了空前的挑战,而信息检索技术的提出正是为了解决这一问题。信息检索的任务是根据
利用面向对象的技术设计、构建银行应用系统架构是满足银行发展转变的关键.该文利用UML和UP的结合,从需求、分析和设计逐层深入,揭示面向对象的银行系统框架.该文重点设计银
提出建立酸轧机组人工神经网络系统的必要性.建立该系统可以将实际生产过程中的模型系数的精度提高,进而改进酸轧工艺,最终提高酸轧的质量和效率.简要介绍了1420酸轧机组中的
业务需求的频繁变更和用户对软件质量的高要求,使快速持续、高质量的实现软件应用交付成为项目开发的主要目标。但是由于软件项目复杂度的不断增加,在具体的开发活动中,各团队成
主题模型是近年来比较流行的数据挖掘方法,可以有效地提取文本或图像中潜在的语义结构信息,已经被广泛地应用于自然语言处理、社交网络分析、图像处理等领域。随着Web2.0时代的
随着铁路运输的发展,运输生产指挥系统对铁路移动通信提出了更高的要求,以满足运输指挥系统对列车移动体进行管理和控制的需要.传统的单一功能的无线列调系统已经不能满足铁
伴随着智能手机、平板电脑、掌上电脑等各种多媒体终端设备的快速发展与普及,视频资源的数量呈现出爆炸式增长的趋势。但是,受限于视频采集与传输过程中的一些客观条件,最终呈现