论文部分内容阅读
随着互联网应用的迅速发展,现有的信息搜索技术严重落后于WWW的发展,如何从繁杂的互联网数据中高效的寻找到用户感兴趣的有用信息,是当前网络信息搜索的研究重点.本文在数据挖掘和信息检索技术的基础上引入了基于XML的文本数据挖掘模型,其模型设计包括以下几部分:1. XML页面的信息搜索首先在引入数据联合查询思想的基础上,提出了一种网络数据联合查询的优化方案,将互联网上的信息来源根据测试标准分为大、小数据源,在进行robot搜索时优先搜索大数据源中的数据,缩短搜索时间提高搜索效率.然后在面向XML文档的信息检索中,将结构检索和语义检索相结合,通过结构检索帮助用户快速定位到文档结构细节,利用语义检索则满足读者语义层次的需求,从而实现较全面的概念检索.2.XML页面的信息抽取及数据模式的转换根据XML文档的结构形式,利用XML+DOM技术提取文档中的数据信息转化为记录存储到关系数据库中.在这个过程中,DOM(Document Object Model)技术,实现对XML文档的解析和定位.另外通过建立XML虚拟数据源,可以为应用系统提供更为方便的数据访问服务,完成由异构数据源向单一XML文档的转换工作之后,可在逻辑层上采用XML数据存储机制对XML数据源进行访问.3.用户查询接口设计将向量空间模型和隐含语义索引模型作为文档信息的检索模型,通过相关反馈技术进一步提高检索的质量.信息检索强调使用一种好的检索模型,将文档和用户查询表示成相同的形式,并计算它们之间的相似性,然后将检索结果按照一定的顺序呈现给用户,并且检索模型还应当提供一种比较灵活的机制,让用户参与到检索的过程,以期进一步发现满足用户检索需求的相关文档.本课题主要包括XML页面信息搜索模块、XML页面信息抽取及模式转换模块和用户查询接口模块,除此之外还对网络数据联合查询的优化;XML到关系数据库的映射等方面内容进行了较深入的研究,并指出了基于XML的文本数据挖掘模型存在的不足以及改进的方向.