基于内容与结构的文本挖掘方法及其分布式应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:geng20516136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息爆炸的时代,海量数据不断涌现,而且这些数据仍在以每三个月增长一倍的速度持续增长着。因此,如果不借助有效的信息挖掘方法,这些异构海量数据将可能最终变成无人关注的数据垃圾。全文检索技术能高效的存储和管理这些异构海量数据。尽管全文检索引擎秉承了优良的架构,但在检索性能上还存在不足之处。针对全文检索引擎默认的相似性评分算法只考虑词频特征以及全文检索引擎现有检索精度较低这一缺陷,本文将分别从基于内容和基于结构这两个方面对现有的全文检索引擎进行改进。基于文档内容,本文从改进默认的相似性评分算法的角度出发,通过考虑查询词条在文档中的距离特征以改进全文检索的精确度和召回率。通常一篇文本文档只有一个主旨主题,且文档作者通常会以这一主旨主题为核心并从多个子主题或多个角度进行展开,基于这样的事实,本文从文档本身的结构特性出发,通过全面把握文档中各个局部意义单元及其之间的相互关系,使得改进的全文检索引擎在检索结果上具有更好的用户体验和针对性。因此通过考虑文本数据的距离特征和物理结构,并借此研究针对文本数据在分布式全文检索平台上的应用必将是一项非常有意义的研究探索。本文对基于内容与结构的文本挖掘方法及其分布式应用进行的主要研究工作如下:1、提出一种基于分词距离特征的句子相似度计算模型。首先,对查询串和文档进行数据预处理。其次,通过在文档中标识关键词和查询词条的位置,从而实现查询词条与关键词之间分词距离的计算,进而得出查询串和整篇文档的相似性评分。最后,将本文提出的算法应用到全文检索引擎默认的相似性评分算法中,并使用MAP,P@n指标进行评估。2、优化文本分割算法并将其分割得到的主题分片应用到一种能够提高精确度和查全率的检索模式中。首先对传统文本分割算法Text Tiling进行优化和改进。其次,利用改进的文本分割算法对文档进行切割操作得到主题分片集合。最后,通过在全文检索过程中考虑子主题结构特征以期改善信息检索的性能和用户体验。3、将改进的算法应用到分布式全文检索平台Solr Cloud中。首先,搭建一整套通过完全分布式实现的全文检索系统平台。其次,将基于分词距离特征改进的算法应用到全文检索引擎的核心组件中,从文本结构的角度出发,将主题分片应用到具体的全文检索操作中。最终实验表明,本文改进算法不仅使得全文检索操作在精确率和召回率方面得到优化,而且用户体验也得到了极大的改善。
其他文献
文本相关性度量是中文信息处理中一个非常基础且关键的问题,在文本相关性度量方法中采取的主要计算方式是文本相似度计算。目前,向量空间模型(VSM)作为绝大多数文本相似度算
阿尔兹海默症(Alzheimer’s Disease,AD)是一种典型的神经退化性疾病,其病理过程复杂,而且目前尚没有有效的治疗手段来治愈该疾病,所以对该疾病的提前诊断与预测成为预防该种疾
组播以其节约网络带宽、降低网络负荷,实现接收者的并行接收等优势而具有广泛的应用,成为重要的网络技术。对于组播各种应用的研究正在成为热点,对组播各种功能及性能的测试
随着USB3.0标准的发布,数据传输速率大幅提高,存储容量不断增大,USB接口的移动存储设备由于其体积小,携带方便,同时具有热插拔功能,给移动数据存储带来了便利。开源的Linux操
随着Internet技术的广泛应用,家庭网络迅速普及,DSL逐渐发展为宽带接入技术的主流,更多的网络终端设备如机顶盒、家庭网关等被部署到网络中。网络终端设备自身的复杂性和业务
近年来,嵌入式系统的发展非常迅速,多功能的图形化嵌入式手持终端成为一个热点研究领域。由于手持终端通常都是在移动的环境中运行,传统的机械硬盘完全不能满足其需求。而Fla
目前,多媒体在各个领域都有着自己重要的作用,比如说体育事业,新闻事业甚至于到家庭等领域,而多媒体技术的发展更推动了它的推广和使用。这样同时也就产生了数量浩大的视频数
知识处理是信息技术发展的必然趋势,随着对知识应用要求越来越高,传统的知识库系统已经不能满足新的需求。而得益近几年语义网(SemanticWeb)的迅速发展,构建起了一套比较规范的
随着视频监控应用的广泛发展,网络视频监控系统逐渐成为视频监控领域的主流。为了在有限带宽下高效传输符合质量要求的视频图像,联合视频工作组JVT(Joint Vedio Team)在2003
汽车轮毂自动识别系统主要是研究了一种机器视觉系统,这种系统能够识别流水生产线上不同款式、不同型号的多种汽车轮毂。这种识别系统的优势在于:非接触性、在线实时性、高精