基于检索结果聚类的XML伪反馈技术研究

来源 :江西财经大学 | 被引量 : 3次 | 上传用户:vcnewer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML应用的不断扩展,XML已经成为互联网上信息描述和信息交换的事实标准。XML数据是一种半结构化数据,它的特点是拥有不规则、可变的结构。作为一种新兴的数据格式,如何对它进行有效查询和检索,近几年来一直是数据库和信息检索领域关注的前沿研究课题。目前,在XML文档的精确查询方面取得了很多可喜的研究成果,而基于模糊查询的XML信息检索的研究却不尽人意,研究成果还不成熟。信息检索中查询质量不高的一个很重要原因就是用户往往不能准确地描述自己的查询意图,对XML文档而言,查询表达式不仅包含关键词还要包含结构信息,这对普通用户来说更具难度。在此背景下,引入反馈机制来帮助用户形成准确的查询表达式对XML信息检索具有重要意义。伪反馈不需要用户的参与而受到普遍关注,多次TREC会议表明它是一种简单且有效的查询扩展技术。它假定初始检索结果的前N篇文档是相关的,并以此进行查询扩展。本文围绕伪反馈中存在的“查询主题漂移”现象展开研究,针对用户提交的初始查询,进行有效的查询扩展,力图避免“查询主题漂移”现象,最终提高XML检索性能。在伪反馈中,有两个重要的方面需要解决:(1)如何确定相关文档集。传统伪反馈是采用初始检索结果的前N篇文档作为伪相关文档集,而事实上这N篇文档并不总与查询相关,从不相关的文档里提取扩展信息显然会产生主题漂移,造成性能下降。因此,如何在初始检索结果里确定相关文档,形成较高质量的伪相关文档集是避免“查询漂移”的首要问题。(2)在伪相关文档集里如何挑选扩展信息。对XML文档而言,扩展信息不仅要有关键词项,而且还包括结构信息。围绕这两大方面,本文具体研究了以下内容:(1)研究了XML文档的检索结果聚类。本文主要是面向文本为中心的XML数据环境,因此,聚类过程包含两大方面,其一是如何充分结合XML文档的特征,定义适合XML数据的相似性度量;其二是采用何种聚类算法实现聚类。本文首先以不同的检索结果返回粒度对相似性度量进行了研究:在以文档为返回粒度的检索结果聚类中,提出了内容和结构语义相融合的相似性度量方法CASS(ContentAnd Structure Semantics);在以元素节点为返回粒度的研究中,针对CASS的局限性在该度量方法的基础上进一步提出了基于语义的内容和结构语义相融合的相似性度量方法LSI-CASS(Latent Semantic Indexing based Content And Structure Semantics)。同时,本文还对聚类中存在的最优划分问题也进行了探索,结合文本间的最小相似度,提出了基于优化初始中心点和评价函数的k-medoid聚类算法,从而自动获取了最优的簇数。(2)基于检索结果聚类的文档排序模型研究。文档聚类之后,与用户查询相关的文档(或文档片段)在一定程度上聚簇在了一起,接下来的关键问题是如何把与用户查询相关的簇号挑选出来以及在挑选出来的相关簇中如何把相关文档(或文档片段)进一步查找出来。针对文档与元素节点两种不同的返回粒度,本文分别研究了候选簇的排序模型以及候选簇中文档(或文档片段)的排序模型。首先利用簇中心特征,提出了基于簇中心的候选簇排序模型。其次,结合XML文档的结构特性,在候选簇的文档(或文档片段)排序模型中提出了一系列的排序特征,并以此作为文档(或文档片段)排序的依据。通过两种排序模型有效地形成了较高质量的XML伪相关文档(或文档片段)集。(3)XML查询扩展研究。本文主要对面向CO(Content Only)查询的XML查询扩展进行研究,提出了基于伪反馈的XML查询扩展方法。在上述XML伪相关文档集里,一方面对词项扩展进行了研究,基于带结构的词项权值计算方法对查询词进行了扩展,有效地提高了检索系统的性能;与此同时,另一方面利用XML文档的树状模型,在扩展词项的基础上基于最大标签语义权重的结构扩展方法有效获得了完整的“内容+结构”的查询扩展表达式。本文的创新性工作体现在:(1)提出了基于检索结果聚类指导下的XML伪反馈技术路线。目前国内外基于伪反馈的XML信息检索的研究成果极少,针对XML检索结果聚类的研究还不多见,本文提出的基于检索结果聚类的XML伪反馈能充分利用聚类的相应特征来有效地解决传统伪反馈中扩展源质量不高的问题。首先在候选簇的排序模型中,文中充分利用簇标签特征,基于均衡化权值获得了较为合理的候选簇,其次,区别于传统信息检索排序机制,在候选簇的文档排序模型里充分考虑了聚类所带来的相应特征,比如文档与簇的相似度、簇的排名等因素,对文档进行了有效排序。实验数据表明该思路是行之有效的,检索结果聚类能够帮助获得较高质量的XML伪相关文档集,有效地确保了扩展源的质量。(2)针对XML文档聚类,提出了带结构语义的扩展向量空间模型,并在此基础上,提出了度量文档之间相似性的内容与结构语义相融合的相似性度量方法CASS。一方面,该方法采用内容为主、结构为辅的思路将XML文档的内容特征与结构特征有机地融合在一起,这种融合区别于现有的XML文档相似性度量方法。现有的XML文档相似性度量方法虽然也考虑了文档的内容特征和结构特征,但是却完全割裂了彼此之间的联系,尤其在同构数据集里无法获得较好的效果。另一方面,相似性度量方法中,词项的权重计算不仅从传统的词项频度出发,还考虑了XML文档的标签语义信息、标签的层次信息等反映结构语义的特征,这些特征有效地融合了XML的内容和结构双重特性,避免了当前许多同类的XML文档相似性度量方法需要用户事先指定参数的局限性,因此具有更好的灵活性和普遍性。(3)首次以元素节点为返回粒度对XML检索结果聚类进行了研究,提出了基于词项语义的内容与结构语义相融合的相似性度量方法LSI-CASS,该方法区别于以往XML文档间的相似性度量方法,一方面完全将XML文档的内容与结构特征融合在一起,另一方面还充分考虑了词项间的语义关系,利用隐含语义索引技术获取了文档内容的核心“概念”。同构数据集上的相关实验数据表明,LSI-CASS方法能获得比其他度量方法更好的聚类质量。
其他文献
<正> 宾阳县顾明公社下寨第三生产队,去年晚稻育秧大胆革新,采用先进技术育老壮秧获得增产。据统计有8.73亩插金石一号老壮秧的高产试验垌,平均亩产703斤,比插一般秧的亩产51
期刊
<正>培育健壮秧苗是水稻丰产的基础,壮苗标准:秧龄30~35d,叶龄3.5~4.5叶,苗高12~14cm,根数9~10条,100株苗干重3g以上。现将寒地水稻壮秧培育技术介绍如下。?一、壮秧标准1、外部
随着宽带传输网络的日益完善和视频软、硬件处理技术的快速发展和广泛应用,尤其随着WEB2.0技术的快速发展,使得网络视频内容呈爆炸性增长的同时也伴随着产生了大量的近重复视
管理会计相较于财务会计具有方法多样性和时间随意性的特点,这使得管理会计的核算活动更加快捷和有效。在目前使用的比较广泛的成本管理注重在产品生产过程中的日常控制,而管
苏州大学非织造材料与工程专业根据教育国际化的要求,经过努力初步构建了全英"非织造材料结构与性能表征"的课程体系。分别从师资团队、教材选择、课程内容、案例教学、建立
辽代是由少数民族建立的政权,曾发行过大量钱币。前人从种类、币文、经济意义等方面对辽代钱币进行了成果丰硕的研究。近年来,随着辽代考古的持续发展,新考古成果不断涌现。
摘要:《矩阵论》作为工科研究生的一门重要数学公共基础课程,在研究生教学与科研中占有极其重要的地位。传统的主要靠老师讲解基础知识为主的课堂教学模式,很难激发研究生的学习动力和兴趣。通过课程改革,可以激发研究生的学习动力和兴趣,发掘提升研究生的自主学习能力,提高研究生的教育质量和科研水平。  关键词:研究生;学习动力;兴趣;课程改革  中图分类号:G643 文献标志码:A 文章编号:1674-9324
文章通过列举物业管理方面的详细内容,集中探讨了单一业主酬金制物业管理服务模式,以期给物业管理研究者提供参考。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在机器学习、模式识别和数据挖掘等领域的研究中,聚类分析是一类极为重要的数据分析方法。聚类分析方法在图像分析、生物信息学、web数据分析、社交网络分析、天文学等诸多领