一种基于规则的桌面搜索索引机制

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:xiaoyun1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:Google,百度,MSN和其他一些工具提供了强大的Internet,桌面搜索功能,为用户查找信息提供了便捷,但这些搜索工具并不关心数据本身的结构和语义,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。该文探讨了一种基于规则,将数据的结构和语义考虑在内的桌面搜索索引方法。该方法首先对原始数据进行规范化,然后根据一系列的规则对规范化数据创建索引文件,通过该方法可获得更好的搜索结果,而且该方法可通过扩展应用到其他领域。
  关键词:规则;谓词;桌面搜索;索引
  中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)07-1521-03
  A Rule-based Method of Index in Desktop Search
  SU Jin-bo, YE Hong
  (Department of Computer Sci., Anhui Univ., Hefei 230039, China)
  Abstract: Google, Baidu, Msn and other products provide users powerful way of searching for information on the Internet, desktop. But these facilities don’t care the structure and semantics of data, the search results often include what users don’t want,some data which users care can not be listed. This paper discusses a new method of index in desktop searching, it fully exploits the structure and semantics of data, this method firstly normalize the raw data,create index files based on some rules. With it, better search results can gained, and the method can be applied to other domain with some extension.
  Key words: rule; predicate; desktop search; index
  一些诸如Google,百度,MSN等搜索工具可以方便用户在Internet,桌面上搜索自己感兴趣的资料。这些工具一般是利用倒排文件,将用户可能用到的关键字和相关文档关联起来,通过这些关键字用户可以很快找到对应的文档。但是这种索引机制并不考虑数据本身的结构和语义,所以在桌面搜索[1]中,搜索结果往往包含大量用户不关心的文档,或是一些该被找到的文档却被遗漏。本文讨论了一种扩展的倒排索引机制,该机制基于规则对原始文档进行规范化,能够把数据的结构和语义[2]也考虑在内。通过它可以获得更好的搜索结果。
  1问题举例
  以图1会议室预定系统为例,当邀请者创建一个预定,把被邀请者加入、填写会议时间和地点后,系统自动生成一个邀请函并通过Email发送到被邀请者的邮箱中,假设邀请函以图2的XML[3]文档表示。本文讨论的皆以XML表示,非XML表示的文档都可以通过接口转换成XML文档。
  
  图2邀请函原文档
  其中<被邀请者/>记录在另一个XML文档:
  
  图4邀请函实例
  图4是图2文档的一个实例,其中的<被邀请者/>被“替换”成实际的值:“张三,李四”;会议室402也从文档中删去。类似的对原始文档实例化的例子还可以举出很多,比如“限定”条件(在某些条件下成立,某些条件下该被删除)。
  这个例子说明如果不考虑数据的结构和语义,在桌面搜索中,一部分用户想要的结果就会被漏掉,或者一些不需要的结果就会被搜出。为了提高桌面搜索结果的准确性,本文接下来讨论了一种扩展的索引机制。
  2扩展算法
  传统的索引是基于原始数据创建倒排文件[5][6]的,为了能将数据的语法语义也考虑在内,我们对传统索引方法进行扩展,首先基于一系列的规则,对原始文档进行变换,生成包含数据的结构和语义信息的规范化文档。然后基于规范化的文档再生成倒排文件。整个扩展索引机制的结构图如图5所示。
  
  图6“替换”规则
  
  2)规范化原始文档
  扫描标记表,如果是replace类型的规则,在t.NodeId指向的节点外加一个select节点,该节点的predicate属性为t.Rule t.Operator t.KeyValue;如果是alternative规则,将满足条件的option节点用t.KeyValue代替,其余的option节点全部删除,规范化的文档如图9所示。对于其他规则,可以根据语义添加select和谓词(predicate)属性。
  因为规则是以XSLT和XQuery表示,所以规范化过程可以由程序自动完成。具体见文献[7-9]。
  
  其中添加了Score这一列用来记录该关键字出现的次数,也可以是其他一些信息,搜索结果可以根据score进行排序。
  搜索过程和传统的搜索方法一样,以给定的关键字,通过扫描倒排文件,如果找到相关记录,根据predicate条件判断是否为真,如果为真便可以找到规范化的文档。因为这些规范化的文档就是所有原始文档可能生成的所有实例,所以通过这样的索引机制可以给用户提供更准确的搜索结果。对于详细的搜索过程,不是本文重点,可参考相关文献[5-6]。
  3结束语
  传统的桌面搜索方法不考虑文档所包含的结构和语义,搜索结果常带有垃圾文档,或是用户关心的文档却未找到,本文对传统桌面搜索索引进行扩展,添加一系列规则,用以对原始文档进行规范化,基于这样规范化的文档构建起来的倒排文件,包含原始文档的结构和语义,可以为用户提供更好的搜索结果。这种索引机制还可以通过扩展应用到其他领域。
  参考文献:
  [1]向凯全,王盼卿,陈军广,等.装备领域中语义桌面上的个人主观本体研究[J].计算机技术与发展,2011,21(8).
  [2]邓辉文.离散数学[M].北京:清华大学出版社,2010.
  [3] W3C.Extensible Style sheet Language (XSL)[EB/OL].[2001-10-15].http://www.w3.org.
  [4] Cormen T H.算法导论[M].北京:机械工业出版社,2006.
  [5]王能斌.数据库系统教程[M].北京:电子工业出版社,2002.
  [6]数据结构[EB/OL].http://www.xjife.edu.cn/teacher/wjj/DataStructure/web/wenjian/wenjian10.6.1.htm, 2002.
  [7] XSLT 2.0 and XQuery 1.0 Serialization[EB/OL].Second Edition. [2010-12-14].http://www.w3.org/TR/2010/REC-xslt-xquery-serialization-20101214/.
  [8]洪新华,夏群兵.XSLT在XML文档中的应用研究[J].电脑知识与技术, 2009(5).
  [9] Word Wide Web Consortium. XQuery 1.0 and XPath 2.0 Formal Semantics [EB/OL]. http://www.w3c.org/TR/query-semantics/, 2002.
  [10] XML Path Language (XPath) 2.0[EB/OL].[2010-12-14].Second Edition.http://www.w3.org/TR/2010/REC-xpath20-20101214/.
  [11]郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展, 2007,17(3).
  [12] Deitel H M.Java Web Services for Experienced Programmers [M].北京:机械工业出版社,2003.
其他文献
欧美同学会建言献策委员会、中国与全球化研究中心和社会科学文献出版社7月23日在北京联合发布“国际人才蓝皮书”《中国海归创业发展报告(2012)》。这是中国内地第一本重点研
<正>蛇肺炎是蛇类常见的呼吸道传染病,多发生于盛夏,常见于产卵后不能尽快恢复体力的雌蛇。该病具有传播快、治愈慢等特点。通风不良、气温高、温差太大、空气污浊为本病的诱
日本动画经历了从战前初创阶段到风格革新时代6个阶段,迅速崛起并发展,引发了世界范围内的动画风潮。日本动画以其细腻的表现手法、挖掘深入的主题、独特的人物造型,深受青年
近日,经广西壮族自治区动物疫病预防控制中心专家组考核,钦州市钦南区动物疫病预防控制中心兽医实验室顺利通过考核验收。
肝硬化是各种慢性肝病发展的晚期阶段,如病毒性肝炎,酒精性肝病,药物性肝炎等均可发展为肝硬化,我国是病毒性肝炎高发区,因此在我国病毒性肝炎是肝硬化的首要病因。
莫某自繁自养猪场存栏猪560头(含母猪45头),已进行猪瘟、口蹄疫、高致病性猪蓝耳病等常规免疫。2007年8月上旬,猪群中出现零星发病和突然死亡,截至12月底控制疫情时止,共发病98头,死
用敌百虫驱除羊体内外寄生虫时,由于用药剂量过大、给药方法不当甚至误饮过量的敌百虫药液而引起中毒。2011年6月,笔者在临床中遇到一例羊误饮敌百虫药液中毒的病例,现将情况报
目的:探讨分析慢性阻塞性肺疾病急性发作期采用中医护理方案优化与实践的效果。方法:100例慢性阻塞性肺疾病急性发作期患者,给予中医护理方案进行研究和优化,观察其临床实施效
在2006年~2009年期间利用正向间接血凝试验对百色市2036份猪血清中猪瘟免疫抗体进行监测,并对2009年使用猪瘟细胞苗和猪瘟兔源脾淋苗的免疫效果进行分析。结果发现2006年-2009
到达贵州镇远,已是夕阳西下,古城笼罩在桔色的阳光里。一块块宽阔的青石板因为年代久远,被磨得溜光水滑,落日余晖使光洁的街道变得异常明亮。  当我们在河边的一座吊脚楼用餐的时候,从门窗里望向纯澈的舞阳河面,看到一群光屁股的小男孩在水边快乐地嬉戏,远远传来的笑语声与河水一样清亮——我一下子便喜欢上了这座拥有2000年历史、素有“滇楚锁钥、黔东门户”之称的苗乡古城。  喜欢一个地方,就像喜欢一个人一样,两