论文部分内容阅读
摘要:Google,百度,MSN和其他一些工具提供了强大的Internet,桌面搜索功能,为用户查找信息提供了便捷,但这些搜索工具并不关心数据本身的结构和语义,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。该文探讨了一种基于规则,将数据的结构和语义考虑在内的桌面搜索索引方法。该方法首先对原始数据进行规范化,然后根据一系列的规则对规范化数据创建索引文件,通过该方法可获得更好的搜索结果,而且该方法可通过扩展应用到其他领域。
关键词:规则;谓词;桌面搜索;索引
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)07-1521-03
A Rule-based Method of Index in Desktop Search
SU Jin-bo, YE Hong
(Department of Computer Sci., Anhui Univ., Hefei 230039, China)
Abstract: Google, Baidu, Msn and other products provide users powerful way of searching for information on the Internet, desktop. But these facilities don’t care the structure and semantics of data, the search results often include what users don’t want,some data which users care can not be listed. This paper discusses a new method of index in desktop searching, it fully exploits the structure and semantics of data, this method firstly normalize the raw data,create index files based on some rules. With it, better search results can gained, and the method can be applied to other domain with some extension.
Key words: rule; predicate; desktop search; index
一些诸如Google,百度,MSN等搜索工具可以方便用户在Internet,桌面上搜索自己感兴趣的资料。这些工具一般是利用倒排文件,将用户可能用到的关键字和相关文档关联起来,通过这些关键字用户可以很快找到对应的文档。但是这种索引机制并不考虑数据本身的结构和语义,所以在桌面搜索[1]中,搜索结果往往包含大量用户不关心的文档,或是一些该被找到的文档却被遗漏。本文讨论了一种扩展的倒排索引机制,该机制基于规则对原始文档进行规范化,能够把数据的结构和语义[2]也考虑在内。通过它可以获得更好的搜索结果。
1问题举例
以图1会议室预定系统为例,当邀请者创建一个预定,把被邀请者加入、填写会议时间和地点后,系统自动生成一个邀请函并通过Email发送到被邀请者的邮箱中,假设邀请函以图2的XML[3]文档表示。本文讨论的皆以XML表示,非XML表示的文档都可以通过接口转换成XML文档。
图2邀请函原文档
其中<被邀请者/>记录在另一个XML文档:
图4邀请函实例
图4是图2文档的一个实例,其中的<被邀请者/>被“替换”成实际的值:“张三,李四”;会议室402也从文档中删去。类似的对原始文档实例化的例子还可以举出很多,比如“限定”条件(在某些条件下成立,某些条件下该被删除)。
这个例子说明如果不考虑数据的结构和语义,在桌面搜索中,一部分用户想要的结果就会被漏掉,或者一些不需要的结果就会被搜出。为了提高桌面搜索结果的准确性,本文接下来讨论了一种扩展的索引机制。
2扩展算法
传统的索引是基于原始数据创建倒排文件[5][6]的,为了能将数据的语法语义也考虑在内,我们对传统索引方法进行扩展,首先基于一系列的规则,对原始文档进行变换,生成包含数据的结构和语义信息的规范化文档。然后基于规范化的文档再生成倒排文件。整个扩展索引机制的结构图如图5所示。
图6“替换”规则
2)规范化原始文档
扫描标记表,如果是replace类型的规则,在t.NodeId指向的节点外加一个select节点,该节点的predicate属性为t.Rule t.Operator t.KeyValue;如果是alternative规则,将满足条件的option节点用t.KeyValue代替,其余的option节点全部删除,规范化的文档如图9所示。对于其他规则,可以根据语义添加select和谓词(predicate)属性。
因为规则是以XSLT和XQuery表示,所以规范化过程可以由程序自动完成。具体见文献[7-9]。
其中添加了Score这一列用来记录该关键字出现的次数,也可以是其他一些信息,搜索结果可以根据score进行排序。
搜索过程和传统的搜索方法一样,以给定的关键字,通过扫描倒排文件,如果找到相关记录,根据predicate条件判断是否为真,如果为真便可以找到规范化的文档。因为这些规范化的文档就是所有原始文档可能生成的所有实例,所以通过这样的索引机制可以给用户提供更准确的搜索结果。对于详细的搜索过程,不是本文重点,可参考相关文献[5-6]。
3结束语
传统的桌面搜索方法不考虑文档所包含的结构和语义,搜索结果常带有垃圾文档,或是用户关心的文档却未找到,本文对传统桌面搜索索引进行扩展,添加一系列规则,用以对原始文档进行规范化,基于这样规范化的文档构建起来的倒排文件,包含原始文档的结构和语义,可以为用户提供更好的搜索结果。这种索引机制还可以通过扩展应用到其他领域。
参考文献:
[1]向凯全,王盼卿,陈军广,等.装备领域中语义桌面上的个人主观本体研究[J].计算机技术与发展,2011,21(8).
[2]邓辉文.离散数学[M].北京:清华大学出版社,2010.
[3] W3C.Extensible Style sheet Language (XSL)[EB/OL].[2001-10-15].http://www.w3.org.
[4] Cormen T H.算法导论[M].北京:机械工业出版社,2006.
[5]王能斌.数据库系统教程[M].北京:电子工业出版社,2002.
[6]数据结构[EB/OL].http://www.xjife.edu.cn/teacher/wjj/DataStructure/web/wenjian/wenjian10.6.1.htm, 2002.
[7] XSLT 2.0 and XQuery 1.0 Serialization[EB/OL].Second Edition. [2010-12-14].http://www.w3.org/TR/2010/REC-xslt-xquery-serialization-20101214/.
[8]洪新华,夏群兵.XSLT在XML文档中的应用研究[J].电脑知识与技术, 2009(5).
[9] Word Wide Web Consortium. XQuery 1.0 and XPath 2.0 Formal Semantics [EB/OL]. http://www.w3c.org/TR/query-semantics/, 2002.
[10] XML Path Language (XPath) 2.0[EB/OL].[2010-12-14].Second Edition.http://www.w3.org/TR/2010/REC-xpath20-20101214/.
[11]郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展, 2007,17(3).
[12] Deitel H M.Java Web Services for Experienced Programmers [M].北京:机械工业出版社,2003.
关键词:规则;谓词;桌面搜索;索引
中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)07-1521-03
A Rule-based Method of Index in Desktop Search
SU Jin-bo, YE Hong
(Department of Computer Sci., Anhui Univ., Hefei 230039, China)
Abstract: Google, Baidu, Msn and other products provide users powerful way of searching for information on the Internet, desktop. But these facilities don’t care the structure and semantics of data, the search results often include what users don’t want,some data which users care can not be listed. This paper discusses a new method of index in desktop searching, it fully exploits the structure and semantics of data, this method firstly normalize the raw data,create index files based on some rules. With it, better search results can gained, and the method can be applied to other domain with some extension.
Key words: rule; predicate; desktop search; index
一些诸如Google,百度,MSN等搜索工具可以方便用户在Internet,桌面上搜索自己感兴趣的资料。这些工具一般是利用倒排文件,将用户可能用到的关键字和相关文档关联起来,通过这些关键字用户可以很快找到对应的文档。但是这种索引机制并不考虑数据本身的结构和语义,所以在桌面搜索[1]中,搜索结果往往包含大量用户不关心的文档,或是一些该被找到的文档却被遗漏。本文讨论了一种扩展的倒排索引机制,该机制基于规则对原始文档进行规范化,能够把数据的结构和语义[2]也考虑在内。通过它可以获得更好的搜索结果。
1问题举例
以图1会议室预定系统为例,当邀请者创建一个预定,把被邀请者加入、填写会议时间和地点后,系统自动生成一个邀请函并通过Email发送到被邀请者的邮箱中,假设邀请函以图2的XML[3]文档表示。本文讨论的皆以XML表示,非XML表示的文档都可以通过接口转换成XML文档。
图2邀请函原文档
其中<被邀请者/>记录在另一个XML文档:
图4邀请函实例
图4是图2文档的一个实例,其中的<被邀请者/>被“替换”成实际的值:“张三,李四”;会议室402也从文档中删去。类似的对原始文档实例化的例子还可以举出很多,比如“限定”条件(在某些条件下成立,某些条件下该被删除)。
这个例子说明如果不考虑数据的结构和语义,在桌面搜索中,一部分用户想要的结果就会被漏掉,或者一些不需要的结果就会被搜出。为了提高桌面搜索结果的准确性,本文接下来讨论了一种扩展的索引机制。
2扩展算法
传统的索引是基于原始数据创建倒排文件[5][6]的,为了能将数据的语法语义也考虑在内,我们对传统索引方法进行扩展,首先基于一系列的规则,对原始文档进行变换,生成包含数据的结构和语义信息的规范化文档。然后基于规范化的文档再生成倒排文件。整个扩展索引机制的结构图如图5所示。
图6“替换”规则
2)规范化原始文档
扫描标记表,如果是replace类型的规则,在t.NodeId指向的节点外加一个select节点,该节点的predicate属性为t.Rule t.Operator t.KeyValue;如果是alternative规则,将满足条件的option节点用t.KeyValue代替,其余的option节点全部删除,规范化的文档如图9所示。对于其他规则,可以根据语义添加select和谓词(predicate)属性。
因为规则是以XSLT和XQuery表示,所以规范化过程可以由程序自动完成。具体见文献[7-9]。
其中添加了Score这一列用来记录该关键字出现的次数,也可以是其他一些信息,搜索结果可以根据score进行排序。
搜索过程和传统的搜索方法一样,以给定的关键字,通过扫描倒排文件,如果找到相关记录,根据predicate条件判断是否为真,如果为真便可以找到规范化的文档。因为这些规范化的文档就是所有原始文档可能生成的所有实例,所以通过这样的索引机制可以给用户提供更准确的搜索结果。对于详细的搜索过程,不是本文重点,可参考相关文献[5-6]。
3结束语
传统的桌面搜索方法不考虑文档所包含的结构和语义,搜索结果常带有垃圾文档,或是用户关心的文档却未找到,本文对传统桌面搜索索引进行扩展,添加一系列规则,用以对原始文档进行规范化,基于这样规范化的文档构建起来的倒排文件,包含原始文档的结构和语义,可以为用户提供更好的搜索结果。这种索引机制还可以通过扩展应用到其他领域。
参考文献:
[1]向凯全,王盼卿,陈军广,等.装备领域中语义桌面上的个人主观本体研究[J].计算机技术与发展,2011,21(8).
[2]邓辉文.离散数学[M].北京:清华大学出版社,2010.
[3] W3C.Extensible Style sheet Language (XSL)[EB/OL].[2001-10-15].http://www.w3.org.
[4] Cormen T H.算法导论[M].北京:机械工业出版社,2006.
[5]王能斌.数据库系统教程[M].北京:电子工业出版社,2002.
[6]数据结构[EB/OL].http://www.xjife.edu.cn/teacher/wjj/DataStructure/web/wenjian/wenjian10.6.1.htm, 2002.
[7] XSLT 2.0 and XQuery 1.0 Serialization[EB/OL].Second Edition. [2010-12-14].http://www.w3.org/TR/2010/REC-xslt-xquery-serialization-20101214/.
[8]洪新华,夏群兵.XSLT在XML文档中的应用研究[J].电脑知识与技术, 2009(5).
[9] Word Wide Web Consortium. XQuery 1.0 and XPath 2.0 Formal Semantics [EB/OL]. http://www.w3c.org/TR/query-semantics/, 2002.
[10] XML Path Language (XPath) 2.0[EB/OL].[2010-12-14].Second Edition.http://www.w3.org/TR/2010/REC-xpath20-20101214/.
[11]郭太飞,何洁月.归纳学习XPATH Web信息提取规则[J].计算机技术与发展, 2007,17(3).
[12] Deitel H M.Java Web Services for Experienced Programmers [M].北京:机械工业出版社,2003.