论文部分内容阅读
近年来,对于关系数据库中Top-N查询的研究已成为国际前沿课题之一。Top-N查询是很有效的现代查询,它弥补了传统数据查询的不足,不仅能够找到与查询条件完全匹配的结果也能找到与查询条件相近结果,并按排序函数对输出的结果进行排序。语义Top-N查询是借鉴语义搜索中语义扩展的技术,通过语义Top-N查询能查找到与查询条件语义相近的结果,其相关程度由语义距离或相似度来度量。目前,对数值属性Top-N查询的研究取得了很多成果,但对文本属性的语义Top-N查询的研究相对较少,并且大多数的研究只针对文本属性或数值属性两者之一。然而,许多实际中的查询可能同时涉及文本属性和数值属性,针对这种情况,本文讨论能够同时对文本和数值两个属性的Top-N查询,查找文本和数值都与查询条件相近的结果,并且查询的排序函数是由文本属性和数值属性两者共同确定。为有效融合文本属性和数值属性,本文通过统计和训练的方法找到一种融合语义距离和数值距离的排序函数,在查询时这个函数能够有效地平衡语义距离和数值距离对查询的影响力度,以保证查询的合理性和高效性。依据得到的排序函数,本文给出了融合文本属性和数值属性的Top-N查询处理方法,其主旨是:通过WordNet语义地扩展数据集中的元组词,生成亲缘词集合,通过亲缘词集合创建一个与元组词语义相关且存储了相关数值信息的索引,利用该索引和简单的SQL Select查询语句快速得到查询的候选元组集,然后用上述排序函数计算候选元组的综合距离并排序,最终得到Top-N结果。本文通过大量的实验来验证这个融合文本属性和数值属性的语义Top-N查询处理方法,实验结果显示出,该方法在查询时间和准确性上是很有效的。