论文部分内容阅读
随着Internet的不断发展,网络上的在线数据库越来越多,许多用户可以通过Web站点提供的查询接口来访问Web数据库中的信息,这种在Web中可通过查询接口访问的在线数据库,被称为Web数据库。对于Web数据库,由于普通用户对数据库的存储内容和存储结构并不十分了解,或者查询意图本身就比较模糊不清,因此他们通常很难准确、完整地表达其查询要求,所提交的查询条件可能只是对查询结果的一个试探性要求,从而导致了数据库返回大量与用户查询意图相关性不高的结果。 为了解决多查询结果问题,研究者们提出根据用户偏好对查询结果进行排序和分类的方法。但是,大多数的研究工作都假设用户具有相同的偏好,而在现实生活中,不同的用户会具有不同的偏好。为解决用户偏好的多样性问题,本文提出一种基于改进决策树算法的数据库多查询结果个性化分类方法。该方法分为两个处理过程:第一步是离线处理,该过程分析系统中所有用户的查询历史,并在原始数据集上产生一个元组聚类集合,每一个集合对应一种用户偏好类型。第二步是在线处理,当用户查询到来时,向用户提供一个在这些聚类上的导航树,使得用户能够方便的选择与其偏好相匹配的聚类子集。在此基础上,用户可以在选择的偏好聚类上对结果进行浏览,排序或再分类。导航树的构建使用了改进的决策树算法并且考虑了构建导航树的代价,能够在保证最小代价的前提下提供最好的分类结果。 实验证明,本文提出的Web数据库查询结果个性化分类方法能够很好的满足用户需求和偏好,与解决同类问题的分类方法相比,具有较高的分类质量和执行效率。