论文部分内容阅读
主题数据库规划一直是信息资源规划领域研究的重点,而实体聚合算法是影响主题数据库规划质量的关键。但是现有的计算实体聚合毖方法很容易陷入聚簇偏置,影响了规划质量。针对这一问题,作者首先计算实体对的亲和毖,然后将实体对的亲和关系看作网页之间的链接关系,使用PageRaxtk算法对实体对重要性排序,进而使用K—means算法迭代来聚合实体。实验结果表明本文提出的方法能够避免聚簇偏置,进而改善了主题数据库规划质量。